Statistica per i big data

A.A. 2018/2019
6
Crediti massimi
40
Ore totali
SSD
SECS-S/01
Lingua
Italiano
Obiettivi formativi
Il corso si propone di introdurre ed illustrare specifiche metodologie statistiche, informatiche e di data mining per l'analisi di Big Data. L'implementazione di tali tecniche avverrà mediante l'impiego del software statistico R. Al termine del corso, lo studente dovrà aver acquisito adeguate competenze statistiche e di programmazione che gli consentano di padroneggiare gli strumenti statistici ed informatici necessari per l'analisi dei dati e l'estrapolazione delle informazioni di interesse derivante dai dati stessi.
Risultati apprendimento attesi
Non definiti
Corso singolo

Questo insegnamento non può essere seguito come corso singolo. Puoi trovare gli insegnamenti disponibili consultando il catalogo corsi singoli.

Programma e organizzazione didattica

Edizione unica

Periodo
Terzo trimestre

STUDENTI FREQUENTANTI
Programma
Il corso sarà articolato secondo le seguenti tematiche:

PRIMA PARTE :

1) TECNICHE DI DATA MINING 1 : modelli supervisionati
1.1 modelli lineari generalizzati (logit, probit e tobit)
1.2 modelli multilivello


2) TECNICHE DI DATA MINING 2 : modelli non supervisionati
2.1 cluster analysis
2.2 analisi delle componenti principali
2.3 cenni all'analisi fattoriale
2.4 cross-validation
2.5 analisi testuale (text mining)

SECONDA PARTE :

1) Introduzione alla programmazione in R e Python
2) Tecniche di data mash up
3) Tecniche di cloud computing
4) Tecniche di web scraping
5) Interazione con database relazionali e non relazionali
6) Big data analytics
Informazioni sul programma
Propedeuticità
Si consiglia fortemente il superamento degli esami di Matematica, Statistica ed Econometria.
Prerequisiti
Ai fini del superamento dell'esame è necessario che lo studente abbia maturato un'adeguata conoscenza dei principali contenuti di Matematica, Statistica ed Econometria.
L'esame prevede la stesura di una relazione che descriva i principali risultati ottenuti mediante un'analisi statistica di dataset assegnati e nella presentazione di tali risultati attraverso un'esposizione orale supportata dalla proiezione di slides in PowerPoint.
Metodi didattici
Gli strumenti di supporto al corso consisteranno nell'impiego della lavagna e della lavagna luminosa congiuntamente all'utilizzo del software R.
Materiale di riferimento
Riferimenti bibliografici in italiano:

Paolo Giudici (2005): Data Mining, Metodi informatici, statistici e applicazioni, 2° Edizione, McGraw-Hill
Andrea Cerioli e Sergio Zani (2007): Analisi dei dati e data mining per le decisioni aziendali, Giuffré Editore

Riferimenti bibliografici in inglese:

Paolo Giudici, Silvia Figini (2009): Applied data mining for business and industry, Second Edition, Wiley
Barrie Sosinsky (2010): Cloud Computing Bible, Wiley.

Ulteriori informazioni ed integrazioni bibliografiche saranno comunicate durante il corso.
STUDENTI NON FREQUENTANTI
Programma
Il corso sarà articolato secondo le seguenti tematiche:

PRIMA PARTE :

1) TECNICHE DI DATA MINING 1 : modelli supervisionati
1.1 modelli lineari generalizzati (logit, probit e tobit)
1.2 modelli multilivello


2) TECNICHE DI DATA MINING 2 : modelli non supervisionati
2.1 cluster analysis
2.2 analisi delle componenti principali
2.3 cenni all'analisi fattoriale
2.4 cross-validation
2.5 analisi testuale (text mining)

SECONDA PARTE :

1) Tecniche di data mash up
2) Tecniche di cloud computing
3) Tecniche di web scraping
2) Interazione con database relazionali e non relazionali
3) Big data analytics
Prerequisiti
Ai fini del superamento dell'esame è necessario che lo studente abbia maturato un'adeguata conoscenza dei principali contenuti di Matematica, Statistica ed Econometria.
L'esame prevede la stesura di una relazione che descriva i principali risultati ottenuti mediante un'analisi statistica di dataset assegnati e nella presentazione di tali risultati attraverso un'esposizione orale supportata dalla proiezione di slides in PowerPoint.
Materiale di riferimento
Riferimenti bibliografici in italiano:

Paolo Giudici (2005): Data Mining, Metodi informatici, statistici e applicazioni, 2° Edizione, McGraw-Hill
Andrea Cerioli e Sergio Zani (2007): Analisi dei dati e data mining per le decisioni aziendali, Giuffré Editore

Riferimenti bibliografici in inglese:

Paolo Giudici, Silvia Figini (2009): Applied data mining for business and industry, Second Edition, Wiley
Barrie Sosinsky (2010): Cloud Computing Bible, Wiley.

Ulteriori informazioni ed integrazioni bibliografiche saranno comunicate durante il corso.
SECS-S/01 - STATISTICA - CFU: 6
Lezioni: 40 ore
Docente: Manzi Giancarlo