Statistica per i big data
A.A. 2018/2019
Obiettivi formativi
Il corso si propone di introdurre ed illustrare specifiche metodologie statistiche, informatiche e di data mining per l'analisi di Big Data. L'implementazione di tali tecniche avverrà mediante l'impiego del software statistico R. Al termine del corso, lo studente dovrà aver acquisito adeguate competenze statistiche e di programmazione che gli consentano di padroneggiare gli strumenti statistici ed informatici necessari per l'analisi dei dati e l'estrapolazione delle informazioni di interesse derivante dai dati stessi.
Risultati apprendimento attesi
Non definiti
Periodo: Terzo trimestre
Modalità di valutazione: Esame
Giudizio di valutazione: voto verbalizzato in trentesimi
Corso singolo
Questo insegnamento non può essere seguito come corso singolo. Puoi trovare gli insegnamenti disponibili consultando il catalogo corsi singoli.
Programma e organizzazione didattica
Edizione unica
Periodo
Terzo trimestre
STUDENTI FREQUENTANTI
Programma
Il corso sarà articolato secondo le seguenti tematiche:
PRIMA PARTE :
1) TECNICHE DI DATA MINING 1 : modelli supervisionati
1.1 modelli lineari generalizzati (logit, probit e tobit)
1.2 modelli multilivello
2) TECNICHE DI DATA MINING 2 : modelli non supervisionati
2.1 cluster analysis
2.2 analisi delle componenti principali
2.3 cenni all'analisi fattoriale
2.4 cross-validation
2.5 analisi testuale (text mining)
SECONDA PARTE :
1) Introduzione alla programmazione in R e Python
2) Tecniche di data mash up
3) Tecniche di cloud computing
4) Tecniche di web scraping
5) Interazione con database relazionali e non relazionali
6) Big data analytics
PRIMA PARTE :
1) TECNICHE DI DATA MINING 1 : modelli supervisionati
1.1 modelli lineari generalizzati (logit, probit e tobit)
1.2 modelli multilivello
2) TECNICHE DI DATA MINING 2 : modelli non supervisionati
2.1 cluster analysis
2.2 analisi delle componenti principali
2.3 cenni all'analisi fattoriale
2.4 cross-validation
2.5 analisi testuale (text mining)
SECONDA PARTE :
1) Introduzione alla programmazione in R e Python
2) Tecniche di data mash up
3) Tecniche di cloud computing
4) Tecniche di web scraping
5) Interazione con database relazionali e non relazionali
6) Big data analytics
Informazioni sul programma
Propedeuticità
Si consiglia fortemente il superamento degli esami di Matematica, Statistica ed Econometria.
Prerequisiti
Ai fini del superamento dell'esame è necessario che lo studente abbia maturato un'adeguata conoscenza dei principali contenuti di Matematica, Statistica ed Econometria.
L'esame prevede la stesura di una relazione che descriva i principali risultati ottenuti mediante un'analisi statistica di dataset assegnati e nella presentazione di tali risultati attraverso un'esposizione orale supportata dalla proiezione di slides in PowerPoint.
L'esame prevede la stesura di una relazione che descriva i principali risultati ottenuti mediante un'analisi statistica di dataset assegnati e nella presentazione di tali risultati attraverso un'esposizione orale supportata dalla proiezione di slides in PowerPoint.
Metodi didattici
Gli strumenti di supporto al corso consisteranno nell'impiego della lavagna e della lavagna luminosa congiuntamente all'utilizzo del software R.
Materiale di riferimento
STUDENTI NON FREQUENTANTI
Riferimenti bibliografici in italiano:
Paolo Giudici (2005): Data Mining, Metodi informatici, statistici e applicazioni, 2° Edizione, McGraw-Hill
Andrea Cerioli e Sergio Zani (2007): Analisi dei dati e data mining per le decisioni aziendali, Giuffré Editore
Riferimenti bibliografici in inglese:
Paolo Giudici, Silvia Figini (2009): Applied data mining for business and industry, Second Edition, Wiley
Barrie Sosinsky (2010): Cloud Computing Bible, Wiley.
Ulteriori informazioni ed integrazioni bibliografiche saranno comunicate durante il corso.
Paolo Giudici (2005): Data Mining, Metodi informatici, statistici e applicazioni, 2° Edizione, McGraw-Hill
Andrea Cerioli e Sergio Zani (2007): Analisi dei dati e data mining per le decisioni aziendali, Giuffré Editore
Riferimenti bibliografici in inglese:
Paolo Giudici, Silvia Figini (2009): Applied data mining for business and industry, Second Edition, Wiley
Barrie Sosinsky (2010): Cloud Computing Bible, Wiley.
Ulteriori informazioni ed integrazioni bibliografiche saranno comunicate durante il corso.
Programma
Il corso sarà articolato secondo le seguenti tematiche:
PRIMA PARTE :
1) TECNICHE DI DATA MINING 1 : modelli supervisionati
1.1 modelli lineari generalizzati (logit, probit e tobit)
1.2 modelli multilivello
2) TECNICHE DI DATA MINING 2 : modelli non supervisionati
2.1 cluster analysis
2.2 analisi delle componenti principali
2.3 cenni all'analisi fattoriale
2.4 cross-validation
2.5 analisi testuale (text mining)
SECONDA PARTE :
1) Tecniche di data mash up
2) Tecniche di cloud computing
3) Tecniche di web scraping
2) Interazione con database relazionali e non relazionali
3) Big data analytics
PRIMA PARTE :
1) TECNICHE DI DATA MINING 1 : modelli supervisionati
1.1 modelli lineari generalizzati (logit, probit e tobit)
1.2 modelli multilivello
2) TECNICHE DI DATA MINING 2 : modelli non supervisionati
2.1 cluster analysis
2.2 analisi delle componenti principali
2.3 cenni all'analisi fattoriale
2.4 cross-validation
2.5 analisi testuale (text mining)
SECONDA PARTE :
1) Tecniche di data mash up
2) Tecniche di cloud computing
3) Tecniche di web scraping
2) Interazione con database relazionali e non relazionali
3) Big data analytics
Prerequisiti
Ai fini del superamento dell'esame è necessario che lo studente abbia maturato un'adeguata conoscenza dei principali contenuti di Matematica, Statistica ed Econometria.
L'esame prevede la stesura di una relazione che descriva i principali risultati ottenuti mediante un'analisi statistica di dataset assegnati e nella presentazione di tali risultati attraverso un'esposizione orale supportata dalla proiezione di slides in PowerPoint.
L'esame prevede la stesura di una relazione che descriva i principali risultati ottenuti mediante un'analisi statistica di dataset assegnati e nella presentazione di tali risultati attraverso un'esposizione orale supportata dalla proiezione di slides in PowerPoint.
Materiale di riferimento
Riferimenti bibliografici in italiano:
Paolo Giudici (2005): Data Mining, Metodi informatici, statistici e applicazioni, 2° Edizione, McGraw-Hill
Andrea Cerioli e Sergio Zani (2007): Analisi dei dati e data mining per le decisioni aziendali, Giuffré Editore
Riferimenti bibliografici in inglese:
Paolo Giudici, Silvia Figini (2009): Applied data mining for business and industry, Second Edition, Wiley
Barrie Sosinsky (2010): Cloud Computing Bible, Wiley.
Ulteriori informazioni ed integrazioni bibliografiche saranno comunicate durante il corso.
Paolo Giudici (2005): Data Mining, Metodi informatici, statistici e applicazioni, 2° Edizione, McGraw-Hill
Andrea Cerioli e Sergio Zani (2007): Analisi dei dati e data mining per le decisioni aziendali, Giuffré Editore
Riferimenti bibliografici in inglese:
Paolo Giudici, Silvia Figini (2009): Applied data mining for business and industry, Second Edition, Wiley
Barrie Sosinsky (2010): Cloud Computing Bible, Wiley.
Ulteriori informazioni ed integrazioni bibliografiche saranno comunicate durante il corso.
SECS-S/01 - STATISTICA - CFU: 6
Lezioni: 40 ore
Docente:
Manzi Giancarlo