Statistica per big data economico/aziendali

A.A. 2021/2022
6
Crediti massimi
40
Ore totali
SSD
SECS-S/03
Lingua
Italiano
Obiettivi formativi
Il corso si propone di introdurre ed illustrare specifiche metodologie statistiche, informatiche e di machine learning per l'analisi dei Big Data nelle applicazioni economiche, aziendali e finanziarie. Tutto il corso verterà principalmente sul linguaggio di programmazione Python che di gran lunga è il più usato nelle applicazioni Big Data, ma si dedicheranno alcune parti al linguaggio R e ad altri linguaggi più classici come Java. Sul lato statistico si proporranno temi di statistical learning supervisionato e non supervisionato con qualche accenno alla statistica bayesiana.
Risultati apprendimento attesi
Al termine del corso, lo studente avrà acquisito adeguate competenze statistiche e di programmazione che gli consentiranno di padroneggiare gli strumenti necessari per l'analisi dei Big Data e l'estrapolazione delle informazioni di interesse in ambito economico, aziendale e finanziario.
Corso singolo

Questo insegnamento non può essere seguito come corso singolo. Puoi trovare gli insegnamenti disponibili consultando il catalogo corsi singoli.

Programma e organizzazione didattica

Edizione unica

Periodo
Terzo trimestre
Metodi di insegnamento.
Le lezioni si terranno sia in presenza in aula sia sulla piattaforma Microsoft Teams in modalità sincrona.

Programma e materiale di riferimento.
Il programma e il materiale di riferimento sono gli stessi sia per chi seguirà le lezioni in presenza sia per chi le seguirà in remoto.

Verifica dei criteri di apprendimento e valutazione.
L'esame si svolgerà con un test scritto a risposta multipla.
L'esame, in particolare, sarà finalizzato a:
- assicurare il raggiungimento degli obiettivi in ​​termini di conoscenza e comprensione;
- accertare la capacità di applicare le conoscenze e la comprensione attraverso la discussione di casi specifici in cui verranno applicati gli argomenti del corso;
- verificare l'autonomia dello studente nello sviluppo delle proprie attitudini sugli argomenti del corso.

Programma
PRIMA PARTE :
1) TECNICHE DI DATA SCIENCE: modelli supervisionati
1.1 Modello di regressione lineare multipla
1.2 Modelli lineari generalizzati (logit, probit e tobit)
2) TECNICHE DI DATA SCIENCE: modelli non supervisionati
2.1 cluster analysis
2.2 analisi delle componenti principali
2.3 cross-validation
2.4 analisi testuale (text mining)
SECONDA PARTE :
1) Introduzione alla programmazione in R e Python per le applicazioni statistiche ed economiche
2) Introduzione al cloud computing
3) Introduzione al web scraping
4) Introduzione al database relazionale e non relazionale
5) Introduzione ad Hadoop per il big data processing
Prerequisiti
Conoscenza delle tecniche statistiche e matematiche di base. La conoscenza di alcune tecniche di programmazione è utile ma non essenziale.
Metodi didattici
Le lezioni saranno svolte con il coinvolgimento attivo degli studenti, soprattutto nella parte di programmazione. Saranno spesso invitati a seguire attivamente (cioè anche sui loro portatili personali) passi di programmi informatici proposti in aula assieme al docente, in un approccio "what-if". Si lavorerà anche in gruppi per condividere l'apprendimento.
Materiale di riferimento
James, Witten, Hastie, Tibshirani (2013). Introduction to Statistical Learning, Springer
Sosinsky (2010). Cloud Computing Bible, Wiley
Raschka, Mirjalili (2013). Python Machine Learning
Wiktorski, (2019). Data-intensive Systems, Springer.
Altri materiali didattici verranno suggerito nel corso delle lezioni.
Modalità di verifica dell’apprendimento e criteri di valutazione
L'esame consisterà in un test con domande che prevedono risposte multiple. Durante il corso si proporranno alcuni assignment sia in aula che da consegnare a breve termine che concorreranno al punteggio finale.
SECS-S/03 - STATISTICA ECONOMICA - CFU: 6
Lezioni: 40 ore
Docente: Manzi Giancarlo