Metodologie di analisi dati
A.A. 2024/2025
Obiettivi formativi
Questo insegnamento introduce gli studenti all'analisi statistica dei dati sperimentali e fornisce le basi per applicazioni col linguaggio C++ in ambiente ROOT con applicazioni semplici al computer. Attraverso la risoluzione di problemi lo studente potrà applicare le tecniche di analisi dati e valutare i risultati in modo quantitativo.
Risultati apprendimento attesi
Al termine dell'insegnamento lo studente avrà appreso gli elementi fondamentali dell'analisi statistica dei dati sperimentali e sarà in grado di estrarre informazioni quantitative da un campione di dati, anche attraverso l'uso di applicazioni semplici al computer. In particolare lo studente avrà sviluppato conoscenze di base del calcolo delle probabilità, tecniche di simulazione Monte Carlo, test statistici, classificazione degli eventi e metodi di stima dei parametri. Inoltre sarà in grado di realizzare semplici applicazioni in ambiente ROOT per l'analisi dei dati.
Periodo: Primo semestre
Modalità di valutazione: Esame
Giudizio di valutazione: voto verbalizzato in trentesimi
Corso singolo
Questo insegnamento può essere seguito come corso singolo.
Programma e organizzazione didattica
Edizione unica
Responsabile
Periodo
Primo semestre
Programma
1. Introduzione
Concetto di inferenza statistica. Classificazione di tipi di inferenza. Incertezza statistica e incertezza sistematica. Variabili aleatorie. Valori attesi. Trasformazioni di variabili. Propagazione degli errori.
2. Probabilità
Definizione di probabilità. Assiomi di Kolmogorov. Probabilità frequentista. Probabilità Bayesiana. Teorema di Bayes. Funzione densità di probabilità (pdf). Probabilità condizionata. Funzione di probabilità cumulata.
3. Esempi di funzioni di probabilità
Funzioni di probabilità binomiale, multinomiale, Poisson, uniforme, esponenziale, gaussiana, chi-quadro, Cauchy. Legge dei grandi numeri. Teorema del limite centrale. Esempi e applicazioni.
4. Metodo Monte Carlo
Generatori di numeri pseudocasuali. Metodo della trasformata inversa, metodo di reiezione (accept- reject). Esempi di applicazioni.
5. Stima puntuale dei parametri
Campione di osservazioni, stimatori e loro proprietà, bias. Stimatore di media, varianza e covarianza.
6. Metodo di maximum likelihood
Funzione di likelihood. Stimatori di maximum likelihood (ML). Esempi per funzione esponenziale e gaussiana. Varianza di stimatore di ML. Disuguaglianza di Cramer-Rao. Minimum variance bound e condizioni sotto le quali si raggiunge. Extended maximum likelihood (EML). ML di istogrammi. Bontà del fit. Combinazione di misure con ML. Stimatori Bayesiani.
7. Metodo dei minimi quadrati
Relazione con ML. Fit lineari. Fit di un polinomio. Fit di istogrammi. Bontà del fit con chi-quadro. Combinazione di misure con minimi quadrati.
8. Stima di intervalli
Intervalli di confidenza. Metodo frequentista. Intervallo di confidenza per stimatore a distribuzione gaussiana, per la media della distribuzione di Poisson. Intervalli di confidenza utilizzando la likelihood o il chi-quadro. Metodo Bayesiano. Limiti sulla media di una variabile poissoniana in presenza di fondo.
9. Test di ipotesi
Statistica di test. Consistenza e livello di significanza del test. Lemma di Neyman-Pearson. Bontà del fit. Definizione di p-value. Significanza di un segnale osservato. Test del chi-quadro di Pearson. Test di Komogorov-Smirnov. Teorema di Wilks.
10. Classificazione
Classificazione multivariata. Curva ROC e lemma di Neyman-Pearson. Cenni su machine learning. Tecniche di classificazione multivariata. Discriminante di Fisher. Reti neurali artificiali. Decision trees.
11. Esercitazioni con calcolatore
Generazione di numeri pseudocasuali. Metodi Monte Carlo per la generazione di pseudoesperimenti. Analisi multivariata utilizzando il software TMVA di ROOT. Fit di maximum likelihood. Fit di chi-quadro. Test di ipotesi e calcolo di p-value.
Concetto di inferenza statistica. Classificazione di tipi di inferenza. Incertezza statistica e incertezza sistematica. Variabili aleatorie. Valori attesi. Trasformazioni di variabili. Propagazione degli errori.
2. Probabilità
Definizione di probabilità. Assiomi di Kolmogorov. Probabilità frequentista. Probabilità Bayesiana. Teorema di Bayes. Funzione densità di probabilità (pdf). Probabilità condizionata. Funzione di probabilità cumulata.
3. Esempi di funzioni di probabilità
Funzioni di probabilità binomiale, multinomiale, Poisson, uniforme, esponenziale, gaussiana, chi-quadro, Cauchy. Legge dei grandi numeri. Teorema del limite centrale. Esempi e applicazioni.
4. Metodo Monte Carlo
Generatori di numeri pseudocasuali. Metodo della trasformata inversa, metodo di reiezione (accept- reject). Esempi di applicazioni.
5. Stima puntuale dei parametri
Campione di osservazioni, stimatori e loro proprietà, bias. Stimatore di media, varianza e covarianza.
6. Metodo di maximum likelihood
Funzione di likelihood. Stimatori di maximum likelihood (ML). Esempi per funzione esponenziale e gaussiana. Varianza di stimatore di ML. Disuguaglianza di Cramer-Rao. Minimum variance bound e condizioni sotto le quali si raggiunge. Extended maximum likelihood (EML). ML di istogrammi. Bontà del fit. Combinazione di misure con ML. Stimatori Bayesiani.
7. Metodo dei minimi quadrati
Relazione con ML. Fit lineari. Fit di un polinomio. Fit di istogrammi. Bontà del fit con chi-quadro. Combinazione di misure con minimi quadrati.
8. Stima di intervalli
Intervalli di confidenza. Metodo frequentista. Intervallo di confidenza per stimatore a distribuzione gaussiana, per la media della distribuzione di Poisson. Intervalli di confidenza utilizzando la likelihood o il chi-quadro. Metodo Bayesiano. Limiti sulla media di una variabile poissoniana in presenza di fondo.
9. Test di ipotesi
Statistica di test. Consistenza e livello di significanza del test. Lemma di Neyman-Pearson. Bontà del fit. Definizione di p-value. Significanza di un segnale osservato. Test del chi-quadro di Pearson. Test di Komogorov-Smirnov. Teorema di Wilks.
10. Classificazione
Classificazione multivariata. Curva ROC e lemma di Neyman-Pearson. Cenni su machine learning. Tecniche di classificazione multivariata. Discriminante di Fisher. Reti neurali artificiali. Decision trees.
11. Esercitazioni con calcolatore
Generazione di numeri pseudocasuali. Metodi Monte Carlo per la generazione di pseudoesperimenti. Analisi multivariata utilizzando il software TMVA di ROOT. Fit di maximum likelihood. Fit di chi-quadro. Test di ipotesi e calcolo di p-value.
Prerequisiti
Conoscenze matematiche: derivate, integrali, operazioni con matrici.
Metodi didattici
Il metodo didattico prevede lezioni frontali ed esercitazioni per la verifica e l'applicazione delle nozioni acquisite. Le esercitazioni comprendono la discussione di problemi da risolvere con il calcolatore e di alcune tecniche e programmi da utilizzare.
Materiale di riferimento
- Presentazioni in formato pdf delle lezioni.
- Glen Cowan, "Statistical data analysis", Oxford Science Publications.
- O. Behnke et al. "Data analysis in High Energy Physics", WILEY-VCH.
- Glen Cowan, "Statistical data analysis", Oxford Science Publications.
- O. Behnke et al. "Data analysis in High Energy Physics", WILEY-VCH.
Modalità di verifica dell’apprendimento e criteri di valutazione
L'esame consiste in una prova orale con domande di teoria ed esercizi su argomenti svolti a lezione. E' richiesta inoltre la presentazione di relazioni scritte con la soluzione di esercizi proposti durante il corso da svolgere al calcolatore. Ogni studente dovrà preparare le proprie relazioni individualmente.
Siti didattici
Docente/i