Biostatistics
A.A. 2024/2025
Obiettivi formativi
Modern high-throughput assays generate large amounts of data that must be handled and processed appropriately to extract meaningful biological knowledge and generate testable hypotheses. Proficiency in data handling and processing, and the ability to unravel and highlight complex relationships in biological data using adequate tools and methods constitute a crucial skill for the modern molecular biologist. Methods for the analysis, interpretation and integration of such complex large scale (BIG) biological data, require a good background in statistics and bioinformatics for their application and the verification of the final results.
The aims of this course are (i) in the Biostatistics segment to make the students familiar with the statistical theory and terminology, so to understand the power and pitfalls of statistical analysis, with special emphasis on the planning of experiments for the analysis of large scale biological data, (ii) in the molecular segment to provide a primer on methods for the analysis of gene expression (RNA-Seq) data and the interpretation of the final results. Both segments will be carried on in the frame of the R programming language and software environment, seen as an effective tool for large data analysis.
The aims of this course are (i) in the Biostatistics segment to make the students familiar with the statistical theory and terminology, so to understand the power and pitfalls of statistical analysis, with special emphasis on the planning of experiments for the analysis of large scale biological data, (ii) in the molecular segment to provide a primer on methods for the analysis of gene expression (RNA-Seq) data and the interpretation of the final results. Both segments will be carried on in the frame of the R programming language and software environment, seen as an effective tool for large data analysis.
Risultati apprendimento attesi
After following this course, the students are expected to:
1. Know the syntax of the R programming language, and how to import data into the R environment.
2. correctly analyse experimental data in the field of Life Sciences
3. interpret experimental data
4 perform basic statistical tests
5 Correctly analyse, interpret and visualize the results of dirrerential gene expression analyses, based on RNA sequencing data
1. Know the syntax of the R programming language, and how to import data into the R environment.
2. correctly analyse experimental data in the field of Life Sciences
3. interpret experimental data
4 perform basic statistical tests
5 Correctly analyse, interpret and visualize the results of dirrerential gene expression analyses, based on RNA sequencing data
Periodo: Secondo semestre
Modalità di valutazione: Esame
Giudizio di valutazione: voto verbalizzato in trentesimi
Corso singolo
Questo insegnamento può essere seguito come corso singolo.
Programma e organizzazione didattica
Edizione unica
Responsabile
Periodo
Secondo semestre
Programma
In primo luogo, gli insegnamenti introdurranno gli studenti ai principi, concetti e metodi statistici comunemente utilizzati per l'analisi e l'interpretazione di dati biologici su larga scala.
Ciò includerà:
Nozioni di base di analisi statistica - 1 cfu (8 ore)
Perchè usare la Statistica? Popolazioni e campioni. Nozioni di base sulla probabilità. Variabili casuali.
Distribuzioni di frequenza; distribuzioni normali e di Poisson. L'idea alla base di un test statistico: potenza e protezione di un test, errori di Tipo I e di Tipo II. Tasso di rilevamento falsi (FDR).
I test statistici più comuni - 1 cfu (8 ore)
Variabili quantitative e qualitative: quale test?
Alcuni usi della variabile z.
Il modello lineare generale (GLM)
Alcuni usi della t di Student.
Altri test statistici - 1 cfu (8 ore)
Il modello di Analisi della Varianza (ANOVA).
Modelli di regressione lineare, stima dei parametri nella regressione lineare, multipla e curvilinea.
Nozioni di base sull'analisi multivariata, Analisi delle Componenti Principali.
Utilizzo di software statistico. Esempi in R.
Questa prima parte del corso sarà seguita da un'introduzione all'analisi dei dati di Next Generation Sequencing (NGS) utilizzando R, con approfondimenti sui principi teorici e pratici alla base dei metodi all'avanguardia per l'elaborazione dei test RNA-Seq per valutare l'espressione genica differenziale. In particolare:
.
Introduzione all'ambiente R per l'analisi dei dati biologici - 1 cfu (8 ore)
Come importare i dati in R
Strutture dati di base, dataframe, vettori, matrici
Installazione e gestione di pacchetti software
Introduzione all'ambiente grafico R
Utilizzo di software statistico. Esempi in R.
Analisi dell'espressione genica differenziale in R- 1 cfu (8 ore)
Metriche di qualità e controllo di qualità
Analisi dell'espressione genica differenziale in R
Correzione di test multipli e FDR (tasso di false scoperte)
Visualizzazione e interpretazione dei risultati - 1 cfu (8 ore)
Analisi di arricchimento funzionale delle liste di geni
Visualizzazione dei dati: mappe di calore, scatterplot, boxplot
RMarkdown per la generazione di report di analisi
Le lezioni consisteranno in descrizioni intuitive dei principi di programmazione, dei metodi bioinformatici e delle statistiche sottostanti, combinate con esercitazioni pratiche. Gli studenti applicheranno i concetti appena introdotti ai casi d'uso dell'analisi dei dati.
Ciò includerà:
Nozioni di base di analisi statistica - 1 cfu (8 ore)
Perchè usare la Statistica? Popolazioni e campioni. Nozioni di base sulla probabilità. Variabili casuali.
Distribuzioni di frequenza; distribuzioni normali e di Poisson. L'idea alla base di un test statistico: potenza e protezione di un test, errori di Tipo I e di Tipo II. Tasso di rilevamento falsi (FDR).
I test statistici più comuni - 1 cfu (8 ore)
Variabili quantitative e qualitative: quale test?
Alcuni usi della variabile z.
Il modello lineare generale (GLM)
Alcuni usi della t di Student.
Altri test statistici - 1 cfu (8 ore)
Il modello di Analisi della Varianza (ANOVA).
Modelli di regressione lineare, stima dei parametri nella regressione lineare, multipla e curvilinea.
Nozioni di base sull'analisi multivariata, Analisi delle Componenti Principali.
Utilizzo di software statistico. Esempi in R.
Questa prima parte del corso sarà seguita da un'introduzione all'analisi dei dati di Next Generation Sequencing (NGS) utilizzando R, con approfondimenti sui principi teorici e pratici alla base dei metodi all'avanguardia per l'elaborazione dei test RNA-Seq per valutare l'espressione genica differenziale. In particolare:
.
Introduzione all'ambiente R per l'analisi dei dati biologici - 1 cfu (8 ore)
Come importare i dati in R
Strutture dati di base, dataframe, vettori, matrici
Installazione e gestione di pacchetti software
Introduzione all'ambiente grafico R
Utilizzo di software statistico. Esempi in R.
Analisi dell'espressione genica differenziale in R- 1 cfu (8 ore)
Metriche di qualità e controllo di qualità
Analisi dell'espressione genica differenziale in R
Correzione di test multipli e FDR (tasso di false scoperte)
Visualizzazione e interpretazione dei risultati - 1 cfu (8 ore)
Analisi di arricchimento funzionale delle liste di geni
Visualizzazione dei dati: mappe di calore, scatterplot, boxplot
RMarkdown per la generazione di report di analisi
Le lezioni consisteranno in descrizioni intuitive dei principi di programmazione, dei metodi bioinformatici e delle statistiche sottostanti, combinate con esercitazioni pratiche. Gli studenti applicheranno i concetti appena introdotti ai casi d'uso dell'analisi dei dati.
Prerequisiti
Conoscenza di argomenti di biologia molecolare di base: metodi di sequenziamento degli acidi nucleici, meccanismi di regolazione dell'espressione genica, struttura del gene eucariotico
Metodi didattici
Modalità didattica: lezioni frontali affiancate da esercitazioni con dati reali. Gli insegnanti assegneranno degli esercizi alla fine della maggior parte delle lezioni per aiutare a fissare i concetti tra le lezioni. La frequenza è altamente raccomandata.
Materiale di riferimento
W. N. Venables, D. M. Smith and the R Core Team. An introduction to R.
https://cran.r-project.org/doc/manuals/r-release/R-intro.pdf
Chen Y, McCarthy D, Ritchie M, Robinson, M, Smyth G. edgeR: differential expression analysis of digital gene expression data. https://www.bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeRUsersGuide.pdf
Copie delle diapositive proiettate durante le lezioni, nonché ulteriori materiali ed esercizi saranno resi disponibili attraverso il sito web del corso sulla piattaforma ARIEL dell'Università degli Studi di Milano. Questo materiale è inteso come supporto alle lezioni frontali e il suo studio non può essere considerato una piena alternativa alla frequenza costante delle lezioni. Il materiale è reso disponibile solo agli studenti iscritti al Corso di Laurea in Biologia Molecolare della Cellula e non deve essere distribuito ad altri senza espresso consenso dei docenti.
https://cran.r-project.org/doc/manuals/r-release/R-intro.pdf
Chen Y, McCarthy D, Ritchie M, Robinson, M, Smyth G. edgeR: differential expression analysis of digital gene expression data. https://www.bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeRUsersGuide.pdf
Copie delle diapositive proiettate durante le lezioni, nonché ulteriori materiali ed esercizi saranno resi disponibili attraverso il sito web del corso sulla piattaforma ARIEL dell'Università degli Studi di Milano. Questo materiale è inteso come supporto alle lezioni frontali e il suo studio non può essere considerato una piena alternativa alla frequenza costante delle lezioni. Il materiale è reso disponibile solo agli studenti iscritti al Corso di Laurea in Biologia Molecolare della Cellula e non deve essere distribuito ad altri senza espresso consenso dei docenti.
Modalità di verifica dell’apprendimento e criteri di valutazione
Le nozioni e le competenze acquisite nel corso verranno valutate attraverso una prova scritta. Gli studenti dovranno svolgere un progetto per qualificarsi per una sessione di esame. Il progetto consisterà nell'applicazioni dei metodi appresi durante il corso per l'analisi dei dati di espressione genica provenienti da esperimenti reali. Gli studenti produrranno e presenteranno una relazione descrivendo i loro risultati agli insegnanti.
La consegna del report è prevista almeno 48h prima dell'appello d'esame prescelto. I progetti saranno svolti in piccoli gruppi (2-3 studenti per gruppo).
L'esame scritto sarà volto a verificare la conoscenza degli strumenti logici e metodologici necessari per una corretta valutazione dei dati sperimentali. (Il tempo a disposizione per sostenere l'esame è di 1 ora e l'esame si intende superato pari o superiore al punteggio di 18/30.) Durante l'esame è consentito l'uso di personal computer e/o calcolatrici tascabili e la lettura dei propri appunti.
La consegna del report è prevista almeno 48h prima dell'appello d'esame prescelto. I progetti saranno svolti in piccoli gruppi (2-3 studenti per gruppo).
L'esame scritto sarà volto a verificare la conoscenza degli strumenti logici e metodologici necessari per una corretta valutazione dei dati sperimentali. (Il tempo a disposizione per sostenere l'esame è di 1 ora e l'esame si intende superato pari o superiore al punteggio di 18/30.) Durante l'esame è consentito l'uso di personal computer e/o calcolatrici tascabili e la lettura dei propri appunti.
BIO/11 - BIOLOGIA MOLECOLARE - CFU: 3
BIO/18 - GENETICA - CFU: 3
BIO/18 - GENETICA - CFU: 3
Lezioni: 48 ore
Docente:
Chiara Matteo
Docente/i
Ricevimento:
Giovedì(Thursday) 15:00-17:00
Secondo piano torre B