Biostatistics

A.A. 2024/2025
6
Crediti massimi
48
Ore totali
SSD
BIO/11 BIO/18
Lingua
Inglese
Obiettivi formativi
Modern high-throughput assays generate large amounts of data that must be handled and processed appropriately to extract meaningful biological knowledge and generate testable hypotheses. Proficiency in data handling and processing, and the ability to unravel and highlight complex relationships in biological data using adequate tools and methods constitute a crucial skill for the modern molecular biologist. Methods for the analysis, interpretation and integration of such complex large scale (BIG) biological data, require a good background in statistics and bioinformatics for their application and the verification of the final results.
The aims of this course are (i) in the Biostatistics segment to make the students familiar with the statistical theory and terminology, so to understand the power and pitfalls of statistical analysis, with special emphasis on the planning of experiments for the analysis of large scale biological data, (ii) in the molecular segment to provide a primer on methods for the analysis of gene expression (RNA-Seq) data and the interpretation of the final results. Both segments will be carried on in the frame of the R programming language and software environment, seen as an effective tool for large data analysis.
Risultati apprendimento attesi
After following this course, the students are expected to:

1. Know the syntax of the R programming language, and how to import data into the R environment.
2. correctly analyse experimental data in the field of Life Sciences
3. interpret experimental data
4 perform basic statistical tests
5 Correctly analyse, interpret and visualize the results of dirrerential gene expression analyses, based on RNA sequencing data
Corso singolo

Questo insegnamento può essere seguito come corso singolo.

Programma e organizzazione didattica

Edizione unica

Responsabile
Periodo
Secondo semestre

Programma
Le prime sei lezioni del corso introdurranno gli studenti all'ambiente di programmazione R/RStudio. Queste competenze di programmazione saranno rafforzate durante tutto il corso.
Questo includerà:

Introduzione all'ambiente R per l'analisi dei dati biologici - 1,5 CFU Bio/11 (12 ore)
-Configurazione di progetti in R
-Strutture di base dei dati: data.frame, vettori, matrici
-Importazione di dati in R
-Installazione e gestione dei pacchetti software
-Manipolazione dei dati con il pacchetto dplyr (tidyverse)
-Visualizzazione dei dati con il pacchetto ggplot (tidyverse)
-Simulazione dei dati utilizzando modelli stocastici
-Introduzione a RMarkdown

Le 12 lezioni successive introdurranno gli studenti ai principi dell'inferenza statistica, alla modellizzazione statistica e alla stima dei parametri. Questi concetti saranno illustrati con esempi tratti da dati pubblicati. L'uso di R/RStudio si concentrerà sulla creazione di flussi di analisi trasparenti e riproducibili.

Basi dell'analisi statistica - 1 CFU Bio/18 (8 ore)
-Visualizzazione dei dati e riconoscimento di pattern
-Principi di inferenza statistica
-p-value: misura dell'evidenza contro l'ipotesi nulla
-Modelli statistici per esperimenti biologici, ANOVA
-Valutazione delle assunzioni dei modelli tramite grafici dei residui
-Primo workflow di analisi utilizzando R/RStudio

Esplorazione della struttura della media e della varianza nei modelli statistici - 1 CFU Bio/18 (8 ore)
-Disegni fattoriali, ANOVA con più fattori
-Modelli lineari con covariate
-Modelli lineari misti
-Workflow di analisi completo utilizzando R/RStudio

Progettazione sperimentale, Modelli Lineari Generalizzati e analisi di dati ad alta dimensionalità - 1 CFU Bio/18 (8 ore)
-Principi di progettazione sperimentale: randomizzazione, replicazione, blocchi
-Modelli lineari generalizzati: modello binomiale negativo
-Analisi delle Componenti Principali (PCA)
-Test multipli, correzione del p-value, False Discovery Rate (FDR)

L'ultima parte del corso sarà un'introduzione all'analisi dei dati di Next Generation Sequencing (NGS) utilizzando R, con approfondimenti sui principi teorici e pratici alla base dei metodi più avanzati per l'elaborazione di dati RNA-Seq per la valutazione dell'espressione genica differenziale. In particolare:

Analisi dell'espressione genica differenziale in R - 1 CFU Bio/11 (8 ore)
-Metriche di qualità e controllo di qualità
-Analisi dell'espressione genica differenziale in R
-Correzione per test multipli e False Discovery Rate (FDR)

Visualizzazione e interpretazione dei risultati - 0,5 CFU Bio/11 (4 ore)
-Visualizzazione dei dati: heatmap, scatterplot, boxplot

Le lezioni consisteranno in una descrizione intuitiva dei principi di programmazione, dei metodi bioinformatici e delle statistiche sottostanti, arricchite da esercitazioni pratiche. Gli studenti applicheranno i concetti appresi ad esempi di analisi dati.

La Prof. Neeman introdurrà la modellizzazione statistica, i principi di inferenza statistica e l'apprendimento dai dati utilizzando R/RStudio (3 CFU). Il Prof Chiara guiderà la formazione sul linguaggio R e, dopo il modulo sulla modellizzazione statistica, introdurrà i metodi per analizzare e interpretare dati biologici complessi su larga scala (BIG DATA).
Prerequisiti
Conoscenza di argomenti di biologia molecolare di base:
- struttura e proprietà degli acidi nucleici;
- metodi di sequenziamento degli acidi nucleici;
- meccanismi di regolazione dell'espressione genica;
- struttura del gene eucariotico.

Conoscenza informatiche di base:
- gestione file e cartelle
Metodi didattici
Modalità didattica: lezioni frontali affiancate da esercitazioni con dati reali. Gli insegnanti assegneranno degli esercizi alla fine della maggior parte delle lezioni per aiutare a fissare i concetti tra le lezioni. La frequenza è altamente raccomandata.
Materiale di riferimento
W. N. Venables, D. M. Smith and the R Core Team. An introduction to R.
https://cran.r-project.org/doc/manuals/r-release/R-intro.pdf

Grolemund, G., & Wickham, H. (2017). R for Data Science. O'Reilly Media.
https://r4ds.hadley.nz

Chen Y, McCarthy D, Ritchie M, Robinson, M, Smyth G. edgeR: differential expression analysis of digital gene expression data. https://www.bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeRUsersGuide.pdf

Law CW, Alhamdoosh M, Su S, Dong X, Tian L, Smyth GK, Ritchie ME. RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR. F1000Res. 2016 Jun 17;5:ISCB Comm J-1408. doi: 10.12688/f1000research.9005.3. PMID: 27441086; PMCID: PMC4937821.
https://bioconductor.org/packages/release/workflows/vignettes/RNAseq123/inst/doc/limmaWorkflow.html

Glimma: https://bioconductor.org/packages/release/bioc/html/Glimma.html

Copie delle diapositive proiettate durante le lezioni, nonché ulteriori materiali ed esercizi saranno resi disponibili attraverso il sito web del corso sulla piattaforma ARIEL dell'Università degli Studi di Milano. Questo materiale è inteso come supporto alle lezioni frontali e il suo studio non può essere considerato una piena alternativa alla frequenza costante delle lezioni. Il materiale è reso disponibile solo agli studenti iscritti al Corso di Laurea in Biologia Molecolare della Cellula e non deve essere distribuito ad altri senza espresso consenso dei docenti.
Modalità di verifica dell’apprendimento e criteri di valutazione
L'esame consisterà nella discussione orale di una analisi bioinformatica di espressione differenziale di geni eseguita dagli studenti.
Gli studenti applicheranno i metodi appresi durante il corso per analizzare i dati e presenteranno una relazione descrivendo i loro risultati agli insegnanti.
La consegna della relazione è prevista almeno 48h prima dell'appello d'esame prescelto.
Le relazioni saranno svolti in piccoli gruppi (2-3 studenti per gruppo).
Il voto risulterà dalla valutazione congiunta dei docenti della relazione e della presentazione della stessa (per il 100%)
BIO/11 - BIOLOGIA MOLECOLARE - CFU: 3
BIO/18 - GENETICA - CFU: 3
Lezioni: 48 ore
Docente/i
Ricevimento:
Giovedì(Thursday) 15:00-17:00
Secondo piano torre B