Informatica e statistica per le biotecnologie (comune)
A.A. 2024/2025
Obiettivi formativi
Il corso è strutturato in un modulo di Informatica ed un modulo di statistica. L'obiettivo formativo dell'insegnamento nel suo complesso e' quello di rendere gli studenti autonomi nell'esecuzione e pianificazione di test statistici mediante l'utilizzo del calcolatore. A tal fine le lezioni sono somministrate con cadenza settimanale e comprendono una lezione di Informatica, una di Statistica ed un terzo incontro dedicato alla realizzazione dei concetti spiegati nella lezione di Statistica mediante linguaggio R.
Risultati apprendimento attesi
Al termine dell'insegnamento lo studente dovrà essere in grado di comprendere le problematiche ed i punti di forza dei metodi statistici presentati durante il corso ed essere in grado di pianificare e realizzare test statistici mediante l'utilizzo del linguaggio R. Dovrà inoltre essere in grado di presentare in modo chiaro i risultati di suddetti test mediante le funzionalità grafiche offerte dal linguaggio R.
Periodo: Secondo semestre
Modalità di valutazione: Esame
Giudizio di valutazione: voto verbalizzato in trentesimi
Corso singolo
Questo insegnamento può essere seguito come corso singolo.
Programma e organizzazione didattica
Linea AK
Responsabile
Periodo
Secondo semestre
Programma
Informatica
Il modulo di Informatica inizierà con una breve introduzione alle architetture e ai sistemi d'informazione e dielaborazione dei dati, mentre il resto del corso sarà dedicato ai principi della programmazione imperativa emodulare, utilizzando il linguaggio R come riferimento.
- Architettura di un calcolatore
- Cenni alla rappresentazione delle informazioni- Principali concetti di un generico linguaggio di programmazione
- Programmi e processi
- Ambiente R
- Variabili e assegnamenti
- Struttura dati vettore. Vettori numerici, carattere, logici
- Selezione e accesso, differenti tipologie
- Generazione di sequenze regolari
- Matrici: costruzione, concatenazione, prodotto. Selezione e accesso
- Comando table
- Gestione dati eterogenee: liste, data frame, loro tipologie di accesso
- Controllo del flusso
- Istruzioni condizionali e cicli
- Efficienza dei cicli in R
- Funzioni e Script
- Ambiente grafico di R
- Comandi plot, barplot, hist, boxplot
- Grafici a torta 2D e 3D
- Salvataggio figure
- Generazione di numeri pseudocasuali
- Principali distribuzioni di probabilità
- Funzioni qqnorm, qqline, qqplot per confrontare distribuzioni di probabilità
Statistica
Il modulo di statistica ha l'obbiettivo di fornire le nozioni fondamentali di statistica per le biotecnologie. Particolare attenzione viene data all'aspetto applicativo della statistica, con enfasi speciale rivolta all'interpretazione dei dati ed ai test usati nell'analisi dei dati biologici. Il corso prevede numerosi esempi pratici e fornisce allo studente conoscenze di base che consentano di delineare un workflow logico di supporto nella scelta dell'approccio statistico più appropriato dato il problema biologico da affrontare.
- Introduzione alla statistica. Concetti di base, popolazioni e campioni, campionamento, tipo di dati, tipo di variabili, tipo di studi
- Visualizzazione dei dati. Tabelle di frequenza, diagrammi, grafici e istogrammi
- Indici statistici e descrizione dei dati
- Stima e incertezza
- Probabilità. Evento, probabilità di un evento. Probabilità di eventi complessi
- Distribuzioni di probabilità
- Concetti di base del processo di test delle ipotesi
- Test statistici per variabili nominali. Test del chi quadrato per bontà di adattamento. Tabelle di contingenza, Odds Ratio, test del chi quadrato per indipendenza, test esatto di Fisher
- Test statistici per variabili continue e discrete
Il modulo di Informatica inizierà con una breve introduzione alle architetture e ai sistemi d'informazione e dielaborazione dei dati, mentre il resto del corso sarà dedicato ai principi della programmazione imperativa emodulare, utilizzando il linguaggio R come riferimento.
- Architettura di un calcolatore
- Cenni alla rappresentazione delle informazioni- Principali concetti di un generico linguaggio di programmazione
- Programmi e processi
- Ambiente R
- Variabili e assegnamenti
- Struttura dati vettore. Vettori numerici, carattere, logici
- Selezione e accesso, differenti tipologie
- Generazione di sequenze regolari
- Matrici: costruzione, concatenazione, prodotto. Selezione e accesso
- Comando table
- Gestione dati eterogenee: liste, data frame, loro tipologie di accesso
- Controllo del flusso
- Istruzioni condizionali e cicli
- Efficienza dei cicli in R
- Funzioni e Script
- Ambiente grafico di R
- Comandi plot, barplot, hist, boxplot
- Grafici a torta 2D e 3D
- Salvataggio figure
- Generazione di numeri pseudocasuali
- Principali distribuzioni di probabilità
- Funzioni qqnorm, qqline, qqplot per confrontare distribuzioni di probabilità
Statistica
Il modulo di statistica ha l'obbiettivo di fornire le nozioni fondamentali di statistica per le biotecnologie. Particolare attenzione viene data all'aspetto applicativo della statistica, con enfasi speciale rivolta all'interpretazione dei dati ed ai test usati nell'analisi dei dati biologici. Il corso prevede numerosi esempi pratici e fornisce allo studente conoscenze di base che consentano di delineare un workflow logico di supporto nella scelta dell'approccio statistico più appropriato dato il problema biologico da affrontare.
- Introduzione alla statistica. Concetti di base, popolazioni e campioni, campionamento, tipo di dati, tipo di variabili, tipo di studi
- Visualizzazione dei dati. Tabelle di frequenza, diagrammi, grafici e istogrammi
- Indici statistici e descrizione dei dati
- Stima e incertezza
- Probabilità. Evento, probabilità di un evento. Probabilità di eventi complessi
- Distribuzioni di probabilità
- Concetti di base del processo di test delle ipotesi
- Test statistici per variabili nominali. Test del chi quadrato per bontà di adattamento. Tabelle di contingenza, Odds Ratio, test del chi quadrato per indipendenza, test esatto di Fisher
- Test statistici per variabili continue e discrete
Prerequisiti
L'insegnamento ha come propedeuticità l'insegnamento di Matematica del corso di Laurea in Biotecnologia (Classe L-2), che ovviamente non preclude la possibilità di seguire il corso. Tuttavia, il corso darà per consolidate da parte degli studenti le conoscenze matematiche di base necessarie alla comprensione dell'insegnamento (specialmente in relazione agli argomenti trattati nel modulo di Statistica). La disponibilita' di un portatile e' indispensabile per seguire le lezioni.
Metodi didattici
Statistica: L'insegnamento sarà organizzato in lezioni frontali. Informatica: L'insegnamento sarà organizzato in lezioni frontali.
Materiale di riferimento
Informatica:
- R for data science. H. Wickham, G. Grolemund. Editore: O'Reilly, ISBN-13: 978-1491910399
- Slide del corso (contengono TUTTO il necessario per superare l'esame)
- Manuali on-line:
- http://cran.r-project.org/doc/manuals/R-intro.pdf
- http://cran.r-project.org/doc/manuals/R-lang.pdf
- http://cran.r-project.org/doc/manuals/R-admin.pdf
- http://cran.r-project.org/doc/manuals/R-data.pdf
- http://cran.r-project.org/doc/contrib/Verzani-SimpleR.pdf
Statistica:
Testo principale
- Analisi Statistica dei Dati Biologici. Whitlock MC, Schulter D. Zanichelli
- Handbook of Biological Statistics. John H. MacDonald. Printed version and online
- Slides del corso
Altri riferimenti:
- Introductory Statistics. Ross SM. Elsevier AP - Third Edition (alcuni concetti introdotti nei capitoli 5 e6 relativi a variabili casuali discrete e continue)
- R for data science. H. Wickham, G. Grolemund. Editore: O'Reilly, ISBN-13: 978-1491910399
- Slide del corso (contengono TUTTO il necessario per superare l'esame)
- Manuali on-line:
- http://cran.r-project.org/doc/manuals/R-intro.pdf
- http://cran.r-project.org/doc/manuals/R-lang.pdf
- http://cran.r-project.org/doc/manuals/R-admin.pdf
- http://cran.r-project.org/doc/manuals/R-data.pdf
- http://cran.r-project.org/doc/contrib/Verzani-SimpleR.pdf
Statistica:
Testo principale
- Analisi Statistica dei Dati Biologici. Whitlock MC, Schulter D. Zanichelli
- Handbook of Biological Statistics. John H. MacDonald. Printed version and online
- Slides del corso
Altri riferimenti:
- Introductory Statistics. Ross SM. Elsevier AP - Third Edition (alcuni concetti introdotti nei capitoli 5 e6 relativi a variabili casuali discrete e continue)
Modalità di verifica dell’apprendimento e criteri di valutazione
Le sessioni d'esame consistono in una prova unica per i moduli di Informatica e di Statistica e si svolgeranno in laboratori informatizzati. Il tema d'esame conterrà domande riferite agli argomenti trattati sia nel modulo di Informatica, che in quello di Statistica. Il massimo punteggio ottenuto rispondendo in modo corretto a tutte le domande è 30. Non e' possibile, per gli studenti, sostenere unicamente l'esame di Informatica o quello di Statistica. L'esame si intende superato se la valutazione complessiva è uguale o maggiore di 18. Agli studenti, durante l'esame, è consentito l'utilizzo di tutto il materiale didattico del corso e degli appunti presi a lezione.
FIS/07 - FISICA APPLICATA (A BENI CULTURALI, AMBIENTALI, BIOLOGIA E MEDICINA) - CFU: 1
INF/01 - INFORMATICA - CFU: 1
MAT/03 - GEOMETRIA - CFU: 1
SECS-S/01 - STATISTICA - CFU: 1
SECS-S/02 - STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA - CFU: 2
INF/01 - INFORMATICA - CFU: 1
MAT/03 - GEOMETRIA - CFU: 1
SECS-S/01 - STATISTICA - CFU: 1
SECS-S/02 - STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA - CFU: 2
Lezioni: 48 ore
Docente:
Re' Matteo
Linea LZ
Responsabile
Periodo
Secondo semestre
Programma
Il modulo di Informatica inizierà con una breve introduzione alle architetture e ai sistemi d'informazione e di elaborazione dei dati, per poi introdurre i principi della programmazione imperativa e modulare, utilizzando il linguaggio R come riferimento.
Programma dettagliato.
Informatica
- Cenni alla rappresentazione delle informazioni
- Principali concetti di un generico linguaggio di programmazione
- Programmi e processi
- Ambiente R.
- Variabili e assegnamenti
- Struttura dati vettore. Vettori numerici, carattere, logici
- Selezione e accesso, differenti tipologie
- Generazione di sequenze regolari
- Matrici: costruzione, concatenazione, prodotto. Selezione e accesso
- Comando table
- Gestione dati eterogenee: liste, data frame, loro tipologie di accesso
- Controllo del flusso
- Istruzioni condizionali e cicli
- Efficienza dei cicli in R
- Funzioni e Script in R
- Ambiente grafico di R
- Comandi plot, barplot, hist, boxplot
- Grafici a torta 2D e 3D
- Salvataggio figure
-Verifica di normalità
- funzioni qqnorm, qqline and qqplot
Statistica
- Introduzione alla statistica. Concetti di base, popolazioni e campioni, campionamento, tipo di dati, tipo di variabili, tipo di studi
- Visualizzazione dei dati. Tabelle di frequenza, diagrammi, grafici e istogrammi
- Indici statistici e descrizione dei dati
- Stima e incertezza
- Probabilità. Evento, probabilità di un evento. Probabilità di eventi complessi
- Distribuzioni di probabilità
- Concetti di base del processo di test delle ipotesi
- Test statistici per variabili nominali. Test del chi quadrato per bontà di adattamento. Tabelle di contingenza, Odds Ratio, test del chi quadrato per indipendenza, test esatto di Fisher
- Test statistici per variabili continue e discrete
Programma dettagliato.
Informatica
- Cenni alla rappresentazione delle informazioni
- Principali concetti di un generico linguaggio di programmazione
- Programmi e processi
- Ambiente R.
- Variabili e assegnamenti
- Struttura dati vettore. Vettori numerici, carattere, logici
- Selezione e accesso, differenti tipologie
- Generazione di sequenze regolari
- Matrici: costruzione, concatenazione, prodotto. Selezione e accesso
- Comando table
- Gestione dati eterogenee: liste, data frame, loro tipologie di accesso
- Controllo del flusso
- Istruzioni condizionali e cicli
- Efficienza dei cicli in R
- Funzioni e Script in R
- Ambiente grafico di R
- Comandi plot, barplot, hist, boxplot
- Grafici a torta 2D e 3D
- Salvataggio figure
-Verifica di normalità
- funzioni qqnorm, qqline and qqplot
Statistica
- Introduzione alla statistica. Concetti di base, popolazioni e campioni, campionamento, tipo di dati, tipo di variabili, tipo di studi
- Visualizzazione dei dati. Tabelle di frequenza, diagrammi, grafici e istogrammi
- Indici statistici e descrizione dei dati
- Stima e incertezza
- Probabilità. Evento, probabilità di un evento. Probabilità di eventi complessi
- Distribuzioni di probabilità
- Concetti di base del processo di test delle ipotesi
- Test statistici per variabili nominali. Test del chi quadrato per bontà di adattamento. Tabelle di contingenza, Odds Ratio, test del chi quadrato per indipendenza, test esatto di Fisher
- Test statistici per variabili continue e discrete
Prerequisiti
L'insegnamento ha come propedeuticità l'insegnamento di Matematica del corso di Laurea in Biotecnologia (Classe L-2), che ovviamente non preclude la possibilità di seguire il corso. Tuttavia, il corso darà per consolidate da parte degli studenti le conoscenze matematiche di base necessarie alla comprensione dell'insegnamento (con particolare riferimento agli argomenti trattati nel modulo di Statistica).
Metodi didattici
Il corso è organizzato in lezioni frontali ed esercitazioni individuali o di gruppo, e si svolgerà in aule informatizzate. È comunque possibile partecipare alle lezioni muniti del proprio computer portatile.
Materiale di riferimento
Per il modulo di Informatica sono consigliati i seguenti manuali on-line:
Italiano
http://www.r-project.it/books/nozioniR.pdf
Inglese
1. http://cran.r-project.org/doc/manuals/R-intro.pdf
2. http://cran.r-project.org/doc/manuals/R-lang.pdf
3. http://cran.r-project.org/doc/manuals/R-admin.pdf
4. http://cran.r-project.org/doc/manuals/R-data.pdf
5. http://cran.r-project.org/doc/contrib/Verzani-SimpleR.pdf
Per il modulo di Statistica invece si consigliano i seguenti riferimenti:
1. Analisi Statistica dei Dati Biologici. Whitlock MC, Schulter D. Zanichelli
2. Handbook of Biological Statistics. John H. MacDonald. Printed version and online
Other suggested books:
3. Intuitive Biostatistics: a non-mathematical guide to statistical thinking, Fourth EditionMotulsky H. Oxford University Press.
4. Introductory Statistics. Ross SM. Elsevier AP - Third Edition (alcuni concetti introdotti nei capitoli 5 e 6 relativi a variabili casuali discrete e continue)
Italiano
http://www.r-project.it/books/nozioniR.pdf
Inglese
1. http://cran.r-project.org/doc/manuals/R-intro.pdf
2. http://cran.r-project.org/doc/manuals/R-lang.pdf
3. http://cran.r-project.org/doc/manuals/R-admin.pdf
4. http://cran.r-project.org/doc/manuals/R-data.pdf
5. http://cran.r-project.org/doc/contrib/Verzani-SimpleR.pdf
Per il modulo di Statistica invece si consigliano i seguenti riferimenti:
1. Analisi Statistica dei Dati Biologici. Whitlock MC, Schulter D. Zanichelli
2. Handbook of Biological Statistics. John H. MacDonald. Printed version and online
Other suggested books:
3. Intuitive Biostatistics: a non-mathematical guide to statistical thinking, Fourth EditionMotulsky H. Oxford University Press.
4. Introductory Statistics. Ross SM. Elsevier AP - Third Edition (alcuni concetti introdotti nei capitoli 5 e 6 relativi a variabili casuali discrete e continue)
Modalità di verifica dell’apprendimento e criteri di valutazione
La prova d'esame consiste in una prova unica per i moduli di Informatica e di Statistica, composta da alcuni esercizi da svolgersi al calcolatore, comprendenti una parte di Informatica e una di Statistica.
Durata: 1h 30m.
Non è consentito durante l'esame l'utilizzo di dispositivi dotati di connessione Internet (cellulari, tablet, etc.).
La prova ha una valutazione espressa in trentesimi.
Le sessioni d'esame si svolgeranno in laboratori informatizzati. Il tema d'esame conterrà domande riferite agli argomenti trattati sia nel modulo di Informatica che in quello di Statistica. Non è possibile, per gli studenti, sostenere unicamente l'esame di Informatica o quella di Statistica. L'esame si intende superato se la valutazione complessiva e uguale o maggiore di 18, con almeno 9 in ciascun modulo.
Agli studenti, durante l'esame, è consentito l'utilizzo di tutto il materiale didattico del corso e di eventuali appunti presi a lezione.
Durata: 1h 30m.
Non è consentito durante l'esame l'utilizzo di dispositivi dotati di connessione Internet (cellulari, tablet, etc.).
La prova ha una valutazione espressa in trentesimi.
Le sessioni d'esame si svolgeranno in laboratori informatizzati. Il tema d'esame conterrà domande riferite agli argomenti trattati sia nel modulo di Informatica che in quello di Statistica. Non è possibile, per gli studenti, sostenere unicamente l'esame di Informatica o quella di Statistica. L'esame si intende superato se la valutazione complessiva e uguale o maggiore di 18, con almeno 9 in ciascun modulo.
Agli studenti, durante l'esame, è consentito l'utilizzo di tutto il materiale didattico del corso e di eventuali appunti presi a lezione.
FIS/07 - FISICA APPLICATA (A BENI CULTURALI, AMBIENTALI, BIOLOGIA E MEDICINA) - CFU: 1
INF/01 - INFORMATICA - CFU: 1
MAT/03 - GEOMETRIA - CFU: 1
SECS-S/01 - STATISTICA - CFU: 1
SECS-S/02 - STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA - CFU: 2
INF/01 - INFORMATICA - CFU: 1
MAT/03 - GEOMETRIA - CFU: 1
SECS-S/01 - STATISTICA - CFU: 1
SECS-S/02 - STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA - CFU: 2
Lezioni: 48 ore
Docente:
Frasca Marco
Docente/i
Ricevimento:
Concordare via email e/o su piattaforma Microsoft Teams. Per specifici corsi fare riferimento al sito Ariel del corso.
Milano - via Celoria 18 (stanza 3010) e/o Ms Teams/Zoom