Reinforcement learning
A.A. 2024/2025
Obiettivi formativi
This course introduces the theoretical and algorithmic foundations of Reinforcement Learning, the subfield of Machine Learning studying adaptive agents that take actions and interact with an unknown environment. Reinforcement learning is a powerful paradigm for the study of autonomous AI systems, and has been applied to a wide range of tasks, including self-driving cars, game playing, customer management, and healthcare.
Risultati apprendimento attesi
Upon completion of the course students will be able to:
- formalize problems in terms of Markov Decision Processes,
- understand basic methods of strategic exploration,
- understand algorithms for direct policy optimization,
- run experiments in simulated environments.
These objectives are measured via a combination of two components: the project report and the oral discussion. The final grade is formed by assessing the project report, and then using the oral discussion for fine tuning.
- formalize problems in terms of Markov Decision Processes,
- understand basic methods of strategic exploration,
- understand algorithms for direct policy optimization,
- run experiments in simulated environments.
These objectives are measured via a combination of two components: the project report and the oral discussion. The final grade is formed by assessing the project report, and then using the oral discussion for fine tuning.
Periodo: Secondo trimestre
Modalità di valutazione: Esame
Giudizio di valutazione: voto verbalizzato in trentesimi
Corso singolo
Questo insegnamento può essere seguito come corso singolo.
Programma e organizzazione didattica
Edizione unica
Responsabile
Periodo
Secondo trimestre
Programma
Questo insegnamento introduce le basi teoriche e algoritmiche del Reinforcement Learning, il sotto campo del Machine Learning che studia gli agenti adattivi che intraprendono azioni e interagiscono con un ambiente sconosciuto. L'apprendimento per rinforzo è un potente paradigma per lo studio dei sistemi di intelligenza artificiale autonomi ed è stato applicato a un'ampia gamma di attività, tra cui auto a guida autonoma, giochi, gestione dei clienti e assistenza sanitaria.
Introduzione
Cos'è l'apprendimento per rinforzo
Deterministic decision processes
Markov decision processes
Criteri di valutazione: orizzonte finito, orizzonte infinito, orizzonte scontato
Markov policies e loro proprietà
Orizzonte finito
Funzione stato-valore
Funzione valore-azione
Equazioni di ottimalità di Bellman per orizzonte finito
Orizzonte scontato
Equazioni di ottimalità di Bellman per orizzonte scontato
Value iteration
Policy iteration
Interpretazione basata su programmazione lineare
Apprendimento per rinforzo Model-based
Apprendimento per rinforzo Model-free
Q-learning
SARSA
Temporal difference algorithms
TD(0)
TD(λ)
Equivalenza tra forward and backward view
Approssimazione di funzione valore
Metodi Policy gradient
Sviluppo di un progetto di apprendimento per rinforzo
Introduzione
Cos'è l'apprendimento per rinforzo
Deterministic decision processes
Markov decision processes
Criteri di valutazione: orizzonte finito, orizzonte infinito, orizzonte scontato
Markov policies e loro proprietà
Orizzonte finito
Funzione stato-valore
Funzione valore-azione
Equazioni di ottimalità di Bellman per orizzonte finito
Orizzonte scontato
Equazioni di ottimalità di Bellman per orizzonte scontato
Value iteration
Policy iteration
Interpretazione basata su programmazione lineare
Apprendimento per rinforzo Model-based
Apprendimento per rinforzo Model-free
Q-learning
SARSA
Temporal difference algorithms
TD(0)
TD(λ)
Equivalenza tra forward and backward view
Approssimazione di funzione valore
Metodi Policy gradient
Sviluppo di un progetto di apprendimento per rinforzo
Prerequisiti
Conoscenze di metodi statistici e fondamenti di machine learning. Conoscenza della programmazione in Python.
Metodi didattici
L'insegnamento è erogato in forma di lezioni frontali con ampio ricorso a esempi e materiali di supporto in forma di notebook Python. E' previsto l'uso di slide e materiali didattici che saranno progressivamente resi disponibili sul sito web dell'insegnamento in piattaforma Ariel.
La frequenza, per quanto non obbligatoria, è fortemente consigliata.
La frequenza, per quanto non obbligatoria, è fortemente consigliata.
Materiale di riferimento
Appunti, notebook e materiali forniti dai docenti e pubblicati sul sito Ariel dell'insegnamento.
Modalità di verifica dell’apprendimento e criteri di valutazione
Al termine del corso gli studenti saranno in grado di:
- formalizzare i problemi in termini di Markov decision processes;
- descrivere i criteri di prestazione di base per gli MDP;
- comprendere i principali algoritmi per RL model-based e model-free;
- comprendere i principali approcci di RL in spazi con grandi quantità di stati;
- eseguire esperimenti in ambienti simulati.
Questi obiettivi sono misurati attraverso una combinazione di due componenti: la redazione di un progetto e la discussione orale. Il voto finale è formato valutando la relazione associata al progetto e quindi utilizzando la discussione orale per la messa a punto della valutazione conclusiva in 30 esimi.
- formalizzare i problemi in termini di Markov decision processes;
- descrivere i criteri di prestazione di base per gli MDP;
- comprendere i principali algoritmi per RL model-based e model-free;
- comprendere i principali approcci di RL in spazi con grandi quantità di stati;
- eseguire esperimenti in ambienti simulati.
Questi obiettivi sono misurati attraverso una combinazione di due componenti: la redazione di un progetto e la discussione orale. Il voto finale è formato valutando la relazione associata al progetto e quindi utilizzando la discussione orale per la messa a punto della valutazione conclusiva in 30 esimi.
Docente/i
Ricevimento:
Su appuntamento. Il colloquio si svolgerà online dopo aver contattato il docente per posta elettronica.
Online. In caso di appuntamento di persona, Dipartimento di Informatica, via Celoria 18 Milano, Stanza 7012 (7 piano)