|
ELISA FICARRA
Professore Ordinario Dipartimento di Ingegneria "Enzo Ferrari"
|
Insegnamento: Intelligenza artificiale in medicina
Bioingegneria per l'innovazione in medicina (Offerta formativa 2024)
Obiettivi formativi
Il corso si propone di studiare soluzioni software per l'analisi di immagini biomediche e di dati genetici e molecolari. Attraverso il corso, gli studenti apprenderanno modelli AI avanzati e problemi relativi alle generiche applicazioni AI, oltre a quelli specifici dell'Intelligenza Artificiale applicata alla medicina e alla salute. Infatti, durante il corso, gli studenti impareranno ad affrontare problemi quali, ad esempio:
1) la scarsità di etichette e annotazioni
2) la dimensionalità dei dati e dei data-set
3) l'integrazione di diverse fonti di informazione
4) l'affidabilità e l'equità dei modelli di AI (per il reale utilizzo dei modelli nei processi decisionali automatizzati)
5) la spiegazione dei modelli
Attraverso numerosi esempi pratici e sessioni di laboratorio, gli studenti apprenderanno le tecniche per:
- Multiple-instance learning (MIL)
- Multimodal learning e Multimodal Co-learning (integrazione di diversi tipi di dato anche con modalità mancanti o rumorose).
- Analisi di sequenze biologiche
Inoltre, argomenti specifici saranno affrontati in seminari tematici, come ad esempio su Continual learning.
Questi argomenti saranno organizzati in moduli, ciascuno composto da lezioni teoriche seguite da sessioni di laboratorio. In un primo momento verranno forniti esempi comunemente utilizzati di applicazione AI generiche; successivamente verranno presentate applicazioni biologiche e biomediche per imparare ad adattare le soluzioni teoriche e generiche a sistemi complessi, quali sono i sistemi biologici.
Relativamente poi a questi, verranno esplorate fonti di dati eterogenee, che vanno dai dati di sequenziamento del DNA/RNA alle immagini istologiche e mediche. Durante il corso verranno studiati i problemi e alcune soluzioni innovative per analisi genetiche e per modelli predittivi affidabili per applicazioni mediche. Verranno illustrate e utilizzate tecnologie deep learning quali: Graph Neural Networks, Transformers, Vision Transformers.
Lo scopo del corso è quindi duplice. In primo luogo, esso formerà gli studenti nelle più avanzate tecnologie di AI per la salute. In secondo luogo, il corso offrirà un'ampia gamma di problemi e tecnologie AI che consentiranno agli studenti di affrontare problemi generali di Intelligenza Artificiale che trascendono le applicazioni genetiche e mediche, come quelli già menzionati precedentemente (MIL, multimodal learning e multimodal co-learning, explainability, self-supervised learning, modelli multi-risoluzione, ecc.)
Prerequisiti
È richiesta una solida base di informatica, compresi algoritmi, strutture di dati e programmazione (ad esempio, python, C, C++ o Java).
E' raccomandabile aver seguito il corso MACHINE LEARNING AND DEEP LEARNING (anche senza superamento) o comunque avere concetti di base di machine e deep learning.
Gli studenti che non frequentano questi corsi riceveranno spiegazioni e materiale off-line per comprendere le basi del corso.
Programma del corso
Introduzione al corso (0,5 CFU):
• Obiettivi del corso
• Struttura del corso e regole dell'esame
• Impostazione del laboratorio
• Introduzione alla Bioinformatica:
o Definizione di Bioinformatica
o Problemi e opportunità rilevanti nella ricerca, nell'industria e nell'economia
• Introduzione alle immagini biomediche (es, immagini istologiche di patologia digitale WSI) e ai dati molecolari;
• Focus su argomenti di ricerca e sfide rilevanti nella progettazione di modelli e sistemi di intelligenza artificiale, come:
o Dimensionalità dei dati
o Scarsità di annotazioni ed etichette
o Incertezza nelle annotazioni e nelle etichette
o Etereogenità dei dati
o Bias nei dati
o Spiegabilità
o Problemi computazionali e requisiti del modello di intelligenza artificiale
Architetture di deep learning (3 CFU):
• Transformers e Visual Transformers (teoria e laboratorio)
• Self-supervised learning: esempi di architetture
• Multiple Instance Learning (MIL):
o Definizione
o Esempi di architetture MIL (teoria e laboratorio)
Dati Molecolari: Sequenziamento del DNA e dell'RNA (1 CFU):
• Breve descrizione delle tecnologie di sequenziamento genomico e dei formati dei dati
• Analisi delle sequenze genomiche:
o Esempi di architetture basate su Transformer (BERT)
o Caso d'uso: previsione dell'espressione genica e proteica da sequenze genomiche (teoria e laboratorio)
o Spiegabilità dei risultati e del modello attraverso l'ispezione dei meccanismi di attenzione
Moltimodal learning (1,5 CFU):
• Definizione e formalizzazione del multimodal learning
• Multimodal learning and co-learning: esempi di architetture
o Multimodal learning per molecular data: esempi di integrazione tra omics e dati molecolari (teoria e laboratorio)
o Multimodal learning per WSI: esempi di architetture per l'integrazione di dati provenienti da fonti diverse (es. testi, immagini, dati omici, dati molecolari, informazioni biologiche regolative/funzionali, ecc.) con assenza (parziale/totale) di dati (teoria e di laboratorio )
Il corso prevede laboratori e attività che aiutano gli studenti a comprendere le problematiche e le tecnologie AI proposte.
Metodi didattici
Il corso sarà erogato in presenza. Se tuttavia ci saranno delle emergenze da parte del docente o esigenze particolari da parte della classe la modalità di erogazione potrà essere anche in modalità ibrida, e comunque in linea con le direttive di ateneo.
Il corso è obbligatorio, ma la frequenza è facoltativa. L’insegnamento è erogato in inglese.
L’insegnamento avverrà attraverso lezioni frontali, esercitazioni pratiche, attività pratiche di laboratorio.
Le lezioni copriranno le basi teoriche dell'IA in diversi scenari reali, tra cui il mondo biologico, e le sue applicazioni in bioinformatica. Le esercitazioni permetteranno agli studenti di applicare le tecniche di IA a problemi biologici e problemi generici del mondo reale. I laboratori permetteranno agli studenti di lavorare con dati biologici e di sviluppare soluzioni basate sull'IA.
Verranno forniti strumenti di comunicazione tramite social media per condividere con i docenti e con gli studenti dubbi, domande e risposte.
Testi di riferimento
- course slides
- scientific research papers
- web documents
- short educational movies
- thematic books:
i) “A Cookbook of Self-Supervised Learning” by Randall Balestriero, et al., https://arxiv.org/pdf/2304.12210
ii) additional ones eventually suggested during the course
- optionally, ML and deep learning books, such as
i) "Deep Learning" by Ian Goodfellow, Yoshua Bengio and Aaron Courvill, MIT Press;
ii) "Deep Learning Illustrated: A Visual, Interactive Guide to Artificial Intelligence" (Addison-Wesley Data & Analytics Series) by Jon Krohn, Grant Beyleveld, Aglaé Bassens. Addison-Wesley Professional; 1 edition (August 5, 2019).
Verifica dell'apprendimento
L'esame è diviso in due parti:
1) uno scritto e
2) un orale basato su un laboratorio scelto tra quelli svolti durante l'anno.
Prerequisiti:
- Gli studenti devono completare un laboratorio scelto da un sottoinsieme di quelli proposti durante il corso.
- Il laboratorio deve essere consegnato entro la data dell'esame, includendo codice e documentazione.
- La consegna del laboratorio è obbligatoria per accedere all'esame.
- I docenti revisionano il materiale consegnato che sarà oggetto di discussione durante l'esame orale.
- Durante l'esame orale il laboratorio consegnato dovrà essere caricato sul PC e discusso davanti al PC
- I dettagli sul materiale da consegnare saranno comunicati durante il corso e pubblicati su Moodle/Teams.
L’esame:
Si svolge secondo date, orari e luoghi indicati sul portale di prenotazione.
Valutazione:
Parte scritta: max 20 punti, con domande a risposta multipla e aperte su tutti gli argomenti del corso.
Parte orale: max 10 punti, con domande su progettazione, implementazione e documentazione del laboratorio scelto
Criteri di lode:
Punteggio esame scritto ≥ 19.
Passaggi/analisi addizionali e significative nella parte orale al PC
Note aggiuntive:
L'esame sarà in presenza. In caso di problemi personali giustificati, potrà essere svolto online e registrato.
Risultati attesi
Lo studente acquisirà:
- La comprensione delle tecniche di computer vision per la progettazione di modelli predittivi e la valutazione della loro affidabilità in contesti particolarmente impegnativi, caratterizzati, ad esempio, dalla mancanza e/o dall'incertezza di label e annotazioni, dalla scarsità dei dati, dalla multi-risoluzione e dalle grandi dimensioni del dato, dall'integrazione di modalità diverse di dati con dati parzialmente mancanti, dall'adattamento al dominio.
- la comprensione di tecnologie deep learning di frontiera basate su Graph Neural Networks, Transformers, Visual Transformers, Attention, ecc.
- la comprensione delle problematiche relative all’integrazione di dati eterogenei e la comprensione delle metodologie per l’integrazione dei dati basate sulla statistica e il deep learning.
- la comprensione di tecniche computazionali per l'analisi dei dati di sequenziamento basate su tecniche di text mining e pattern matching, nonché di ottimizzazione matematica e teoria dei grafi;
- la comprensione delle biotecnologie di ultima generazione per lo screening genetico e molecolare e dei principali approcci SW per analisi bioinformatiche complesse.
In questo corso, lo studente imparerà come funzionano le metodologie esistenti e come progettare nuove architetture e algoritmi.
Inoltre, lo studente:
- imparerà ad adattare e trasferire metodologie IA avanzate in studi genetici, analisi di bio-immagini e applicazioni cliniche.
- imparerà a progettare e implementare nuove soluzioni algoritmiche affidabili nell'ambito dei Sistemi Complessi, come quelli biologici.
- sperimenterà tecniche di esecuzione e ottimizzazione SW su infrastrutture cluster.
Il corso fornirà allo studente sia competenze teoriche che pratiche, tramite l’esperienza della progettazione, da sfruttare in applicazioni generali, anche al di fuori dell'ambito genetico e medico.
Infine, la biologia computazionale per la comprensione delle malattie complesse è, in effetti, un dominio molto impegnativo che consente allo studente di comprendere i pro e i contro di diversi approcci IA, statistici e computazionali.