|
Marina COCCHI
Professore Ordinario Dipartimento di Scienze Chimiche e Geologiche - Sede Dipartimento di Scienze Chimiche e Geologiche
|
Insegnamento: Elaborazione di dati scientifici
Informatica (Offerta formativa 2023)
Obiettivi formativi
Il corso si propone di far acquisire allo studente consapevolezza degli strumenti d’indagine delle discipline sperimentali, e del loro uso nell’ambiente produttivo, della tipologia dei dati acquisiti e delle problematiche inerenti la loro armonizzazione, codificazione e organizzazione e delle sue implicazioni ai fini dell’elaborazione dell’informazione.
Al termine dell'insegnamento lo studente sarà in grado di:
- conoscere i metodi principali per il data mining e per l’analisi di dati ad elevata dimensionalità e complessità e per la loro rappresentazione grafica;
- conoscere le principali metodologie di indagine delle scienze sperimentali anche in ambito produttivo;
- riconoscere le diverse tipologie e struttura dei dati e le problematiche inerenti la codificazione, trasformazione e preprocessing, ed anche la loro influenza nell’estrazione dell’informazione;
- saper utilizzare le principali metodologie di analisi multivariata dei dati nei contesti:
a) analisi esplorativa; b) analisi di cluster c) modellazione lineare;
- costruire modelli appropriati per l’analisi di insiemi di dati mediante esercitazioni pratiche svolte con tool commerciali e/o open source.
- interpretare criticamente e validare i risultati ottenuti.
Per maggiore dettaglio sugli obiettivi formativi si rimanda alla sezione relativa ai risultati di apprendimento attesi.
Prerequisiti
Alcune nozioni di statistica di base (media, deviazione standard, distribuzione normale, intervalli di fiducia) e di programmazione e tecniche algoritmiche di base.
Programma del corso
- Introduzione al corso (1 CFU):
Motivazioni e contesto per il data mining, gli ambiti applicativi, focus sull’ambito scientifico.
Il paradigma “Data Driven Discovery” nelle scienze sperimentali. Natura e peculiarità dei set di dati scientifici in funzione delle diverse metodologie di acquisizione (misure chimiche, fisiche, etc., analisi strumentale, immagini digitali e iperspettrali, tecniche ifenate, monitoraggio temporale, spaziale, etc.).
- Analisi Esplorativa (2 CFU)
Comprendere e organizzare i dati.
Esplorazione statistica dei dati univariata e multivariata. Rappresentazione grafica. Qualità dei dati. Preprocessing. Outliers. Metodi di decomposizione/proiezione (PCA, cenni ad altre).
- Metodi di Clustering (0.5 CFU)
Misure di Similarità/Dissimilarità. rassegna dei possibili metodi e approcci. Discussione di esempi applicative in diversi ambiti.
-Modellamento lineare (2.5 CFU):
Calibrazione e regressione. Introduzione ai metodi di class-modeling, classificazione/discriminazione. Metodi di validazione dei modelli. Principali algoritmi utilizzati.
Metodi didattici
Le lezioni si svolgeranno in presenza a meno di diverse indicazioni a causa della situazione sanitaria COVID19 che impongano l'erogazione a distanza. In tal caso saranno erogate mediante piattaforma teams in modalità sincrona e sarà possibile organizzare incontri a piccoli gruppi, quando richiesto dagli studenti, per discussione degli argomenti presentati a lezione, per risolvere problematiche relative alle esercitazioni da svolgere, per commentare la correzione dei reports presentati dagli studenti sulle singole esercitazioni.
Le lezioni frontali si svolgono con ausilio di presentazioni (proiezione di slides) e scrittura (lavagna, schermo). Per i principali metodi trattati sarà illustrato a titolo di esempio come utilizzarli nell'ambito di uno specifico software a disposizione con licenza di Ateneo agli studenti in ambiente Matlab. Saranno assegnate alcune esercitazioni da condurre in autonomia dagli studenti su data sets di letteratura. E' lasciata agli studenti la possibilità di utilizzare open source software in altri ambienti o di sviluppare proprie routine.
Gli studenti lavoratori sono invitati a mettersi in contatto con il Docente per ricevere indicazioni specifiche aggiornate sul materiale didattico messo a disposizione.
Testi di riferimento
Pang-Ning Tan, Michael Steinbach, Vipin Kumar Introduction to Data Mining. Pearson International, 2006.
Trevor Hastie, Robert Tibshirani, Jerome Friedman, The elements of statistical learning. Data Mining, Inference, and Prediction. 2nd Ed. Springer Series in Statistics, Springer. Stanford, California 2008
K. Varmuza, P. Filzmoser, Introduction to multivariate statistical analysis in chemometrics, CRC press 2009;
PLS-Toolbox Manual , http://www.eigenvector.com;
R. Wherens, Chemometrics with R, Springer 2011
www.springer.com/life+sciences/systems+biology+and+bioinformatics/book/978-3-642-17840-5;
Verifica dell'apprendimento
L'accertamento del profitto avviene mediante una prova di verifica finale orale che potrebbe essere svolta in presenza
o a distanza a seconda dell'evoluzione della situazione COVID19.
In itinere sono assegnate esercitazioni da svolgere autonomamente dallo studente che preparano alla prova finale: è richiesta la consegna di un report per ciascuna esercitazione.
I report sono valutati secondo i criteri: organizzazione, linguaggio e capacità di sintesi; selezione dei metodi appropriate di analisi; corretta applicazione; capacità di descrivere ed interpretare i risultati.
Verifica finale: a piccoli gruppi (2 studenti) è assegnato un progetto di analisi di un data set con uno o più metodi tra quelli presentati nel corso.
Durante la prova di verifica finale e' richiesto di effettuare una presentazione (slides) e discussione orale dei risultati ottenuti, dei metodi usati, e del software utilizzato.
Durante la discussione sono poste domande dal docente a ciascun studente prendendo spunto dalla presentazione in modo da accertare la preparazione sui diversi argomenti trattati nel corso.
Nell’attribuzione del punteggio della verifica finale viene valutata la corretezza della scelta dei metodi impiegati e la conoscenza di come sono implementati nel software utilizzato (30%), la capacità di applicare le conoscenze acquisite nella discussione del data set (30%), l'abilità comunicativa (10%), il livello delle conoscenze teoriche acquisite (30%).
La votazione finale è espressa in trentesimi con eventuale lode.
Risultati attesi
Conoscenza e comprensione
-Comprendere il paradigma data driven discovery
-Distingue la diversa natura dei dati in funzione delle diverse metodologie di indagine e le problematiche di codificazione
-Conosce gli strumenti di analisi multivariata per l’elaborazione e la gestione dell’informazione in ambito scientifico.
-Conosce i principali strumenti informatici per il data mining e la modellazione di dati.
Capacità di applicare conoscenza e comprensione
-Applica le conoscenze/metodi studiati per modellare e sviluppare applicazioni per risolvere problemi sia in ambito della ricerca che applicazione.
-Comprende quali metodi utilizzare e come impostare un applicativo in funzione delle principali metodiche di analisi/indagine scientifica adottate.
Autonomia di giudizio
- Sa discutere criticamente ed esporre i risultati ottenuti.
- Acquisisce la capacità di suggerire metodi di analisi dati efficaci in funzione del problema posto e sa valutare gli strumenti più efficaci per realizzare applicativi dedicati.
Abilità comunicative
- Sa redigere rapporti, illustrare software applicativi;
- Sa comprendere le esigenze ed i problemi posti dagli "utenti";
- Capacità di comunicazione delle analisi dei dati effettuate e dei risultati conseguiti
Capacità di apprendimento
- Identifica le fonti bibliografiche e web efficaci per migliorare le conoscenze rispetto all’elaborazione e gestione dell’informazione da dati scientifici;
- Individua i linguaggi più adatti allo sviluppo del relativo software;
- Approfondire in modo autonomo aspetti collaterali/sinergici a quelli trattati nel corso.