Nuova ricerca

Marina COCCHI

Professore Ordinario
Dipartimento di Scienze Chimiche e Geologiche - Sede Dipartimento di Scienze Chimiche e Geologiche

Insegnamento: Data mining

Matematica (Offerta formativa 2020)

Obiettivi formativi

- Acquisire familiarità dei principi di data mining per l’analisi di dati ad elevata dimensionalità e complessità e loro rappresentazione grafica
- Acquisire conoscenza delle metodologie di indagine delle scienze sperimentali anche in ambito produttivo
- Riconoscere le diverse tipologie e struttura dei dati e le problematiche inerenti la codificazione, trasformazione e preprocessing, ed anche la loro influenzza nell’estrazione dell’informazione;
- Saper utilizzare le principali metodologie di analisi multivariata dei dati nei contesti:
a) analisi esplorativa e outlier detection; b) analisi di cluster c) modellazione lineare;
- Acquisire competenze per la costruzione di modelli appropriati per l’analisi di insiemi di dati mediante esercitazioni pratiche svolte con tool commerciali e/o open source.
- Acquisire strumenti per l’intepretazione critica e validazione dei risultati.

Prerequisiti

Alcune nozioni di statistica di base (media, deviazione standard, distribuzione normale, intervalli di fiducia) e di programmazione e tecniche algoritmiche di base.

Programma del corso

- Introduzione al corso. Motivazioni e contesto per il data mining, gli ambiti applicativi, focus sull’ambito scientifico.
- Il paradigma “Data Driven Discovery” nelle scienze sperimentali.
- Natura e peculiarità dei set di dati scientifici in funzione delle diverse metodologie di acquisizione (misure chimiche, fisiche, etc., analisi strumentale, immagini digitali e iperspettrali, tecniche ifenate, monitoraggio temporale, spaziale, etc.) e descrizione della struttura molecolare;
- Comprendere e organizzare i dati.
- Esplorazione statistica dei dati univariata e multivariata. Rappresentazione grafica.
- Qualità dei dati. Preprocessing. Outliers.
- Metodi di decomposizione/proiezione (PCA, cenni ad altre).
- Misure di Similarità/Dissimilarità. Metodi di Clustering: rassegna dei possibili metodi e approcci. Discussione di esempi applicative in diversi ambiti.
-Modellamento lineare: Introduzione ai metodi di class-modeling, classificazione/discriminazione, calibrazione/regressione.
- Metodi di validazione dei modelli.
- Principali algoritmi utilizzati.

Metodi didattici

Lezioni frontali con ausilio di presentazioni (proiezione di slides) e scrittura (lavagna, schermo). Per i principali metodi trattati sara illustrato a titolo di esempio come utilizzarli nell'ambito di uno specifico software a disposizione con licenza di Ateneo agli studenti in ambiente Matlab. Saranno assegnate alcune esercitazioni da condurre in autonomia dagli studenti su data sets di letteratura. E' lasciata agli studenti la possibilità di utilizzare open source software in altri ambienti o di sviluppare proprie routine.
Le Lezioni, a causa della situazione sanitaria COVID19, verranno svolte a distanza in modo sincrono.
Saranno organizzati incontri a piccoli gruppi, quando richiesto dalgi studenti, per discussione degli argomenti presentati a lezione, per risolvere problematiche relative alle esercitazioni da svolgere, per commentare la correzione dei reports presentati dagli studenti sulle singole esercitazioni.

Testi di riferimento

Pang-Ning Tan, Michael Steinbach, Vipin Kumar Introduction to Data Mining. Pearson International, 2006.
Trevor Hastie, Robert Tibshirani, Jerome Friedman, The elements of statistical learning. Data Mining, Inference, and Prediction. 2nd Ed. Springer Series in Statistics, Springer. Stanford, California 2008
K. Varmuza, P. Filzmoser, Introduction to multivariate statistical analysis in chemometrics, CRC press 2009;
PLS-Toolbox Manual , http://www.eigenvector.com;
R. Wherens, Chemometrics with R, Springer 2011
www.springer.com/life+sciences/systems+biology+and+bioinformatics/book/978-3-642-17840-5;

Verifica dell'apprendimento

L'accertamento del profitto avviene mediante una prova di verifica finale orale che potrebbe essere svolta in presenza
o a distanza a seconda dell'evoluzione della situazione COVID19.
In itinere sono assegnate esercitazioni da svolgere autonomamente dallo studente che preparano alla prova finale: è richiesta la consegna di un report per ciascuna esercitazione.
I report sono valutati secondo i criteri: organizzazione, linguaggio e capacità di sintesi; selezione dei metodi appropriate di analisi; corretta applicazione; capacità di descrivere ed interpretare i risultati.

Verifica finale: a piccoli gruppi (2 studenti) è assegnato un progetto di analisi di un data set con uno o più metodi tra quelli presentati nel corso.
Durante la prova di verifica finale e' richiesto di effettuare una presentazione (slides) e discussione orale dei risultati ottenuti, dei metodi usati, e del software utilizzato.
Durante la discussione sono poste domande dal docente a ciascun studente prendendo spunto dalla presentazione in modo da accertare la preparazione sui diversi argomenti trattati nel corso.

Nell’attribuzione del punteggio della verifica finale viene valutata la corretezza della scelta dei metodi impiegati e la conoscenza di come sono implementati nel software utilizzato (30%), la capacità di applicare le conoscenze acquisite nella discussione del data set (30%), l'abilità comunicativa (10%), il livello delle conoscenze teoriche acquisite (30%).
La votazione finale è espressa in trentesimi con eventuale lode.

Risultati attesi

Conoscenza e comprensione
-Comprendere il paradigma data driven discovery
-Distingue la diversa natura dei dati in funzione delle diverse metodologie di indagine e le problematiche di codificazione
-Conosce gli strumenti di analisi multivariata per l’elaborazione e la gestione dell’informazione in ambito scientifico.
-Conosce i principali strumenti informatici per il data mining e la modellazione di dati.

Capacità di applicare conoscenza e comprensione
-Applica le conoscenze/metodi studiati per modellare e sviluppare applicazioni per risolvere problemi sia in ambito della ricerca che applicazione.
-Comprende quali metodi utilizzare e come impostare un applicativo in funzione delle principali metodiche di analisi/indagine scientifica adottate.

Autonomia di giudizio
- Sa discutere criticamente ed esporre i risultati ottenuti.
- Acquisisce la capacità di suggerire metodi di analisi dati efficaci in funzione del problema posto e sa valutare gli strumenti più efficaci per realizzare applicativi dedicati.

Abilità comunicative
- Sa redigere rapporti, illustrare software applicativi;
- Sa comprendere le esigenze ed i problemi posti dagli "utenti";
- Capacità di comunicazione delle analisi dei dati effettuate e dei risultati conseguiti


Capacità di apprendimento
- Identifica le fonti bibliografiche e web efficaci per migliorare le conoscenze rispetto all’elaborazione e gestione dell’informazione da dati scientifici;
- Individua i linguaggi più adatti allo sviluppo del relativo software;
- Approfondire in modo autonomo aspetti collaterali/sinergici a quelli trattati nel corso.