Foto personale

Pagina personale di Marina COCCHI

Dipartimento di Scienze Chimiche e Geologiche
Dipartimento di Scienze Chimiche e Geologiche - Sede Dipartimento di Scienze Chimiche e Geologiche

Contenuti Insegnamento: Elaborazione di dati scientifici

Corso di studio: INFORMATICA (D.M. 270/04) (offerta formativa anno 2017)
  • CFU: 6
  • SSD: CHIM/01

Obiettivi formativi

- Acquisire consapevolezza degli strumenti d’indagine delle discipline sperimentali anche in ambito produttivo; - Riconoscere le diverse tipologie di dati e le problematiche inerenti armonizzazione, codificazione e organizzazione e le loro implicazioni ai fini dell’elaborazione dell’informazione; - Saper utilizzare le principali metodologie di analisi multivariata dei dati nei contesti: a)analisi esplorativa di dati multivariati e multidimensionali (incluse immagini; b)applicativi dell'analisi di regressione e classificazione, Relazioni quantitative struttura-attività e proprietà (QSAR e QSPR); - Acquisire competenze per sviluppare applicazioni software di analisi multivariata per dati scientifici.

Prerequisiti

Alcune nozioni di statistica di base (media, deviazione standard, distribuzione normale, intervalli di fiducia) e di programmazione e tecniche algoritmiche di base.

Programma del corso

- Il paradigma “Data Driven Discovery” nelle scienze sperimentali. - Natura e peculiarità dei set di dati scientifici in funzione delle diverse metodologie di acquisizione (variabili chimiche, fisiche, analisi strumentale, immagini digitali e iperspettrali, tecniche ifenate, monitoraggio temporale, spaziale, etc.) e descrizione della struttura molecolare e macromolecolare; -Organizzazione dei dati in vettori, matrici, arrays e loro codificazione. Estrazione dell’informazione dai dati e acquisire conoscenza. -Dall’analisi univariata all’analisi multivariata negli ambiti: data preprocessing, analisi esplorativa, modellamento. -Richiami di algebra lineare. -Metodi multivariati di decomposizione: PCA, PLS, cenni alla a metodi di risoluzione dei "segnali" sorgente MCR e ICA. -Introduzione ai metodi di class-modeling, classificazione/discriminazione, calibrazione/regressione. - Metodi di validazione dei modelli. - Principali algoritmi utilizzati .

Testi di riferimento

K. Varmuza, P. Filzmoser, Introduction to multivariate statistical analysis in chemometrics, CRC press 2009; PLS-Toolbox Manual , http://www.eigenvector.com; R. Wherens, Chemometrics with R, Springer 2011 www.springer.com/life+sciences/systems+biology+and+bioinformatics/book/978-3-642-17840-5; L. Eriksson, E. Johansson, et al. Multi- and Megavariate Data Analysis Part I Basic Principles and Applications, Second edition, Umetrics Academy: www.umetrics.com/services/literature ISBN-10: 91-973730-2-8;

Metodi Didattici

Lezioni frontali con ausilio di presentazioni (proiezione di slides) e scrittura (lavagna, schermo). Per i principali metodi trattati sono previsti esercizi al computer per implementare i relativi algoritmi in ambiente Matlab. Con software chemiometrico in ambiente Matlab saranno svolte alcune esercitazioni sia interattive, che condotte in autonomia dagli studenti su data sets di letteratura o acquisiti dagli stessi. Lavoro in gruppo per lo sviluppo di un applicativo in uno degli ambiti di analisi dati trattati nelle lezioni frontali. Discussione sugli argomenti presentati a lezione. Commenti e correzione sui reports presentati dagli studenti sulle singole esercitazioni.

Verifica dell'apprendimento

L'accertamento del profitto si avvale sia di verifiche in itinere che di una prova di verifica finale. Verifiche in itinere: è richiesta la consegna di un report elettronico per ciascuna esercitazione condotta in aula. Ciascun report è valutato in una scala numerica da 0 a 10, secondo i criteri: organizzazione, linguaggio e capacità di sintesi (0-3); selezione dei metodi appropriate di analisi (0-2); corretta applicazione (0-2); capacità di descrivere ed interpretare i risultati (0-3). La media della valutazione ottenuta su tutti i report consegnati è riportata in trentesimi e vale per 2 CFU. Verifica finale: a piccoli gruppi (2-4 studenti) è assegnato un progetto di realizzazione di un applicativo (in un linguaggio di programmazione a scelta degli studenti) su uno dei metodi trattati insieme ad un data set da utilizzare come test. Il progetto è assegnato nell’ultimo periodo di svolgimento del corso. Durante la prova di verifica finale e' richiesto di effettuare una presentazione (slides) e discussione orale del progetto elaborato, inclusa l’analisi dei risultati ottenuti dal data set di test. Durante la discussione sono poste domande dal docente a ciascun studente prendendo spunto dalla trattazione del progetto in modo da accertare la preparazione sui diversi argomenti trattati nel corso. Agli studenti non frequentanti, che non avranno svolto le valutazioni in itinere, sono poste ulteriori domande volte ad accertare le loro conoscenze e capacità di giudizio nell’analisi di data sets. Nell’attribuzione del punteggio della verifica finale viene valutata la funzionalità dell’applicativo (30%), la capacità di applicare le conoscenze acquisite nella discussione del data set (30%), l'abilità comunicativa (10%), il livello delle conoscenze teoriche acquisite (30%). La votazione finale tiene conto della valutazione riportata nelle verifiche in itinere ed è espressa in trentesimi con eventuale lode.

Risultati attesi

Conoscenza e comprensione -Comprendere il paradigma data driven discovery -Distingue la diversa natura dei dati in funzione delle diverse metodologie di indagine e le problematiche di codificazione -Conosce gli strumenti di analisi multivariata per l’elaborazione e la gestione dell’informazione in ambito scientifico. -Conosce e sa programmare gli algoritmi di base di analisi multivariata. -Conosce i principali strumenti informatici per la modellazione di dati scientifici. Capacità di applicare conoscenza e comprensione -Applica le conoscenze/metodi studiati per modellare e sviluppare applicazioni per risolvere problemi sia in ambito della ricerca che applicazione al contesto produttivo. -Comprende quali metodi utilizzare e come impostare un applicativo in funzione delle principali metodiche di analisi/indagine scientifica adottate. Autonomia di giudizio - Sa discutere criticamente ed esporre i risultati ottenuti. - Acquisisce la capacità di suggerire metodi di analisi dati efficaci in funzione del problema posto e sa valutare gli strumenti più efficaci per realizzare applicativi dedicati. Abilità comunicative - Sa redigere rapporti, illustrare software applicativi; - Sa comprendere le esigenze ed i problemi posti dagli "utenti"; - Sa sviluppare in applicativi dedicati metodi di analisi dati multivariati. Capacità di apprendimento - Identifica le fonti bibliografiche e web efficaci per migliorare le conoscenze rispetto all’elaborazione e gestione dell’informazione da dati scientifici; - Individua i linguaggi più adatti allo sviluppo del relativo software; - Approfondire in modo autonomo aspetti collaterali/sinergici a quelli trattati nel corso.