Nuova ricerca

Mario FORNI

Professore Ordinario
Dipartimento di Economia "Marco Biagi"

Insegnamento: Statistical learning and predictive modeling

Analisi dei dati per l'economia e il management (Offerta formativa 2022)

Obiettivi formativi

Il corso si propone di introdurre metodi e modelli per estrarre informazioni rilevanti da grandi moli di dati, con particolare attenzione all'apprendimento statistico (statistical learning) sia in contesto predittivo che non (apprendimento supervisionato e non). Al fine di fornire le competenze per l'analisi e la modellazione di dati reali, le lezioni saranno integrate da esercitazioni in Matlab.

Prerequisiti

Conoscenze di algebra lineare e statistica inferenziale da corsi triennali.

Programma del corso

Introduzione al data mining e allo statistical learning (0.5 CFU):
- modelli parametrici e nonparametrici
- valutazione dell'accuratezza di un modello
- contrasto tra bontà di adattamento e complessità di un modello
Regressione e Classificazione (1.5CFU):
- richiami su regressione lineare
- K-nearest neighbors
- regressione logistica
- analisi discriminante
Metodi di ricampionamento (0.5 CFU)
- validazione incrociata
- bootstrap
Selezione di un modello lineare e regolarizzazione (1 CFU):
- selezione stepwise
- ridge regression
- principal components regression
- partial least squares
- LASSO
Metodi non-lineari (regressione flessibile) (1 CFU):
- regressione polinomiale
- splines di regressione
- splines di lisciamento
- modelli additivi generalizzati
Metodi basati su alberi di decisione (1.5 CFU):
- alberi di regressione e classificazione
- Bagging, foreste casuali, Boosting
Support Vector Machines (1 CFU):
- classificatore con margine massimale
- classificatore di tipo Support Vector
- Classificazione con margini di decisione nonlineari
- SVM con più di due classi
Apprendimento non supervisionato (2 CFU)
- regole di associazione
- analisi delle componenti principali
- modelli a fattori
- metodi di raggruppamento

Metodi didattici

L'insegnamento si svolge in presenza ed è erogato in lingua italiana. La frequenza è facoltativa ma altamente consigliata. I metodi didattici comprendono:
- lezioni frontali che vengono svolte con l’ausilio di mezzi audiovisivi
- esercitazioni al computer con uso del software statistico Matlab
Tutto il materiale sarà messo a disposizione degli studenti sulla piattaforma Moodle del Dipartimento.
Le registrazioni delle lezioni saranno rese disponibili su Teams ogni fine settimana.

Testi di riferimento

James, Witten, Hastie, Tibshirani (2013), An Introduction to Statistical Learning (with Applications in R), Springer-Verlag

Letture aggiuntive

Azzalini, Scarpa (2004), Analisi dei dati e data mining, Springer-Verlag

Hastie, Tibshirani, Friedman (2009), The elements of statistical learning: data mining, inference and prediction. 2nd edition, Springer-Verlag

Verifica dell'apprendimento

Esame scritto (riguardante sia la parte teorica che quella pratica, 70% del voto finale). Sono anche previste attività di valutazione formativa in itinere (30% del voto finale) con esercizi da risolvere in gruppo utilizzando il software Matlab (ed eventuale presentazione orale).

Risultati attesi

1) Conoscenza e capacità di comprensione: tramite lezioni in aula e studio individuale Identificazione delle fasi del processo di ricerca. Conoscenza dei metodi statistici utili a misurare l'eventuale relazione esistente tra due o più variabili. Conoscenza dei principali metodi statistici multivariati per la riduzione dimensionale di una matrice di dati (analisi delle componenti principali, modelli a fattori e tecniche di clustering)
2) Capacità di applicare conoscenza e comprensione: Tramite svolgimento di homeworks e analisi di dati empirici, sviluppo di capacità: Capacità di effettuare un'indagine statistica in tutte le sue fasi e utilizzo di queste conoscenze in problemi reali in ambito economico, finanziario e sociale. Capacità di usare un linguaggio statistico per studiare e formalizzare tali problemi. Capacità di scelta della metodologia appropriata a seconda del problema, identificazione delle variabili e delle informazioni che si vogliono ottenere. Capacità di interpretare i risultati delle elaborazioni in maniera critica e trarre conclusioni. Capacità di comunicare i risultati, sotto forma di report o grafici.
3) Autonomia di giudizio: Attitudine ad un approccio metodologico che conduca a verificare tramite argomentazioni rigorose di teoria statistica ed economica le affermazioni e i metodi presentati. Capacità di autovalutazione delle proprie competenze ed abilità.
4) Abilità comunicative: Capacità di affrontare in modo puntuale e coerente la teoria statistica e di argomentare con precisione l'analisi empirica.
5) Capacità di apprendimento: Acquisizione delle conoscenze di tipo statistico ed economico come proprio patrimonio, da poter utilizzare per analisi individuali su dati empirici.