Nuova ricerca

Federica MANDREOLI

Professore Ordinario
Dipartimento di Scienze Fisiche, Informatiche e Matematiche sede ex-Matematica

Insegnamento: Gestione dell'informazione

Informatica (Offerta formativa 2023)

Obiettivi formativi

II corso introduce lo studente alle principali tecniche di information management e retrieval in vari domini applicativi inclusi il WWW, il Semantic Web e i social network. La tipologia di informazione considerata riguarda il dato non strutturato e il dato semistrutturato e il focus è sulle modalità di manipolazione dell’informazione, sulla memorizzazione di grandi quantità di informazione e sulla ricerca efficace ed efficiente attraverso metodologie e strutture dati per la realizzazione di applicazioni che accedono a tali informazioni.

La capacità di applicazione delle conoscenze si esplicherà principalmente nella capacità di utilizzare ed ideare tecniche per la gestione delle informazioni e progettare applicazioni avanzate data-centric, nonché nella capacità di progettare e realizzare complete implementazioni mediante moderne tecnologie web e database.

Grazie alle attività di analisi e progettazione, il corso fornirà allo studente anche la capacità di esprimere giudizi autonomi, di giustificare le scelte operate e di valutare criticamente i risultati ottenuti. Inoltre, sempre attraverso l'attività progettuale, il corso si pone l'obiettivo di incentivare il lavoro di gruppo, grazie al quale affinare le capacità di interazione e comunicazione tra pari.

Infine, grazie ai diversi puntatori e ai brevi seminari su argomenti particolarmente all'avanguardia nell'ambito della gestione dell'informazione, verrà fornita agli studenti la capacità di interagire, tenersi aggiornati ed apprendere tecnologie e metodologie database in continua evoluzione.

Per un ulteriore approfondimento degli obiettivi formativi, si rimanda alla lettura dei "Risultati di apprendimento attesi".

Prerequisiti

Propedeuticità obbligatorie: Algoritmi e strutture dati

Prerequisiti: Conoscenze relative alle strutture dati e agli algoritmi per la gestione di dati strutturati, database relazionali, linguaggi d’interrrogazione dichiarativi.


Programma del corso

L'insegnamento si svolge nel I semestre del III anno, per un totale di 48 ore di didattica frontale (6 CFU) suddivise tra ore di "teoria", cioè lezioni nelle quali vengono introdotti ed illustrati gli argomenti del corso, e ore di “esercitazioni”, consistenti in piccoli progetti di full-text processing.
La scansione dei contenuti in termini di ore è da intendere come puramente indicativa. Essa può infatti subire modifiche nel corso dell’insegnamento alla luce dei riscontri e della partecipazione degli studenti.

Introduzione (2 ore):
____________
Panoramica sui tipi di informazione che vanno oltre i dati relazionali e sui relativi recenti sviluppi nell’impiego di tali informazioni negli ambiti applicativi avanzati quali data exchange, semantic web, search engine, sistemi pervasivi e mobili.

Gestione di informazioni full-text (30 ore):
______________________________
Architetture dei sistemi di information retrieval

Tecniche per la manipolazione del dato testuale contenuto in pagine web, e-mail, documenti elettronici, ecc.,ecc. Text processing.

Definizione, creazione e aggiornamento di strutture dati in memoria principale e secondaria (inverted index, suffix tree, PAT trees, ecc.) per la ricerca efficiente nel testo e in sequenze di caratteri (ad es. sequenze biologiche).

Algoritmi di ricerca e interrogazioni frasali.

Modelli per ricerche approssimate e ordinamento dei risultati. Modelli classici: Modello booleano, vettoriale e probabilistico. Modelli evoluti.

Tolerant retrieval

Modelli random walk per il ranking delle pagine web (6 ore):
__________________________________________
Introduzione al ranking delle pagine web, caratteristiche del web, modelli ranking walk, Pagerank, HITS


Seminari (10 ore):
__________________________________________
Il corso include seminari introduttivi ad altri argomenti di attualità o di approfondimento per lo svolgimento del progetto.

Metodi didattici

La didattica è basata su lezioni frontali. Le lezioni del corso, oltre a fornire approfondimenti sulla teoria e sulle tecniche proposte supportate dalla proiezione di slide, prevedono una serie di attività pratiche e progettuali principalmente in Python per “toccare con mano” le principali soluzioni tecnologiche viste a lezione. Al termine del corso, lo studente avrà così una visione completa su come progettare, strutturare ed implementare al meglio applicazioni data-centric nei domini applicativi considerati.

Infine, attraverso brevi seminari su argomenti caldi nel mondo della gestione delle informazioni, verranno forniti alcuni puntatori per approfondire quanto visto a lezione e mantenersi autonomamente aggiornati sulle nuove tecnologie a propria disposizione.

FMo ~ (1579) Noninvasive Age Estimation of Indo-Pacific Bottlenose Dolphins Using Active Learning on Limited, Unbalanced Data
Il corso è erogato in lingua italiana. Le domande e gli interventi degli studenti sono graditi e incoraggiati.

La frequenza non è obbligatoria, ma fortemente consigliata. Studenti lavoratori sono invitati a prendere contatto con la docente.

Tutte le informazioni tecniche e organizzative sull'insegnamento, nonché il materiale didattico, saranno caricati su piattaforma Moodle. Si invita lo studente ad iscriversi ed a consultare tale piattaforma con regolarità.

Testi di riferimento

Il libro di riferimento è Baeza-Yates, Ribeiro-Neto, “Modern Information Retrieval: The Concepts and Technology Behind Search”. Addison Wesley.

Libro con versione on-line: Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. Disponibile al seguente link https://nlp.stanford.edu/IR-book/

Dispense in inglese a cura del docente disponibili sul sito del corso.
Le dispense del corso includono riferimenti disponibili per ciascuno degli argomenti trattati, consigliati per eventuali approfondimenti individuali.

Verifica dell'apprendimento

Il corso prevede un progetto di gruppo e un esame scritto.

Lo svolgimento di un progetto di gruppo, nella forma di approfondimento di tecniche viste a lezione e loro applicazione nel contesto di una reale applicazione data-centric, consentirà di valutare la capacità di rispondere a specifici requisiti di information management con soluzioni efficaci ed efficienti. Il progetto viene presentato oralmente dal gruppo con l'ausilio di una presentazione. Durante la presentazione orale, oltre ad individuare una soluzione corretta ed adeguata, sarà altresì fondamentale spiegare con chiarezza il proprio progetto, esplicitare le motivazioni delle scelte progettuali e tecnologiche effettuate e mostrare, anche con prove sperimentali e in modo comparativo, l'adeguatezza della propria soluzione.

L’argomento del progetto, le modalità di svolgimento dello stesso e le caratteristiche che la presentazione deve soddisfare vengono spiegati durante una lezione del corso.

La prova scritta consiste in un numero limitato di domande aperte sugli argomenti visti a lezione e semplici esercizi. Ogni quesito ha un limite massimo di spazio per la scrittura della risposta (mezza pagina o una pagina di foglio protocollo).

La valutazione di entrambe le prove avviene in 32/30 per l’attribuzione della lode. Il voto finale è determinato dalla media ponderata 60% voto scritto 40% voto progetto.

Durante l'anno si svolgono 6 prove scritte e 5 prove orali per la presentazione dei progetti.

Risultati attesi

Conoscenza e capacità di comprensione: Tramite le lezioni, lo studente avrà solide conoscenze e capacità di comprensione nell'ambito della teoria della gestione dell'informazione non tradizionale, dall'informazione testuale all'informazione semi-strutturata e a grafo, comprendendo anche le tecniche che stanno dietro ad applicazioni data-centric ampiamente utilizzate dal lato utente.

Capacità di applicare conoscenza e comprensione: Tramite esercitazioni pratiche al computer e lo svolgimento di attività progettuali individuali e di gruppo, lo studente sarò in grado di applicare le conoscenze acquisite nella progettazione ed implementazione di tecniche per la gestione dell'informazione, e in relative applicazioni basate su di esse.

Autonomia di giudizio: Tramite lo svolgimento di attività progettuali individuali e di gruppo, lo studente sarà in grado di valutare, esporre e discutere criticamente le scelte progettuali adottate ed i risultati ottenuti nell'ambito di una applicazione data centric reale.

Abilità comunicative: la stesura della relazione sul progetto e la relativa presentazione daranno modo allo studente di organizzare e presentare con chiarezza e sinteticità, oltre che con linguaggio tecnico appropriato, i risultati del proprio lavoro. Inoltre, lo svolgimento pratico del progetto richiederà piena capacità di leggere con profitto documentazione tecnica in lingua inglese.

Capacità di apprendimento: Le attività descritte consentiranno allo studente di acquisire gli strumenti metodologici per proseguire gli studi e per potere provvedere autonomamente al proprio aggiornamento, particolarmente cruciale in un ambito come quello informatico di gestione dell'informazione, dove le tecnologie sono in continua evoluzione.