Nuova ricerca

Elisa BERGAMI

Ricercatore t.d. art. 24 c. 3 lett. B
Dipartimento di Scienze della Vita sede ex-Biologia

Insegnamento: Coding in R for data analysis

Bioscienze (Offerta formativa 2024)

Obiettivi formativi

Il corso è un’introduzione al linguaggio di programmazione statistica R e ai principali pacchetti utili per l’organizzazione, l’analisi e la rappresentazione dei dati in un contesto uni- e bi-variato. Il corso fornisce le conoscenze di base e applicative di strumenti di analisi statistica in ambiente R nei campi di indagine delle scienze biologiche e ambientali. L’insegnamento può essere scelto come corso opzionale o in alternativa all’insegnamento di lingua Inglese (3 CFU). Per una più completa comprensione degli obiettivi formativi, si rimanda alla lettura dei risultati di apprendimento attesi.

Prerequisiti

Conoscenze relative a principi di Matematica e Analisi dei dati. Gli studenti dovranno essere in grado di riconoscere ed utilizzare le principali tecniche di analisi statistica usate nelle Scienze biologiche e le relative rappresentazioni grafiche. Per gli studenti del Corso di Laurea Magistrale in Bioscienze/Biologia Sperimentale Applicata si richiede di aver seguito il corso in “Disegno sperimentale e analisi dei dati in Biologia”.

Programma del corso

Introduzione a R e organizzazione dei dati (1 CFU)
Presentazione del corso e del materiale didattico.
R e R studio: download, installazione e descrizione dell’interfaccia. Concetti basilari della sintassi di R.
Importazione ed esplorazione di dataset. Tipologie di variabili e oggetti: vettori, matrici e liste. Effettuare operazioni in R manipolazione dei dati con dplyr e tidyr.

Rappresentazione dei dati (1 CFU)
Principali tipologie di grafici per visualizzare dati continui e discreti. Elaborare dati per rappresentare distribuzioni di analisi univariate e bivariate utilizzando ggplot (istogrammi, diagrammi a barre, diagrammi a scatola e baffi, grafici a dispersione). Riportare i risultat di un’analisi statistica in un report (RMarkdown).

Analisi dei dati (1 CFU)
Test ad ipotesi nulla, modelli lineari normali (t-test, ANOVA a una via) e modelli lineari generalizzati. Esercizi di analisi utilizzando dataset da casi studio reali nel campo delle Scienze Biologiche ed Ambientali. Cenni di programmazione in R.

Il docente si riserva la possibilità di integrazioni e/o modifiche dei contenuti in relazione alle esigenze della classe. Potrà essere dedicato un tempo maggiore ad alcuni argomenti rispetto a quanto preventivato alla luce dei feedback degli studenti.

Metodi didattici

L’insegnamento è erogato mediante lezioni frontali svolte per presentare concetti teorici tramite mezzi audiovisivi (presentazioni, fogli di calcolo, testi di articoli scientifici) seguite da esercitazioni pratiche svolte in aula informatica. Gli esercizi sono svolti assieme al docente per familiarizzare con l’ambiente R. Esercizi aggiuntivi sono svolti individualmente dagli studenti per assimilare i concetti utilizzati per la risoluzione degli esercizi.
L'insegnamento si svolge in presenza ed è erogato in lingua inglese. Vista la natura pratica del corso, è richiesta la frequenza minima del 75% delle ore totali di attività d’aula.
Sulla piattaforma Teams relativa all’insegnamento sarà presente materiale multimediale messo a disposizione dal docente su cui lo studente deve prepararsi per la verifica dell'apprendimento.

Testi di riferimento

Additional reference text(s) for the R environment and its packages will soon be added.

Verifica dell'apprendimento

L’insegnamento può essere scelto come corso opzionale o in alternativa all’insegnamento di lingua Inglese (3 CFU). Come corso opzionale, l’esame consiste in una serie di domande a risposta multipla sugli argomenti teorici (30% del voto finale) seguita da un esercizio pratico da effettuarsi utilizzando R e R studio (70% del voto finale) in aula informatica. La durata della prova è di circa 45-60 minuti. Non sono previste valutazioni intermedie.
La valutazione è espressa in trentesimi. Per superare l’esame deve essere conseguito un punteggio non inferiore a 18/30 (vale a dire una preparazione ragionevolmente sufficiente sia dal punto di vista teorico sia pratico). Per conseguire un punteggio pari a 30/30 e lode, lo studente deve dimostrare di aver acquisito una conoscenza eccellente su tutti gli argomenti trattati e risolvere in modo lineare l’esercizio fornito. Gli esami si svolgono nell’arco del calendario didattico dell’offerta formativa e per ogni appello lo/a studente/studentessa che intenda sostenerlo dovrà iscriversi utilizzando la piattaforma Esse3.

Risultati attesi

Al termine dell’insegnamento, gli studenti avranno acquisito una conoscenza generale dell’ambiente di R e delle sue estensioni. Gli studenti potranno inoltre effettuare analisi uni- e bivariate affrontate in corsi di analisi dei dati precedenti.

Conoscenza e capacità di comprensione:
- riconoscere le principali caratteristiche dell’ambiente R, di R studio e la sintassi di R.
- elencare i principali pacchetti di R per organizzare, analizzare e rappresentare dati.

Conoscenza e capacità di comprensione applicate:
- comprendere ed eseguire funzioni all’interno dei principali pacchetti di R per trasformare e rappresentare dati.
- applicare le conoscenze acquisite per eseguire l’analisi di dati nel campo della Biologia/Scienze Ambientali su R.

Autonomia di giudizio:
- identificare i punti di forza e di debolezza delle procedure apprese.
- valutare e interpretare gli output delle diverse funzioni e individuare criticamente la soluzione più appropriata per effettuare l’analisi di dati su R.

Abilità comunicative: generare un report dei risultati analizzati tramite RMarkdown.