Università degli Studi di Milano

Corso di laurea magistrale in Informatica
a.a. 2016/17

Bioinformatica  

Docente: Giorgio Valentini 

Periodo di svolgimento: II semestre 2016/17
Orari:    Martedi 13.30-15.30 Sala lauree 
Mercoledì 13.30-15.30 aula tau    

DI - Dipartimento di Informatica, via Comelico 39

INIZIO CORSO:  Mercoledi 1 marzo ore 13.30 auletta 5

Course description (in english - pdf)

Obiettivi del corso:

L'obiettivo principale del corso consiste nel fornire strumenti metodologici per analizzare ed estrarre conoscenza biologica da dati biomolecolari complessi tramite metodi di apprendimento automatico. Il corso è per sua natura interdisciplinare ed aperto agli studenti di Informatica, Fisica, Matematica, Biologia, Biotecnologie e di altre discipline scientifiche.

Programma


Introduzione.
Tipologie di problemi computazionali e tipologie di dati in bioinformatica. Basi di dati genomiche e proteomiche.

I. Metodi di apprendimento automatico

0. Introduzione ai metodi di apprendimento automatico

1. Tipologie di apprendimento, generalizzazione e valutazione delle capacità di apprendimento
(a) Apprendimento Supervisionato, non supervisonato e semi-supervisionato
(b) Apprendimento, over and underfitting, generalizzazione.
(c) Metodi sperimentali per la stima dell'errore di generalizzazione
2. Apprendimento supervisionato
- Look-up table e Nearest Neighbours.
- Approcci probabilistici e Teorema di Bayes; il problema della dimensionalità e approccio Naive Bayes.
- Reti neurali: Percettrone lineare, Percettrone multistrato e algoritmo di backpropagation
- Support Vector Machines e metodi supervisionati basati su kernel
- Metodi di ensemble
2. Metodi di apprendimento non supervisionato.
Metodi di clustering: k-means, algoritmi di clustering gerarchico, metodi per il clustering di grafi.


II. Metodi supervisionati, semi-supervisionati e non supervisionati in bioinformatica

0. Applicazione dei di metodi machine learning nelle diverse diverse aree della biologia computazionale

1. Il problema della predizione supervisionata della funzione delle proteine (AFP - Automated Function Prediction)
(a) Formalizzazione della AFP come problema di classificazione gerarchico multiclasse e multietichetta
(b) Metodi basati sulla kernelizzazione congiunta dello spazio di input  e di output
(c) Metodi basati su ensemble e reti bayesiane
(d) Ensemble gerarchici basati sulle True Path Rule.

2. Inferenze semi-supervisionate in reti biomolecolari
(a) Modellazione di reti biomolecari come grafi
(b) Principali tipologie di problemi di biologia computazionale modellabili come problemi di ranking di nodi su grafi: annotazione funzionale dei geni, ricerca di associazioni gene-malattia, riposizionamento terapeutico dei farmaci.
(c) Algoritmi basati su random walk e random walk con restart
(d) Algoritmi basati su kernel e kernelized score function
(e) Algoritmi basati su reti di Hopfield cost-sensitive.
(f) Tecnologie basate su memoria secondaria e implementazione vertex-centric di algoritmi network-based per il processing di reti biomolecolari di grandi dimensioni.

3. Predizione di varianti genetiche associate a patologie mendeliane.
(a) Varianti genetiche a livello di singolo nucleotide (SNV) e tipologie di feature genomiche associabili a SNV. Malattie genetiche mendeliane e malattie genetiche complesse.
(b) Metodi si apprendimento automatico supervisionato per la predizione di SNV associabili a malattie genetiche mendeliane.

 

Prerequisiti:

Nozioni elementari di analisi matematica e statistica.
Corsi consigliati: Metodi Statistici per l'Apprendimento e Sistemi Intelligenti

Modalità d' esame:

I. Implementazione ed applicazione di un algoritmo per l'analisi di dati bio-molecolari, oppure discussione orale di letteratura scientifica, relativa ad un argomento trattato durante il corso. Progetto sw d'esame.
II. Discussione orale sugli argomenti trattati durante il corso.

Bibliografia

G. Yona  Introduction to Computational Proteomics Chapman & Hall/CRC, 2011.

C. Bishop, Pattern Recognition and Machine Learning, Springer, 2007.

Materiale didattico 

    Bioinformatics theses available at AnacletoLab - CS Dept. of Milan


Articoli
 

Link ad AnacletoLab - Laboratorio di Biologia Computazionale del Dipartimento di Informatica

Link a riviste di bioinformatica