Bioinformatica

Università degli Studi di Milano

Corso di laurea magistrale in Informatica
a.a. 2014/15

Bioinformatica

Periodo di svolgimento: I semestre 2014/15

Orari: Martedi 12.30-14.30 Mercoledì 13.00-15.00
Aula: Auletta 6 del DI, via Comelico 39

INIZIO CORSO: Martedi 30 Settembre ore 12.30 auletta 6

Course description (in english - pdf)

Obiettivi del corso:

L'obiettivo principale del corso consiste nel fornire strumenti metodologici per analizzare ed estrarre conoscenza biologica da dati biomolecolari complessi tramite metodi di apprendimento automatico. Il corso è per sua natura interdisciplinare ed aperto agli studenti di Informatica, Fisica, Matematica, Biologia, Biotecnologie e di altre discipline scientifiche.

Programma

Introduzione.
Cenni di biologia molecolare, tipologie di problemi computazionali e tipologie di dati in bioinformatica. Basi di dati genomiche e proteomiche.

I. Metodi di pattern matching e modelli probabilistici.
Algoritmi di programmazione dinamica per l'allineamento di sequenze. Costruzione di alberi filogenetici. Catene di Markov, Hidden Markov Models e loro applicazioni in biologia computazionale. Banche dati biologiche e browser genomici.

II. Metodi di apprendimento automatico

A. Parte generale

1. Applicazione dei metodi di machine learning nelle diverse diverse aree della biologia computazionale
2. Un esempio introduttivo: supporto alla diagnostica medica. Look-up table e Nearest Neighbours. Approcci probabilistici e Teorema di Bayes; il problema della dimensionalità e approccio Naive Bayes. Dalla stima della densità di probabilità alla stima diretta della funzione discriminante.
3. Tipologie di apprendimento, generalizzazione e valutazione dell'apprendimento
(a) Apprendimento Supervisionato, non supervisonato e semi-supervisionato
(b) Apprendimento, over and underfitting, generalizzazione.
(c) Metodi sperimentali per la stima dell'errore di generalizzazione
4. Apprendimento supervisionato
- Reti neurali
(a) Percettrone lineare
(b) MLP e alg. backpropagation
(c) Ensemble di percettroni multiclasse per il supporto alla diagnostica biomolecolare
- SVM e loro applicazioni in biologia computazionale.
5. Apprendimento non supervisionato
- Algoritmi di clustering per l'analisi di dati omici: algoritmi k-means, fuzzy k-means, algoritmi gerarchici, self-organizing maps. Metodi di ensemble clustering.
- Analisi dell'affidabilita' dei cluster. Metodi basati sulle caratteristiche strutturali dei cluster. Metodi basati sulla stabilita'. Applicazioni alla ricerca di sottoclassi patologiche clinicamente rilevanti.

B. Alcuni problemi rilevanti in bioinformatica

1. Il problema della predizione automatica della funzione delle proteine (AFP - Automated Function Prediction)
(a) Formalizzazione della AFP come problema di classificazione gerarchico multiclasse e multietichetta
(b) L'approccio di Princeton basato su ensemble e reti bayesiane
(c) L'approccio basato su ensemble gerarchici fondati sulle True Path Rule
2. Inferenze in reti biomolecolari
(a) Modellazione di reti biomolecari come grafi
(b) Principali tipologie di problemi di biologia computazionale modellabili come problemi di ranking di nodi su grafi: annotazione funzionale dei geni, ricerca di associazioni gene-malattia, riposizionamento terapeutico dei farmaci.
(c) Algoritmi basati su random walk e random walk con restart
(d) Algoritmi basati su kernel e kernelized score function
(e) Apprendimento basato su kernel in reti di grandi dimensioni - algoritmi basati sull'utilizzo della memoria secondaria
(f) Algoritmi basati su reti di Hopfield cost-sensitive.

Prerequisiti:

Nozioni elementari di analisi matematica e statistica.
Corsi consigliati: Metodi Statistici per l'Apprendimento e Sistemi intelligenti

Modalità d' esame:

I. Implementazione ed applicazione di un algoritmo per l'analisi di dati bio-molecolari, oppure discussione orale di letteratura scientifica, relativa ad un argomento trattato durante il corso.
II. Discussione orale sugli argomenti trattati durante il corso.

Bibliografia

D. Gusfield, Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology, Cambridge Press, 1997.

G. Yona Introduction to Computational Proteomics Chapman & Hall/CRC, 2011.

C. Bishop, Pattern Recognition and Machine Learning, Springer, 2007.