La rappresentazione del dato testuale: codifica del testo e linguaggi di marcatura; la linguistica dei corpora: struttura delle risorse testuali ed esplorazione dei dati; introduzione ai metodi statistici per la linguistica.
A. Lenci, S. Montemagni, V. Pirrelli, "Testo e computer. Elementi di linguistica computazionale", Roma, Carocci, 2005.
E Cresti. A. Panunzi, "Introduzione ai corpora dell'italiano", Bologna, Mulino, 2013.
D. Jurawsky, J.H. Martin, "Speech and language processing", 2nd edition, Upper Saddle River (NJ), 2008.
Obiettivi Formativi
Conoscenza delle problematiche fondamentali affrontate dalla linguistica computazionale.
Acquisizione delle capacità di base per l'utilizzo di strumenti informatici di analisi del testo.
Prerequisiti
Conoscenze di base in linguistica generale.
Metodi Didattici
Lezioni faccia a faccia; esercizi di analisi computazionale del testo.
Altre Informazioni
Saranno disponibili le slides del corso.
Modalità di verifica apprendimento
Esame orale
Programma del corso
(1) La codifica del testo: codifica a basso livello; codifica ad alto livello; linguaggi di mark-up. (2) Il corpus come fonte di dati linguistici: campionamento e rappresentatività; costruzione di un corpus; distribuzione delk lessico e liste di frequenza; esplorazione del corpus: concordanze, collocazioni, espressioni regolari. (3) Statistica applicata ai dati linguistici: fondamenti di teoria della probabilità; modelli markoviani; PoS tagging probabilistico e associazioni lessicali.