Insegnamento mutuato da: B013854 - LINGUISTICA COMPUTAZIONALE Laurea Magistrale in FILOLOGIA MODERNA Curriculum LINGUISTICA ITALIANA E INFORMATICA UMANISTICA
Lingua Insegnamento
Italiano
Contenuto del corso
La rappresentazione del dato testuale: codifica del testo e linguaggi di marcatura; la linguistica dei corpora: struttura delle risorse testuali ed esplorazione dei dati; i corpora di parlato e l'analisi linguistica.
E Cresti. A. Panunzi, "Introduzione ai corpora dell'italiano", Bologna, Mulino, 2013.
A. Lenci, S. Montemagni, V. Pirrelli, "Testo e computer. Elementi di linguistica computazionale", Roma, Carocci, 2005.
Approfondimenti:
T. McEnery, A. Hardie, "Corpus Linguistics", Cambridge, CUP, 2012.
T. Raso, H. Mello (a cura di), "Spoken Corpora and Linguistic Studies", Amsterdam/Philadelphia, Benjamins, 2014.
Obiettivi Formativi
Conoscenza delle problematiche fondamentali affrontate dalla linguistica dei corpora e computazionale.
Acquisizione delle capacità di base per l'utilizzo di strumenti informatici di analisi linguistica e del testo.
Prerequisiti
Conoscenze di base in linguistica generale.
Metodi Didattici
Lezioni faccia a faccia; esercitazioni di analisi linguistica e creazione di corpora.
Altre Informazioni
Saranno disponibili le slides del corso.
Modalità di verifica apprendimento
Esame orale.
Programma del corso
(1) La codifica del testo: codifica a basso livello; codifica ad alto livello; linguaggi di mark-up. (2) Il corpus come fonte di dati linguistici: campionamento e rappresentatività; costruzione di un corpus; distribuzione del lessico e liste di frequenza; esplorazione del corpus: concordanze, collocazioni, espressioni regolari. (3) I corpora di parlato: il trattamento dei dati orali; analisi della lingua parlata (lessico, sintassi, pragmatica e prosodia).