TALL - CorpusLad, storia e piano di lavoro

Nel 1999 si avviò una collaborazione tra l’Istituto Culturale Ladino “Majon di Fascegn” e l’ITC-Irst di Trento per un progetto ambizioso e di vasta portata sul Trattamento Automatico della Lingua applicato al Ladinoe al Sardo (progetto TALES). Questa collaborazione prevedeva lo sviluppo di un correttore ortografico, un analizzatore di testi (concordancer), un sintetizzatore morfologico e la gestione banche dati e dizionari online (Tool-box per lessicografi). Furono scelte fin dall’inizio tecnologie che negli anni successivi sono risultate vincenti nel campo della ricerca e della linguistica computazionale, e cioè modelli web-based condivisi (e non applicazioni locali) e sviluppo in Java con standard di programmazione molto elevati.

Sulla base dei risultati acquisiti nel quadro del progetto pilota TALES, negli anni 2000-2001 l’ICL, unitamente all’Union Generela di Ladins dles Dolomites, elaborò, nell’ambito del progetto SPELL-II, un piano di lavoro vòlto alla creazione di un corpus di testi in tutte le varianti ladine dolomitiche e allo sviluppo di strumenti informatici avanzati. Nel 2001-2002 l’ITC-Irst sviluppò a questo scopo un concordancer basato su Java/Lucene che permetteva la consultazione e l’interrogazione di corpora testuali attraverso un’interfaccia web. I corpora, composti da file di solo testo classificati secondo una tassonomia ad hoc e accompagnati da un frontespizio elettronico, potevano essere agevolmente investigati per l’analisi di concordanze e collocazioni, la cui ricerca, configurabile con la personalizzazione di vari parametri di interrogazione, avveniva per combinazioni booleane di parole chiave. Le concordanze trovate potevano essere ulteriormente elaborate statisticamente per l’analisi delle collocazioni. Infine, il concordancer permetteva l’accesso a liste di frequenza calcolate non in linea tramite pagine HTML statiche.

Alla fine del 2005 si decise di ampliare l’analizzatore in diverse direzioni: permettere di archiviare testi formattati (HTML) e non solo testo puro (TXT); permettere di editare direttamente on line i testi, e di avere una gestione più flessibile dei corpora; oltre a questo, la grande novità rispetto al concordancer del Tales, la possibilità di “uno spoglio diretto”, cioè del confronto diretto tra un corpus (o comunque una selezione di testi) ed un elenco di forme (essenzialmente una banca dati lessicografica/morfologica), per isolare così dal corpus gli errori di ortografia, i dialettalismi, e tutti i neologismi che – appunto – sono ricercati dai lessicografi nel momento in cui hanno la possibilità di analizzare un corpus.

Nel 2006 si decise di far convergere l’applicazione del concordancer/analizzatore di testi nella grande iniziativa STILL (Sistem de Tratament Informatich dl Lingaz Ladin) che nel frattempo aveva preso forma, grazie alla collaborazione dei vari istituti culturali e alla nascita dell’iniziativa Smallcodes. Contemporaneamente, si decise di estendere le funzionalità del sistema da quelle di puro motore di ricerca statistico a quelle - anche - di archivio elettronico di testi, e, in prospettiva, di biblioteca digitale; il tutto, come detto, nella cornice delle tecnologie proposte dall’iniziativa Smallcodes – Piattaforma di Eccellenza Digitale per le Lingue Meno Usate (www.smallcodes.org).

Questo il piano di lavoro del progetto CorpusLad a partire dal 2006

Prima fase: motore di ricerca per corpus (multipli), e archivio di testi per autore, titolo, argomento, genere letterario, periodo, eccetera (in linea dall’autunno 2006). Criteri di filtraggio molto evoluti, e salvabili; concordanze, frequenze, occorrenze.

Seconda fase: estensione delle funzionalità di ricerca con algoritmi di tipo “soundslike” (sul modello del “did you mean ...?” di Google; estensione delle funzionalità di ricerca tramite un espansore morfologico, di modo che si possa cercare non solo per “forma precisa”, ma per famiglie morfologiche (tutte le voci di un verbo, per esempio, o contemporaneamente le forme singolari e plurali di una parola, eccetera)

Terza fase: integrazione ancora maggiore di questo strumento con gli strumenti di lessicografica; ricerca automatica neologismi, inserimento automatico in aree “di transito” dell’applicazione di lessicografia e neologia (link a VOLANET); integrazione via web degli strumenti di espansione morfologica.