- Nel 1999 si avviò una collaborazione tra l’Istituto
Culturale Ladino “Majon di Fascegn” e l’ITC-Irst di Trento per un progetto ambizioso
e di vasta portata sul Trattamento Automatico della Lingua applicato
al Ladinoe al Sardo (progetto TALES). Questa collaborazione prevedeva
lo sviluppo di un correttore ortografico, un analizzatore
di testi (concordancer), un sintetizzatore
morfologico e la gestione banche dati e dizionari online
(Tool-box per lessicografi). Furono scelte fin
dall’inizio tecnologie che negli anni successivi sono risultate vincenti
nel campo della ricerca e della linguistica computazionale, e cioè modelli web-based condivisi
(e non applicazioni locali) e sviluppo in Java con standard di programmazione
molto elevati.
- Sulla base dei risultati acquisiti nel quadro del progetto pilota TALES,
negli anni 2000-2001 l’ICL, unitamente all’Union Generela di Ladins dles
Dolomites, elaborò, nell’ambito del progetto SPELL-II, un piano di lavoro
vòlto alla creazione di un corpus di testi in tutte le varianti ladine
dolomitiche e allo sviluppo di strumenti informatici avanzati. Nel 2001-2002
l’ITC-Irst sviluppò a questo scopo un concordancer basato su
Java/Lucene che permetteva la consultazione e l’interrogazione di corpora
testuali attraverso un’interfaccia web. I corpora, composti da file di
solo testo classificati secondo una tassonomia ad hoc e accompagnati
da un frontespizio elettronico, potevano essere agevolmente investigati
per l’analisi di concordanze e collocazioni, la cui ricerca, configurabile
con la personalizzazione di vari parametri di interrogazione, avveniva
per combinazioni booleane di parole chiave. Le concordanze trovate potevano
essere ulteriormente elaborate statisticamente per l’analisi delle collocazioni. Infine,
il concordancer permetteva l’accesso a liste di frequenza calcolate
non in linea tramite pagine HTML statiche.
- Alla fine del 2005 si decise di ampliare l’analizzatore
in diverse direzioni: permettere di archiviare testi formattati (HTML)
e non solo testo puro (TXT); permettere di editare direttamente on line
i testi, e di avere una gestione più flessibile dei corpora; oltre a questo,
la grande novità rispetto al concordancer del Tales, la possibilità
di “uno spoglio diretto”, cioè del confronto diretto tra un corpus (o
comunque una selezione di testi) ed un elenco di forme (essenzialmente
una banca dati lessicografica/morfologica), per isolare così dal corpus
gli errori di ortografia, i dialettalismi, e tutti i neologismi che –
appunto – sono ricercati dai lessicografi nel momento in cui hanno la
possibilità di analizzare un corpus.
- Nel 2006 si decise di far convergere l’applicazione
del concordancer/analizzatore di testi nella grande iniziativa STILL
(Sistem de Tratament Informatich dl Lingaz Ladin) che nel frattempo
aveva preso forma, grazie alla collaborazione dei vari istituti culturali
e alla nascita dell’iniziativa Smallcodes. Contemporaneamente, si decise
di estendere le funzionalità del sistema da quelle di puro motore di
ricerca statistico a quelle - anche - di archivio elettronico di testi,
e, in prospettiva, di biblioteca digitale; il tutto, come detto, nella
cornice delle tecnologie proposte dall’iniziativa Smallcodes – Piattaforma
di Eccellenza Digitale per le Lingue Meno Usate (www.smallcodes.org).
Questo il piano di lavoro del progetto CorpusLad a partire dal
2006
- Prima fase: motore di ricerca per corpus (multipli), e archivio di testi
per autore, titolo, argomento, genere letterario, periodo, eccetera (in
linea dall’autunno 2006). Criteri di filtraggio molto evoluti, e salvabili;
concordanze, frequenze, occorrenze.
- Seconda fase: estensione delle funzionalità di ricerca con algoritmi di
tipo “soundslike” (sul modello del “did you mean ...?” di Google; estensione
delle funzionalità di ricerca tramite un espansore morfologico, di modo
che si possa cercare non solo per “forma precisa”, ma per famiglie morfologiche
(tutte le voci di un verbo, per esempio, o contemporaneamente le forme
singolari e plurali di una parola, eccetera)
- Terza fase: integrazione ancora maggiore di questo strumento con gli strumenti
di lessicografica; ricerca automatica neologismi, inserimento automatico
in aree “di transito” dell’applicazione di lessicografia e neologia (link
a VOLANET); integrazione via web degli strumenti di espansione morfologica.