MILANO

Il latino è vivo e corre sul web

Grazie al finanziamento di 2 milioni di euro della Commissione europea, il ricercatore Marco Passarotti creerà una connessione web-based fra tutte le risorse linguistiche (testi, dizionari, lessici) e gli strumenti di trattamento automatico del linguaggio

06 marzo 2018

Altro che lingua morta. Il latino è vivo, vegeto e per di più corre sul web. L’idioma di Cicerone è il protagonista di un ambizioso progetto scientifico ideato da Marco Passarotti. LiLa (Linking Latin), questo il nome, è valso al ricercatore della facoltà di Scienze linguistiche e letterature straniere dell’Università Cattolica l’assegnazione di un ERC Consolidator Grant di circa 2 milioni di euro, il più prestigioso finanziamento alla ricerca dato dalla Commissione Europea a uno studioso nell’ambito del programma di finanziamento Horizon 2020.

«Il latino è una lingua come le altre: non è più bella e non è più brutta, semplicemente perché questo non è un tratto distintivo delle lingue» spiega Passarotti. «Ma il latino è stato la lingua franca di un intero continente per quasi due millenni. Il suo corpus ammonta a quasi 80 milioni di parole tra il terzo secolo AC e il settimo DC. E da lì in poi sono altre centinaia di milioni. Un’eredità immensa, diversa (perché i testi latini parlano dei temi più svariati) e diffusa (perché sono scritti in quasi tutta Europa)».

Cos’è che rende così rivoluzionario LiLa? Produrrà una “base di conoscenza” per la lingua latina, vale a dire una connessione web-based fra tutte le risorse linguistiche (dizionari, lessici, testi) e gli strumenti di trattamento automatico del linguaggio per il latino (strumenti che fanno l’analisi logica di testi latini in modo automatico) che sono oggi disponibili a livello mondiale. Sono tanti, costruiti in tanti decenni, ma non “si parlano” e sono “distribuiti” in giro per il mondo, in diversi siti web e con diversi formati.

«Oggi possiamo mutuare tecnologie e metodi sviluppati in ambito linguistico computazionale per trattare le masse di dati linguistici del web al fine di poter maneggiare questa eredità con maggiore profondità e qualità di un tempo» osserva il ricercatore dell’Università Cattolica. «E così possiamo mettere nelle mani dei classicisti di domani un’enorme quantità di evidenza empirica, che è tutto ciò che possiamo sapere del latino. Non abbiamo più parlanti nativi di latino: tutto ciò che abbiamo e sappiamo sono i testi latini che la selezione naturale della storia ci ha lasciato. Abbiamo il dovere di sfruttarla tutta e al meglio!».

Il risultato sarà la possibilità di interrogare, usare, pubblicare risorse e strumenti per il latino in modo distribuito e interoperabile. Si potrà lanciare una ricerca su testi di diverse epoche che sono stati messi a disposizione da diverse istituzioni (biblioteche, centri di ricerche, archivi). E li si potrà processare automaticamente con strumenti che finalmente parleranno la stessa lingua.

Questa “lingua” è la metodologia del progetto, che è mutuata (in modo interdisciplinare) dal Semantic Web. Si chiama Linked Data ed è un paradigma e una tecnologia che permette a dati sparsi in giro per il web di interagire utilizzando un lessico (cioè una lingua) comune, che è comprensibile e processabile non solo dall’uomo, ma anche dalle macchine.

Lila durerà per 5 anni a partire dalla primavera 2018 e rientra nell’ambito di una disciplina, la “Linguistica Computazionale”, che proprio nei chiostri della Cattolica ha le sue origini grazie a padre Roberto Busa, uno dei pionieri in questo campo. Passarotti è stato allievo del gesuita di Gallarate dal quale ha ricevuto la direzione del suo progetto più grande (Index Thomisticus, il grande corpus dei testi di Tommaso d’Aquino, che rappresenta uno dei primi archivi testuali processati con i computer), che oggi conduce presso il centro di ricerca CIRCSE dell’Università Cattolica.

CHI POTRÀ UTILIZZARE LILA

Il docente di Liceo potrà accedere a testi latini in formato digitale che sono raccolti in diverse collezioni (siti) in giro per il mondo e potrà usare strumenti di trattamento automatico del linguaggio per fare e-learning su di essi. Ad esempio, potrà chiedere agli studenti di identificare tutti i soggetti al nominativo di una porzione di testo e poi consentire loro di verificare nella base di conoscenza che costruiremo quanto sia giusta la loro risposta (o se quella della macchina sia sbagliata).

Lo studente universitario potrà accedere a testi, dizionari, lessici latini connessi tra loro e operare ricerche incrociate con un linguaggio unico. Inoltre potrà lanciare diversi tipi di strumenti di analisi automatica del linguaggio, scaricare i dati e usarli per le proprie ricerche.

Il classicista potrà sostenere le proprie ricerche con grandi masse di evidenza empirica, che potrà gestire facilmente grazie a interfacce di accesso di semplice uso e a connessioni semantiche soggiacenti in grado di mettere in relazione le varie informazioni sul medesimo oggetto (ad esempio, una parola). Potrà rendere le proprie ricerche replicabili, documentando i procedimenti seguiti per arrivare al dato che supporta le sue conclusioni. Potrà avere sul proprio tavolo di lavoro quotidiano un accesso a una base di conoscenza ricca, dinamica e varia, che lo metterà nelle condizioni non solo di accedere a testi/dizionari in formato digitale (cosa che oggi già accade), ma anche alle connessioni tra essi, che abbatteranno i confini tra i siti web che oggi li archiviano.

Gli strumenti di trattamento automatico del linguaggio entreranno a far parte delle competenze necessarie per il classicista del terzo millennio, non diversamente da come ne fanno parte i dizionari, le concordanze e le edizioni critiche.

CHI POTRÀ UTILIZZARE LILA

La ricerca dalla parte delle donne africane