Altro che lingua morta. Il latino è vivo, vegeto e per di più corre sul web. L’idioma di Cicerone è il protagonista di un ambizioso progetto scientifico ideato da Marco Passarotti. LiLa (Linking Latin), questo il nome, è valso al ricercatore della facoltà di Scienze linguistiche e letterature straniere dell’Università Cattolica l’assegnazione di un ERC Consolidator Grant di circa 2 milioni di euro, il più prestigioso finanziamento alla ricerca dato dalla Commissione Europea a uno studioso nell’ambito del programma di finanziamento Horizon 2020.
«Il latino è una lingua come le altre: non è più bella e non è più brutta, semplicemente perché questo non è un tratto distintivo delle lingue» spiega Passarotti. «Ma il latino è stato la lingua franca di un intero continente per quasi due millenni. Il suo corpus ammonta a quasi 80 milioni di parole tra il terzo secolo AC e il settimo DC. E da lì in poi sono altre centinaia di milioni. Un’eredità immensa, diversa (perché i testi latini parlano dei temi più svariati) e diffusa (perché sono scritti in quasi tutta Europa)».
Cos’è che rende così rivoluzionario LiLa? Produrrà una “base di conoscenza” per la lingua latina, vale a dire una connessione web-based fra tutte le risorse linguistiche (dizionari, lessici, testi) e gli strumenti di trattamento automatico del linguaggio per il latino (strumenti che fanno l’analisi logica di testi latini in modo automatico) che sono oggi disponibili a livello mondiale. Sono tanti, costruiti in tanti decenni, ma non “si parlano” e sono “distribuiti” in giro per il mondo, in diversi siti web e con diversi formati.
«Oggi possiamo mutuare tecnologie e metodi sviluppati in ambito linguistico computazionale per trattare le masse di dati linguistici del web al fine di poter maneggiare questa eredità con maggiore profondità e qualità di un tempo» osserva il ricercatore dell’Università Cattolica. «E così possiamo mettere nelle mani dei classicisti di domani un’enorme quantità di evidenza empirica, che è tutto ciò che possiamo sapere del latino. Non abbiamo più parlanti nativi di latino: tutto ciò che abbiamo e sappiamo sono i testi latini che la selezione naturale della storia ci ha lasciato. Abbiamo il dovere di sfruttarla tutta e al meglio!».
Il risultato sarà la possibilità di interrogare, usare, pubblicare risorse e strumenti per il latino in modo distribuito e interoperabile. Si potrà lanciare una ricerca su testi di diverse epoche che sono stati messi a disposizione da diverse istituzioni (biblioteche, centri di ricerche, archivi). E li si potrà processare automaticamente con strumenti che finalmente parleranno la stessa lingua.
Questa “lingua” è la metodologia del progetto, che è mutuata (in modo interdisciplinare) dal Semantic Web. Si chiama Linked Data ed è un paradigma e una tecnologia che permette a dati sparsi in giro per il web di interagire utilizzando un lessico (cioè una lingua) comune, che è comprensibile e processabile non solo dall’uomo, ma anche dalle macchine.
Lila durerà per 5 anni a partire dalla primavera 2018 e rientra nell’ambito di una disciplina, la “Linguistica Computazionale”, che proprio nei chiostri della Cattolica ha le sue origini grazie a padre Roberto Busa, uno dei pionieri in questo campo. Passarotti è stato allievo del gesuita di Gallarate dal quale ha ricevuto la direzione del suo progetto più grande (Index Thomisticus, il grande corpus dei testi di Tommaso d’Aquino, che rappresenta uno dei primi archivi testuali processati con i computer), che oggi conduce presso il centro di ricerca CIRCSE dell’Università Cattolica.