LILIT Dante Project

L I L I T

Lessico Informatizzato della Letteratura Italiana

Progetto DANTE

Lemmario, Rimario e Concordanze della Divina Commedia e delle principali opere poetiche dal

Duecento al Cinquecento

Iniziato nell'ottobre 2015

Concepito e diretto da Daniel Christen

www.semasia.it

Opzioni di ricerca:

occorrenze di una forma data

occorrenze di un lemma (in tutte le sue forme riscontrabili nel corpus): Lemma: cuore >Forme: cuore, cor, cuori, cori

occorrenze di una data categoria grammaticale: cuori : s.m. pl.

co-occorrenza (concordanze) di forme o di lemmi: cuore + gentile + amore

ricerca di parole con un dato valore semantico: persona, luogo, enti mitologici, animale, vegetale, movimento...

combinazione di filtri: per es. Categoria='Nome proprio' e Semantica='Luogo': Roma, Val Camonica, Po, Fiorenza [Firenze]...

Filtri:

autore, opera, canto/capitolo, testo

forma o lemma

rima (seleziona solo le parole-rima)

categoria grammaticale

valori semantici

Esempi:
ricerca concordanza di lemmi => risultato concordanza di lemmi
ricerca intratestuale di forme => risultato intrate r stualità di forme

Lilit dietro le quinte

L'idea del progetto Lilit è nata durante un seminario dantesco tenutosi al Monte Verità di Ascona (Canton Ticino-Svizzera) a metà ottore 2015, e costituisce una sorta di ricreazione nell'ambito di un ben più ampio e complesso progetto di linguistica computazionale che dura da parecchi anni.
Le particolari caratteristiche del progetto Lilit lo rendono sostanzialmente diverso da sistemi analoghi. La possibilità di ricercare parole e occorrrenze direttamente a partire dagli autori e dalle opere del corpus lo distingue dal prezioso Tesoro della Lingua Italiana delle Origini (TLIO). Rispetto alla Biblioteca italiana dell'Università della Sapienza di Roma (Bilioteca italiana), che presenta un corpus molto ricco, il progetto Lilit presenta il vantaggio che la ricerca non è limitata all'occorrenza di forme, ma consente di partire dal lemma e di cercare tutte le sue forme , incluse quelle che comportano una variante della radice ('cuore'>'cor'; 'uomo'> 'om'). Inoltre dispone di filtri che si applicano sia alla dimensione morfologica che a quella semantica delle parole. Per il resto presenta tutte le possibilità per allestire concordanze , rimari e statistiche che solitamente offrono progetti analoghi, sia quelli dedicati a singole opere (vedi i vari Dante Project pubblicati in rete), sia quelli applicati a raccolte ampie di testi, come quello di Èulogos ( Intratext Digital Library).

La sezione "Progetto Dante" di Lilit comprende attualmente (aprile 2017) 49 autori, 74 opere per oltre 1'160'000 parole, dalle Origini fino al Cinquecento. È previsto un progressivo ampliamento del corpus.
I testi sono tratti da fonti liberamente accessibili in rete. Ciò rende necessaria una loro revisione, che è stata fatta solo parzialmente sul corpus attuale.
La lemmatizzazione e l'analisi si svolgono in maniera completamente automatica. È dunque possibile, in ogni momento, aggiungere nuove opere della letteratura italiana, di qualunque epoca.

Il progetto Lilit è reso possibile dall'impiego di alcune risorse di linguistica computazionale sviluppate nell'ambito di un progetto più ampio di trattamento automatico del linguaggio chiamato Syntagma, e che ha comportato, tra le altre cose, anche l'allestimento di un'ampia base di dati lessicale e concettuale (SELENE). La lemmatizzazione dei testi comporta la loro segmentazione in unità lessicali (forme) che sono sottoposte processo di analisi (PoS-tagging) che associa a una data forma uno o più lemmi (forme base) e la relativa categoria grammaticale. Un algoritmo di disambiguazione risolve i casi di ambiguità più semplici, cioè laddove il contesto immediato consente di farlo; le ambiguità dovute a omonimia restano comunque frequentissime (soprattutto a causa dell'estrema varietà delle forme dell'italiano delle origini) e sono irrisolvibili senza un'analisi sintattica. L'analizzatore sintattico Syntagma non è attualmente in grado di arrivare a un'interpretazione univoca delle frasi presenti nel corpus proprio a causa delle frequenti omonimie, la cui risoluzione è complicata da scarti significativi dalle norme della concordanza e da fenomeni retorico-sintattici come l'iperbato e l'inversione. La disambiguazione dei nomi propri, dove si presentano tipiche equivalenze tra cognomi (persona) e toponimi (luoghi), è effetuata da una procedura che esamina il contesto semantico (presenza di verbi che richiedono un agente umano o co-occorrenza di nomi comuni riferiti a entità geografiche). Ma gli usi metaforici e la personificazione di entità inanimate ("vidi le sue [del colle] spalle vestite già de' raggi...") possono persino fuorviare questa operazione. Per questo motivo sarebbe necessario un intervento di disambiaguazione manuale, per il quale Lilit dispone di un'apposita interfaccia che rende facile e veloce questo compito.

Il dizionario di riferimento per l'analisi automatica è la base di dati lessicale SELENE generata a partire dal Dizionario italiano Sabatini Coletti (DiSC), arricchita di forme tratte dal Tesoro della Lingua Italiana delle Origini (TLIO). Queste ultime sono state completate con le informazioni morfologiche e collegate con le rispettive forme dell'italiano contemporaneo, in maniera che possano comunicare con il database sintattico (strutture argomentali) e semantico di SELENE.
I valori semantici sono assegnati mediante la rete semantica AlphaNet, tramite una ricca ontologia e un database di tassonomie concepite per il sistema Syntagma. La base di dati lessicale è consultabile anche direttamente in rete (SELENE ).

Chiunque fosse interessato a dare il suo contributo allo sviluppo del progetto (offerta di altri testi da integrare nel progetto, revisione dei testi, attività di disambiguazione semi-automatica, arricchimento del lessico dell'italiano delle origini) è invitato a scrivere a info[at]semasia.ch .

La generazione del database (lemmatizzazione) è completamente automatica: numerosi casi di ambiguità (lessicale, morfologica, semantica) restano quindi irrisolti.

Elenco autori
Elenco opere
Fonti e bibliografia

Entra in L i l i t