L I L I T
Lessico Informatizzato della Letteratura Italiana
Progetto DANTE
Lemmario, Rimario e Concordanze della Divina Commedia e delle principali opere poetiche dal
Duecento al Cinquecento
Iniziato nell'ottobre 2015
Concepito e diretto da Daniel Christen
Opzioni di ricerca:
occorrenze di una forma data
occorrenze di un lemma (in tutte le sue forme riscontrabili nel corpus): Lemma: cuore >Forme: cuore, cor, cuori, cori
occorrenze di una data categoria grammaticale: cuori : s.m. pl.
co-occorrenza (concordanze) di forme o di lemmi: cuore + gentile + amore
ricerca di parole con un dato valore semantico: persona, luogo, enti mitologici, animale, vegetale, movimento...
combinazione di filtri: per es. Categoria='Nome proprio' e Semantica='Luogo': Roma, Val Camonica, Po, Fiorenza [Firenze]...
Filtri:
autore, opera, canto/capitolo, testo
forma o lemma
rima (seleziona solo le parole-rima)
categoria grammaticale
valori semantici
Esempi:
ricerca
concordanza di
lemmi =>
risultato
concordanza di
lemmi
ricerca
intratestuale di
forme =>
risultato
intraterstualità
di forme
Lilit dietro le quinte
L'idea
del progetto Lilit è nata durante un seminario dantesco tenutosi al
Monte Verità di Ascona (Canton Ticino-Svizzera) a metà ottore 2015,
e costituisce una sorta di ricreazione nell'ambito di un ben più
ampio e complesso progetto di linguistica computazionale che dura da
parecchi anni.
Le particolari caratteristiche del progetto Lilit
lo rendono sostanzialmente diverso da sistemi analoghi. La
possibilità di ricercare parole e occorrrenze direttamente a partire
dagli autori e dalle opere del corpus
lo distingue dal prezioso
Tesoro della Lingua Italiana delle Origini (TLIO).
Rispetto alla Biblioteca italiana dell'Università della Sapienza di
Roma (Bilioteca
italiana), che presenta un corpus
molto ricco, il progetto
Lilit presenta il vantaggio che la ricerca non è limitata
all'occorrenza di forme, ma consente di partire dal lemma
e di cercare tutte le sue forme ,
incluse quelle che comportano una variante della radice
('cuore'>'cor'; 'uomo'> 'om'). Inoltre dispone di filtri che si
applicano sia alla dimensione morfologica
che a quella semantica
delle parole. Per il resto
presenta tutte le possibilità per allestire concordanze
, rimari
e statistiche
che solitamente
offrono progetti analoghi, sia quelli dedicati a singole opere (vedi
i vari Dante
Project pubblicati
in rete), sia quelli applicati a raccolte ampie di testi, come quello
di Èulogos (
Intratext Digital Library).
La sezione "Progetto
Dante" di Lilit comprende attualmente (aprile 2017) 49
autori, 74
opere per
oltre 1'160'000
parole, dalle
Origini fino al Cinquecento. È previsto un progressivo ampliamento del
corpus.
I testi sono tratti da fonti
liberamente accessibili in rete. Ciò rende necessaria una loro
revisione, che è stata fatta solo parzialmente sul corpus
attuale.
La
lemmatizzazione e l'analisi si svolgono in maniera completamente
automatica. È dunque possibile, in ogni momento, aggiungere nuove
opere della letteratura italiana, di qualunque epoca.
Il
progetto Lilit è reso possibile dall'impiego di alcune risorse di
linguistica computazionale sviluppate nell'ambito di un progetto più
ampio di trattamento automatico del linguaggio chiamato Syntagma,
e che ha comportato, tra le altre cose, anche l'allestimento di
un'ampia base di dati lessicale e concettuale (SELENE).
La lemmatizzazione dei testi comporta la loro segmentazione in unità
lessicali (forme) che sono sottoposte processo di analisi
(PoS-tagging) che associa a una data forma uno o più lemmi (forme
base) e la relativa categoria grammaticale. Un algoritmo di
disambiguazione risolve i casi di ambiguità più semplici, cioè
laddove il contesto immediato consente di farlo; le ambiguità dovute
a omonimia restano comunque frequentissime (soprattutto a causa
dell'estrema varietà delle forme dell'italiano delle origini) e sono
irrisolvibili senza un'analisi sintattica. L'analizzatore sintattico
Syntagma non è attualmente in grado di arrivare a un'interpretazione
univoca delle frasi presenti nel corpus proprio a causa delle
frequenti omonimie, la cui risoluzione è complicata da scarti
significativi dalle norme della concordanza e da fenomeni
retorico-sintattici come l'iperbato e l'inversione. La
disambiguazione dei nomi propri, dove si presentano tipiche
equivalenze tra cognomi (persona) e toponimi (luoghi), è effetuata
da una procedura che esamina il contesto semantico (presenza di verbi
che richiedono un agente umano o co-occorrenza di nomi comuni
riferiti a entità geografiche). Ma gli usi metaforici e la
personificazione di entità inanimate ("vidi le sue [del colle]
spalle vestite già de' raggi...") possono persino fuorviare
questa operazione. Per questo motivo sarebbe necessario un intervento di
disambiaguazione manuale, per il quale Lilit dispone di un'apposita
interfaccia che rende facile e veloce questo compito.
Il
dizionario di riferimento per l'analisi automatica è la base di dati
lessicale SELENE
generata a
partire dal Dizionario italiano Sabatini Coletti (DiSC), arricchita
di forme tratte dal Tesoro della Lingua Italiana delle Origini
(TLIO).
Queste ultime sono state completate con le informazioni morfologiche
e collegate con le rispettive forme dell'italiano contemporaneo, in
maniera che possano comunicare con il database sintattico (strutture
argomentali) e semantico di SELENE.
I valori semantici sono
assegnati mediante la rete semantica AlphaNet,
tramite una ricca ontologia e un database di tassonomie concepite per
il sistema Syntagma. La base di dati lessicale è consultabile anche
direttamente in rete (SELENE
).
Chiunque fosse interessato a dare il suo
contributo allo sviluppo del progetto (offerta di altri testi da
integrare nel progetto, revisione dei testi, attività di
disambiguazione semi-automatica, arricchimento del lessico
dell'italiano delle origini) è invitato a scrivere a
info[at]semasia.ch .
La generazione del database (lemmatizzazione) è completamente automatica: numerosi casi di ambiguità (lessicale, morfologica, semantica) restano quindi irrisolti.
Elenco autori
Elenco opere
Fonti e bibliografia