L'articolo descrive i lavori in corso per la digitalizzazione del "Grande Dizionario della Lingua Italiana (GDLI)", con l'obiettivo specifico di creare i presupposti per una ricerca avanzata. Dopo aver discusso l'approccio generale adottato per estrarre e strutturare i contenuti del GDLI, nell'articolo si riportano i risultati di un caso di studio condotto su due volumi selezionati per le diverse questioni di conversione sollevate. L'estrazione e la strutturazione dei contenuti del dizionario avviene attraverso un processo iterativo basato su schemi codificati a mano: a partire dal riconoscimento del lemma a esponente per la voce , si sperimentano una serie di condizioni che consentono la costruzione e la progressiva strutturazione, in fasi successive, dell'intera voce lessicale.Si è anche iniziato a progettare la rappresentazione di voci estratte e strutturate in un formato standard, codificato in TEI. Viene inoltre fornito e illustrato uno schema di una voce di esempio per mostrare quale sarà il risultato finale. [The paper describes ongoing work on the digitization of an authoritative historical Italian dictionary, namely Il Grande Dizionario della Lingua Italiana (GDLI), with a specific view to creating the prerequisites for advanced human-oriented querying. After discussing the general approach taken to extract and structure the GDLI contents, in the paper we report the encouraging results of a case study carried out against two volumes which have been selected for the different conversion issues raised. Dictionary content extraction and structuring is being carried out through an iterative process based on hand coded patterns: starting from the recognition of the entry headword, a series of truth conditions are tested which allow the building and progressive structuring, in successive steps, of the whole lexical entry. We also started to design the representation of extracted and structured entries in a standard format, encoded in TEI. An outline of an example entry is also provided and illustrated in order to show what the end result will look like].
Converting and structuring a digital historical dictionary of Italian: a case study / Marco Biffi, Eva Sassolini, Anas Fahad Khan, Monica Monachini, Simonetta Montemagni. - ELETTRONICO. - (2019), pp. 603-621. (Intervento presentato al convegno Electronic lexicography in the 21st century: smart lexicography. Proceedings of the eLex 2019 conference. tenutosi a Sintra, Portugal nel 1-3 October 2019).
Converting and structuring a digital historical dictionary of Italian: a case study
Marco Biffi
;
2019
Abstract
L'articolo descrive i lavori in corso per la digitalizzazione del "Grande Dizionario della Lingua Italiana (GDLI)", con l'obiettivo specifico di creare i presupposti per una ricerca avanzata. Dopo aver discusso l'approccio generale adottato per estrarre e strutturare i contenuti del GDLI, nell'articolo si riportano i risultati di un caso di studio condotto su due volumi selezionati per le diverse questioni di conversione sollevate. L'estrazione e la strutturazione dei contenuti del dizionario avviene attraverso un processo iterativo basato su schemi codificati a mano: a partire dal riconoscimento del lemma a esponente per la voce , si sperimentano una serie di condizioni che consentono la costruzione e la progressiva strutturazione, in fasi successive, dell'intera voce lessicale.Si è anche iniziato a progettare la rappresentazione di voci estratte e strutturate in un formato standard, codificato in TEI. Viene inoltre fornito e illustrato uno schema di una voce di esempio per mostrare quale sarà il risultato finale. [The paper describes ongoing work on the digitization of an authoritative historical Italian dictionary, namely Il Grande Dizionario della Lingua Italiana (GDLI), with a specific view to creating the prerequisites for advanced human-oriented querying. After discussing the general approach taken to extract and structure the GDLI contents, in the paper we report the encouraging results of a case study carried out against two volumes which have been selected for the different conversion issues raised. Dictionary content extraction and structuring is being carried out through an iterative process based on hand coded patterns: starting from the recognition of the entry headword, a series of truth conditions are tested which allow the building and progressive structuring, in successive steps, of the whole lexical entry. We also started to design the representation of extracted and structured entries in a standard format, encoded in TEI. An outline of an example entry is also provided and illustrated in order to show what the end result will look like].I documenti in FLORE sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.