All’interno delle varie fasi di realizzazione del VoDIM (Vocabolario dina-mico dell’italiano moderno), che discende dalla ricerca effettuata per Prin spe-cifici nel 2012 e nel 2015, si colloca la creazione di un corpusdiacronico com-prendente la lingua della scienza, dell’arte, della cucina, della politica, dellecanzoni e delle opere liriche, della letteratura e della paraletteratura, dell’in-formazione, delle istituzioni. Per aumentarne il grado di rappresentatività èparso opportuno creare, in aggiunta, un corpusbilanciato delle dimensioni di2 miliardi di parole riferito all’italiano più recente sulla base del web. Da quiè nato il progetto di realizzazione di un corpuscon queste caratteristiche attraverso strumenti informatici che consentono di prelevare e catalogare ingentiquantità di testi dalla rete. L’articolo proposto si sofferma in particolare sul me-todo di impostazione del programma di prelievo, basato sulle “etichette” delGrande dizionario italiano dell’usodi De Mauro, e sulla descrizione del primoprototipo di banca dati interrogabile --- [The various stages in the compilation of the Vocabolario dinamico dell’i-taliano moderno (VoDIM),which developed from research carried out for na-tional projects of 2012 and 2015, include the creation of a diachronic corpusof the language of science, art, cooking, politics, songs and operas, literatureand para-literature, information, institutions. To increase the degree in whichthe corpuswas representative, it seemed appropriate to create, in addition, abalanced corpus of the size of 2 billion words with reference to the most recentweb-based Italian. This led to the project of creating a corpus with these char-acteristics by using the tools of information technology that allow the extractionand cataloguing of large quantities of texts from the web. This article concen-trates in particular on the method of designing the programme for extractingtexts, based on the “labels” of De Mauro’s Grande dizionario italiano dell’usoand on the description of the first prototype of searchable data-base]

Progettare e ideare un corpus dell’italiano nella rete: il caso del CoLIWeb / Marco Biffi; Alice Ferrari. - In: STUDI DI LESSICOGRAFIA ITALIANA. - ISSN 0392-5218. - STAMPA. - XXXVII:(2020), pp. 357-374.

Progettare e ideare un corpus dell’italiano nella rete: il caso del CoLIWeb

Marco Biffi
;
Alice Ferrari
2020

Abstract

All’interno delle varie fasi di realizzazione del VoDIM (Vocabolario dina-mico dell’italiano moderno), che discende dalla ricerca effettuata per Prin spe-cifici nel 2012 e nel 2015, si colloca la creazione di un corpusdiacronico com-prendente la lingua della scienza, dell’arte, della cucina, della politica, dellecanzoni e delle opere liriche, della letteratura e della paraletteratura, dell’in-formazione, delle istituzioni. Per aumentarne il grado di rappresentatività èparso opportuno creare, in aggiunta, un corpusbilanciato delle dimensioni di2 miliardi di parole riferito all’italiano più recente sulla base del web. Da quiè nato il progetto di realizzazione di un corpuscon queste caratteristiche attraverso strumenti informatici che consentono di prelevare e catalogare ingentiquantità di testi dalla rete. L’articolo proposto si sofferma in particolare sul me-todo di impostazione del programma di prelievo, basato sulle “etichette” delGrande dizionario italiano dell’usodi De Mauro, e sulla descrizione del primoprototipo di banca dati interrogabile --- [The various stages in the compilation of the Vocabolario dinamico dell’i-taliano moderno (VoDIM),which developed from research carried out for na-tional projects of 2012 and 2015, include the creation of a diachronic corpusof the language of science, art, cooking, politics, songs and operas, literatureand para-literature, information, institutions. To increase the degree in whichthe corpuswas representative, it seemed appropriate to create, in addition, abalanced corpus of the size of 2 billion words with reference to the most recentweb-based Italian. This led to the project of creating a corpus with these char-acteristics by using the tools of information technology that allow the extractionand cataloguing of large quantities of texts from the web. This article concen-trates in particular on the method of designing the programme for extractingtexts, based on the “labels” of De Mauro’s Grande dizionario italiano dell’usoand on the description of the first prototype of searchable data-base]
2020
XXXVII
357
374
Goal 4: Quality education
Marco Biffi; Alice Ferrari
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in FLORE sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificatore per citare o creare un link a questa risorsa: https://hdl.handle.net/2158/1209929
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact