A partire da un corpus di parlato patologico prodotto da soggetti schizofrenici (corpus CIPPS), costituito dalla trascrizione ortografica di 10 ore di sedute di psicoterapia con quattro diversi soggetti, in questo contributo presentiamo un progetto pilota di annotazione semiautomatica. Il corpus mostra caratteristiche del parlato patologico già illustrate in diversi lavori, che mettono in discussione alcune delle manifestazioni linguistiche comunemente attribuite al linguaggio schizofrenico. Le analisi sin qui effettuate evidenziano pertanto la necessità di arricchire gli studi nel settore delle patologie grazie anche all’allestimento di corpora di parlato opportunamente annotati, in grado di mettere in luce alcune peculiarità del linguaggio cosiddetto disturbato. Resta tuttavia non banale la costruzione di uno schema di annotazione in grado di gestire aspetti complessi del corpus stesso, quali la normalizzazione della grafia, l’annotazione dei fenomeni perilinguistici etc. Di complessità ancora maggiore è la costruzione di un sistema di etichettatura automatica in grado di tener conto di tutti i livelli necessari per l’analisi linguistica. Un primo tentativo di annotazione morfosintattica di una porzione del corpus CIPPS (21.150 occorrenze) attraverso il software TreeTagger ha evidenziato infatti che l’11,66% delle occorrenze lessicali non vengono riconosciute dallo strumento automatico. Ciò è dovuto soprattutto alla presenza di parole dialettali e regionali, o di forme non standard tipiche del parlato, le quali rivestono però un’importanza fondamentale nella valutazione dei fenomeni lessicali, e in particolare di quelli relativi alle classi lessicali chiuse. In questo lavoro viene presentata un’ipotesi di annotazione semiautomatica del corpus, utile all’analisi del lessico sia dal punto di vista delle classi di parole, sia per quanto riguarda la presenza e incidenza di altri fenomeni (ad es. marcatori discorsivi, disfluenze in genere, tipologia del lessico, standard vs dialetto etc.). L’obiettivo del nostro progetto, attualmente in fase di implementazione e costruzione, è la realizzazione di uno strumento efficace per l’etichettatura multilivello del corpus CIPPS, adattabile tuttavia anche ad altri tipi di corpora non-standard, e in grado di automatizzare il più possibile, man mano che viene utilizzato, le funzioni di annotazione.

Sull'annotazione di un corpus orale mistilingue non standard (patologico schizofrenico) / Francesca M. Dovetto, Alessandro Panunzi, Lorenzo Gregori. - STAMPA. - (2017), pp. 345-361.

Sull'annotazione di un corpus orale mistilingue non standard (patologico schizofrenico)

Alessandro Panunzi;Lorenzo Gregori
2017

Abstract

A partire da un corpus di parlato patologico prodotto da soggetti schizofrenici (corpus CIPPS), costituito dalla trascrizione ortografica di 10 ore di sedute di psicoterapia con quattro diversi soggetti, in questo contributo presentiamo un progetto pilota di annotazione semiautomatica. Il corpus mostra caratteristiche del parlato patologico già illustrate in diversi lavori, che mettono in discussione alcune delle manifestazioni linguistiche comunemente attribuite al linguaggio schizofrenico. Le analisi sin qui effettuate evidenziano pertanto la necessità di arricchire gli studi nel settore delle patologie grazie anche all’allestimento di corpora di parlato opportunamente annotati, in grado di mettere in luce alcune peculiarità del linguaggio cosiddetto disturbato. Resta tuttavia non banale la costruzione di uno schema di annotazione in grado di gestire aspetti complessi del corpus stesso, quali la normalizzazione della grafia, l’annotazione dei fenomeni perilinguistici etc. Di complessità ancora maggiore è la costruzione di un sistema di etichettatura automatica in grado di tener conto di tutti i livelli necessari per l’analisi linguistica. Un primo tentativo di annotazione morfosintattica di una porzione del corpus CIPPS (21.150 occorrenze) attraverso il software TreeTagger ha evidenziato infatti che l’11,66% delle occorrenze lessicali non vengono riconosciute dallo strumento automatico. Ciò è dovuto soprattutto alla presenza di parole dialettali e regionali, o di forme non standard tipiche del parlato, le quali rivestono però un’importanza fondamentale nella valutazione dei fenomeni lessicali, e in particolare di quelli relativi alle classi lessicali chiuse. In questo lavoro viene presentata un’ipotesi di annotazione semiautomatica del corpus, utile all’analisi del lessico sia dal punto di vista delle classi di parole, sia per quanto riguarda la presenza e incidenza di altri fenomeni (ad es. marcatori discorsivi, disfluenze in genere, tipologia del lessico, standard vs dialetto etc.). L’obiettivo del nostro progetto, attualmente in fase di implementazione e costruzione, è la realizzazione di uno strumento efficace per l’etichettatura multilivello del corpus CIPPS, adattabile tuttavia anche ad altri tipi di corpora non-standard, e in grado di automatizzare il più possibile, man mano che viene utilizzato, le funzioni di annotazione.
2017
978-88-255-2064-4
La Comunicazione parlata / Spoken Communication. Napoli 2016
345
361
Francesca M. Dovetto, Alessandro Panunzi, Lorenzo Gregori
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in FLORE sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificatore per citare o creare un link a questa risorsa: https://hdl.handle.net/2158/1146606
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact