top of page

Lezione 1: Annotazione automatica del linguaggio

Definizione: 
Il Machine Speech Tagging è l'assegnazione automatica di tag linguistici al testo parlato e scritto per identificare le informazioni grammaticali. Ciò costituisce la base per la comprensione automatica di ausili tecnici come l'intelligenza artificiale.

Concetti chiave

  • Sintassi, parti del discorso (POS)

  • POS-tagging: tag, tagset

  • Analisi di corpora

UNITÀ 1: POS-TAGGING – DECODIFICARE IL LINGUAGGIO

Questa lezione inizia con un breve esercizio: l'insegnante pronuncia una parola qualsiasi. In senso orario, ogni membro della classe aggiunge un'altra parola alla precedente in modo da sviluppare sequenzialmente una frase.  Fate due o tre giri e memorizzate le frasi ottenute. Prima dell'esercizio, potete specificare un argomento per la storia da creare, ad esempio la prossima gita scolastica, oppure lasciar correre la vostra immaginazione.

Come potete vedere, ha funzionato. Anche se ciascuno/-a di voi ha contribuito solo in minima parte alla creazione della frase e non sapeva come sarebbe andata a finire, sono state create frasi coerenti che, probabilmente con molta fantasia, potreste usare anche nella vita di tutti i giorni. Perché? Come sapevate quali parole sarebbero state adatte?
Quando impariamo una lingua, memorizziamo le regole grammaticali di base che ci servono per la comunicazione quotidiana. Tra le altre cose, questo include una comprensione di base della struttura della frase: quale parola posso collocare in quale punto della frase? Questo richiede a sua volta una categorizzazione dei tipi di parole. Le opinioni in merito sono divergenti, ma i seguenti otto tipi di parole sono particolarmente importanti per analizzare la posizione di una parola in una frase:

​

Sostantivo: "parola-cosa" - albero, pane, nave   
Verbo: "parola-fatto" - nuotare, mangiare, volere   
Aggettivo: "parola-tipo", qualità - bello, rosso, affilato    
Articolo/pronome: "compagno" - il, uno / "sostituto" - io, esso, voi
Avverbio: parola circostanziale - ieri, fortunatamente, qui     
Congiunzione: congiunzione - e, ma, o  
Preposizione: parola di relazione - nel/nella, su/sulla, dopo               
Particella: parola funzionale, non inquadrabile - non, molto (bene), perché            

 

I tipi di parola possono essere utilizzati per esplicitare le regole di costruzione della frase e presentarle in termini generali, ad es.: "Il cane bianco morde."- articolo, nome, aggettivo, verbo.

Nel cosiddetto POS-tagging (Part-Of-Speech tagging "etichettatura delle parti del discorso"), i tipi di parola appropriati vengono assegnati alle diverse parole di un testo seguendo questo principio. Le parole vengono così dotate di "tag" che forniscono delle informazioni su queste. A questo scopo, esistono varie raccolte di tag rilevanti, chiamate "tagset", che differiscono a seconda della lingua o dell'obiettivo del tagging. In italiano, di solito si lavora con la tagset chiamata "Italian Stanford Dependency Treebank". Questo specifica i singoli tipi di parole in modo ancora più preciso. L'aspetto è il seguente:

Da un lato l'assegnazione dei tipi di parole può essere fatta manualmente, dall'altro esistono anche procedure di etichettatura automatizzate. In entrambi i casi, però, è importante che le parole siano sempre considerate nel contesto perché alcune parole possono essere scritte allo stesso modo, ma avere significati diversi. Ad esempio: "Gioco il gioco con la mia amica". Se ci si attenesse strettamente al tagset e si ignorasse il contesto, si assegnerebbe il tag "sostantivo" a entrambe le occorrenze di "gioco". Nel contesto, tuttavia, è chiaro che gioco rappresenta il verbo e gioco il sostantivo.  
Una corretta etichettatura delle parti del discorso e la comprensione delle strutture generali delle frasi sono fondamentali per far sì che le intelligenze artificiali (IA), cioè i sistemi informatici intelligenti, possano tradurre il linguaggio o generarlo in modo autonomo. Queste informazioni possono essere utili anche per l'ottimizzazione dei motori di ricerca.

Compito 1: abbinare i tipi di parole
Metti in pratica le tue conoscenze dei tipi di parole nel POS-tagging.

8-N0Ix88EnZcAqpNq.webp

 

È necessario insegnare i tipi di parole e il POS tagging. Prova tu stesso/-a con la frase:  
"Ieri la mucca marrone saltellava con disinvoltura per la classe e si è bloccata alla scrivania".
Abbina ogni parola alla parte del discorso corretta (vedi sopra).          
Ha funzionato? Poi visita la pagina web https://parts-of-speech.info/ e tagga la stessa frase sul sito. Confronta le differenze con il tuo compito. Chi è stato più veloce? Hai assegnato parti del discorso diverse da quelle assegnate dal computer? Dove sorgono i problemi?

Hai finito l'esercizio? Ieri (Avverbo) la (Articolo) mucca (Nome) marrone (Aggettivo) saltellava (Verbo) con (Preposizione) disinvoltura (Nome) per (Preposizione) la (Articolo) classe (Nome) e (Congiunzione) si (Pronome) è (Verbo) bloccata (Verbo) alla (Preposizionie) scrivania (Nome)

UNITÀ 2: LINGUISTICA DI CORPORA

Non solo le IA possono beneficiare dei vantaggi del POS-tagging, ma anche la ricerca linguistica può trarne grande beneficio. Questi strumenti tecnici della linguistica computazionale aprono nuove possibilità nel campo della "linguistica di corpora". Come suggerisce il nome, questo campo di ricerca si occupa di corpora, grandi raccolte di dati del linguaggio naturale. Può trattarsi, ad esempio, di un corpus di testi giuridici, di un corpus di giornali in lingua italiana pubblicati negli Stati Uniti d'America tra il 1898 e il 1920 o di un corpus di messaggi di chat dell'anno 2000. Poiché tutti questi corpora comprendono enormi quantità di dati, è impossibile gestire il lavoro di ricerca da soli. Grazie ai programmi informatici e all'etichettatura POS, tra le altre cose, è comunque possibile lavorarci.

L'analisi computerizzata può rivelare le parole che vengono utilizzate insieme con una frequenza superiore alla media. Ad esempio, nel corpus CORIS, in cui sono memorizzate 120 milioni di parole della lingua scritta italiana corrente provenienti da varie fonti come stampa, testi giuridici e testi scientifici, è possibile analizzare la frequenza con cui le parole "ieri" e "sera" occorrono insieme. Oltre agli studi linguistici sull'uso della lingua italiana, anche gli studi letterari possono avvalersi di queste tecniche. 

Screenshot 2023-11-09 163951.webp

Ad esempio, nelle analisi stilistiche (le osservazioni sullo stile di un corpus testuale) si possono individuare importanti indizi sul genere di un'opera o addirittura sull'autore esaminando la distribuzione dei tipi di parole. È possibile osservare quali termini ricorrono con particolare frequenza in determinate parti di un romanzo, se le frasi si allungano in punti interessanti per quanto riguarda il contenuto o se le regolarità linguistiche vengono violate nel corso del testo. Tutte queste osservazioni sono di natura quantitativa.

Inferno1.webp

Questo esempio mostra, tra l'altro, che nell'opera di Dante Alighieri "La Divina Commedia: Inferno", "che" è di gran lunga la parola più usata nel testo. È inoltre possibile vedere sulla destra in quali sezioni del testo "che" è menzionato con particolare frequenza. Ciò consente di trarre conclusioni sul contenuto.

Osservazioni così precise sono ovviamente possibili con tutti i tipi di parole, compresi i nomi propri e i titoli.

Abbiamo visto le numerose possibilità offerte dalla etichettatura automatica del parlato, dal POS-tagging e dagli strumenti digitali della linguistica computazionale. Nei minuti rimanenti discutete in gruppi di tre dei seguenti aspetti:

​

  • In quali parti del lavoro gli esseri umani sono superiori ai computer? Quali lacune potrebbe ancora avere la tecnologia?

  • Con questi strumenti possono essere studiati e presi in considerazione allo stesso modo tutte le lingue, tutti i gruppi di persone, ecc.? Se no, perché? Cosa dovrebbe essere cambiato?

interface-3614766_1280.webp

Esercizio 2: Discussione
Opportunità e limiti

Finito l'esercizio? - Non è ancora possibile etichettare correttamente il dialetto con la macchina. Pertanto, il dialetto deve essere normalizzato per poter essere esaminato. In questo modo, la variazione linguistica viene persa o non rappresentata. - A causa dei diversi tagset e sistemi, manca l'universalità e quindi la comparabilità. - Problema: per lavorare con la lingua, deve esistere un tagset. Le minoranze dialettali o linguistiche non vengono analizzate in questo modo, o non in modo fedele alla vita quotidiana.

Riflessioni finali di questa lezione:

Il POS-tagging fornisce la base per tutte le forme di comprensione automatica degli ausili tecnici, come l'IA. 

​

In che modo il POS-tagging potrebbe continuare a contribuire al progresso delle tecnologie di elaborazione linguistica e qual è il suo potenziale per le applicazioni future in questo settore?

Fonti utilizzate

TESTI

​

Chiche, A., & Yitagesu, B. (2022). Part of speech tagging. a systematic review of deep learning and machine learning approaches. J Big Data 9. https://doi.org/10.1186/s40537-022-00561-y

​

Imo, Wolfgang (2016). Grammatik. Eine Einführung. J.B. Metzler.

​

Pittner, K., & Berman, J. (2021). Deutsche Syntax. Ein Arbeitsbuch. 7., überarbeitete und erweiterte Auflage. Narr.

​

Stückler, L. (2022). Empirische Methoden der Sprachwissenschaft, Vorlesung Universität Bern.

 

ILLUSTRAZIONI

 

Art-generator (2023). https://hotpot.ai/art-generator


Digital Humanities (2022). ISDT. Italian Stanford Dependency Treebank. https://dh.fbk.eu/research/tint/

​

Rademaker, A., Chalub, F., Real, L., Freitas, C., Bick, E., & de Paiva, V.C. (2017). Universal Dependencies for Portuguese. International Conference on Dependency Linguistics. https://www.semanticscholar.org/paper/-Universal-Dependencies-for-Portuguese-Rademaker-Chalub/703a1e207c47436dd08b6524b68ccb5267aee7d3

​

Stückler, L. (2022). Empirische Methoden der Sprachwissenschaft, Vorlesung Universität Bern

​

van der Aa, Han. (2017). Comparing and Aligning Process Representations. https://www.researchgate.net/-figure/4-Overview-of-the-Penn-Treebank-tagset-from-135-p131_tbl3_320858849

​

Wolf, R. (2023). voyant-tools.org

bottom of page