Lektion 1: Machine Speech Tagging

Definition:

Machine Speech Tagging ist die automatische Zuweisung von sprachlichen Tags zu gesprochenem sowie geschriebenem Text zur Kennzeichnung von grammatischen Informationen.

Schlüssel-
konzepte

Syntax, Wortarten
POS-Tagging: Tags, Tagset
Korpusanalyse

EINHEIT 1: POS-TAGGING – SPRACHE ENTSCHLÜSSELN

Zum Einstieg starten wir mit einer kurzen Übung in die Lektion: Die Lehrperson beginnt und nennt ein beliebiges Wort. Im Uhrzeigersinn fügt jetzt jedes Klassenmitglied ein weiteres Wort hinzu, sodass sich fortlaufend ein Satz entwickelt. Macht zwei bis drei Durchgänge und merkt Euch die entstandenen Sätze. Ihr könnt vor der Übung entweder ein Thema vorgeben, nachdem sich die Kreisgeschichte richten soll, z. B. die nächste Schulreise, oder Ihr lasst Eurer Fantasie freien Lauf.

Wie wir sehen, hat es funktioniert. Obwohl wir alle nur einen kleinen Teil zum Satz beigetragen haben und nicht wussten, wie er enden wird, sind zusammenhängende Sätze entstanden, die wir – wahrscheinlich mit viel Fantasie – auch im Alltag gebrauchen könnten. Weshalb ist das so? Woher wussten wir überhaupt, welche Worte als nächstes passen würden?
Beim Erlernen einer Sprache speichern wir grammatische Grundregeln, die wir für das tägliche Kommunizieren benötigen. Dazu gehört unter anderem ein grundlegendes Verständnis von Satzbau, also: Welches Wort darf ich wo im Satz platzieren? Und dafür ist wiederum die Einteilung in die Wortarten Voraussetzung. Bei dieser scheiden sich die Geister, doch sind für Betrachtung der Stellung im Satz folgende acht Wortarten besonders relevant:

Substantiv (Nomen): «Ding-Wort» – Baum, Brot, Schiff
Verb:«Tun-Wort» – schwimmen, essen, können
Adjektiv: «Wie-Wort», Eigenschaft – schön, rot, scharf
Artikel/ Pronomen: «Begleiter» – der, eine / Stellvertreter – ich, es, ihr, euer
Adverb: Umstandswort – gestern, meistens, hier
Konjunktion: Bindewort – und, aber, oder
Präposition: Verhältniswort – in, am, nach
Partikel: Funktionswort, nicht erfragbar – nicht, sehr, denn

Anhand der Wortarten lassen sich die Regeln des Satzbaus verdeutlichen und in allgemeiner Form darstellen: «Der Hund ist bissig.» – Artikel, Nomen, Verb, Adjektiv.

Beim sogenannten POS-Tagging, Part-Of-Speech-Tagging, werden ganz nach diesem Prinzip den verschiedenen Wörtern eines Textes die passenden Wortarten zugeordnet. Die Wörter werden also mit «Tags» versehen, die etwas über ihre grammatischen Eigenschaften aussagen. Dazu gibt es verschiedene Zusammenstellungen relevanter Tags – diese nennt man «Tagsets» –, die sich je nach Sprache oder Schwerpunkt des Taggings unterscheiden. In der deutschen Sprache wird meist mit dem Stuttgart-Tübingen-Tagset (STTS) gearbeitet. Darin werden die einzelnen Wortarten noch genauer spezifiziert. Das sieht dann ungefähr wie folgt aus:

1/3

Dieses Zuordnen zu Wortarten kann einerseits manuell gemacht werden, andererseits gibt es auch automatisierte Tag-Verfahren. Wichtig ist allerdings in beiden Fällen, dass die Wörter immer im Kontext betrachtet werden, denn in manchen Fällen kann ein Wort zwar gleich geschrieben werden, jedoch unterschiedliche Bedeutungen haben. Zum Beispiel: «Ich meine meine Oma». Würde man strikt nach dem Tagset gehen und den Kontext ausser Acht lassen, so würde man beiden «meine» den Tag «Pronomen» zuordnen. Im Zusammenhang wird allerdings klar, dass meine ein Verb ist und meine ein Pronomen.
Damit beispielsweise künstliche Intelligenzen, also intelligente Computersysteme, eigenständig Sprache übersetzen oder selbst generieren können, sind ein sauberes POS-Tagging und das Verständnis der allgemeinen Satzstrukturen grundlegend, um überhaupt grammatische Sätze bilden zu können. Diese Informationen können zum Beispiel auch für die Optimierung von Suchmaschinen hilfreich sein.

Aufgabe 1: Wortarten zuordnen
Übe deine Wortarten-Kenntnisse durch POS-Tagging

Wortarten und POS-Tagging wollen gelernt sein. Versuche dich selbst an folgendem Satz
«Gestern hüpfte die braune Kuh lässig durch das Klassenzimmer und blieb an dem Lehrerpult hängen.»
und ordne jedes Wort der richtigen Wortart (siehe oben) zu.
Hat das geklappt? Dann rufe https://wortarten.info/ auf und lasse den gleichen Satz auf der Webseite taggen. Vergleiche die Unterschiede zu deiner Zuordnung. Wer war schneller? Hast du andere Wortarten zugeordnet als der Computer? Wo entstehen Probleme?

Fertig mit der Übung? Gestern(Adverb) hüpfte(Verb) die(Artikel) braune(Adjektiv) Kuh(Nomen) lässig(Adverb) durch(Präposition) das(Artikel) Klassenzimmer(Nomen) und(Konjunktion) blieb(Verb) an(Präposition) dem(Artikel) Lehrerpult(Nomen) hängen(Verb)

EINHEIT 2: KORPUSLINGUISTIK

Nicht nur KIs können von den Vorteilen des POS-Tagging profitieren, sondern auch die Sprachwissenschaft hat grossen Nutzen davon. Die technischen Hilfsmittel der Computerlinguistik öffnen dem Teilbereich «Korpuslinguistik» viele neue Möglichkeiten. Wie ihr Name schon sagt, beschäftigt sich die Korpuslinguistik mit verschiedenen Korpora – grossen Sammlungen natursprachlicher Daten. Das kann zum Beispiel ein Korpus aller Ausgaben der NZZ von 2000–2020, ein Korpus mit Dortmunder Chat-Aufnahmen, Deutschen Mundarten oder allgemein der deutschen Gegenwartssprache (Deutsches Referenzkorpus) sein. Da sie alle riesige Massen an Daten umfassen – letzteres beispielsweise über 53 Milliarden Wörter –, ist die Forschungsarbeit damit mit eigenen Kräften nicht zu bewältigen. Dank Computerprogrammen und POS-Tagging ist es möglich, trotzdem mit diesen Datenmengen zu arbeiten.

Durch die Computeranalyse können zum Beispiel
Wörter, die überdurchschnittlich häufig gemein-sam verwendet werden, in den Korpora aufge- deckt werden. So kann es zum Beispiel, je nach Korpus, sein, dass man bei der Suche nach «Him-mel» auf die Ergebnisse «blau», «grau» oder «Erde» stösst, da sie in den Texten des Korpus überproportional oft miteinander in Verbindung
auftraten.

Weiter kann zum Beispiel auch die Bildung von Zeitformen neu auftretender Verben wie zum Beispiel «downloaden» untersucht werden. Mit einer einfachen Korpusanalyse, bspw. im Deutschen
Referenzkorpus, lässt sich so beantworten, ob in der geschriebenen Sprache eher «downgeloadet» oder «gedownloadet» verwendet wird (siehe Kreisdiagramm). Nebst allerlei sprachwissenschaftlichen Fragen, wie die deutsche Sprache verwendet wurde und noch immer wird, kann sich auch die Literaturwissenschaft solche Techniken zu Nutze machen. Beispielsweise können für stilistische Analysen, also Betrachtungen mit Blick auf den Stil eines Textkorpus, durch die Verteilung der Wortarten wichtige Hinweise auf die Textgattung oder gar die Autor:innen beobachtet werden. So lässt sich zum Beispiel untersuchen, welche Begriffe in welchen Teilen eines Romans besonders oft auftreten, ob die Sätze an inhaltlich spannenden Stellen länger werden oder, ob im Verlauf des Textes gegen sprachliche Regelmässigkeiten verstossen wird. Dabei handelt es sich demnach um Beobachtungen in quantitativer Hinsicht.

Bildschirmfoto 2023-12-09 um 19.42.57.png

In diesem Beispiel wird unter anderem deutlich, dass im Werk «Die Marquise von O.» von Heinrich von Kleist «Marquise» der weitaus häufigste Begriff im Text ist. Ferner ist rechts zu beobachten, in welchen inhaltlichen Abschnitten die Marquise besonders oft genannt wird und dass sie zum Beispiel im wechselseitigen Verhältnis zum «Grafen» auftritt. Daraus lassen sich wiederum inhaltliche Schlüsse ziehen.

Solche genauen Betrachtungen sind nicht nur für Nomen, Eigennamen und Titel möglich, sondern es lassen sich, wie auch in anderen Korpora, sämtliche Wortarten gleichermassen untersuchen.

Nun haben wir viele Möglichkeiten des Machine Speech Tagging, POS-Tagging und von digitalen Hilfsmitteln der Computerlinguistik gesehen. Diskutiert in den restlichen Minuten in Dreiergruppen:

– In welchen Teilen der Arbeit ist der Mensch dem Computer überlegen? Welche Lücken könnte die Technik noch haben?
– Können mit solchen Hilfsmitteln alle Sprachen, Personengruppen etc. gleichermassen untersucht und berücksichtigt werden? Wenn nein, wieso nicht? Was müsste man daran ändern?

Aufgabe 2: Diskussion

Chancen und Fehler

Fertig mit der Übung? - Es ist noch nicht möglich, Dialekte maschinell korrekt zu taggen. Daher muss der Dialekt normalisiert werden, um ihn untersuchen zu können. Auf diese Weise geht die sprachliche Variation verloren oder wird nicht dargestellt. - Aufgrund der unterschiedlichen Tagsets und Systeme fehlt es an Universalität und damit an Vergleichbarkeit. - Problem: Um mit Sprache arbeiten zu können, muss ein Tagset vorhanden sein. Dialektale oder sprachliche Minderheiten werden auf diese Weise nicht oder nicht alltagsnah analysiert.

Abschliessende Gedanken für diese Lektion

Das POS-Tagging bietet uns die Grundlage für alle Formen von maschinellem Verständnis von technischen Hilfsmitteln, wie z.B. KI.

Wie könnte POS-Tagging zur Weiterentwicklung von Sprachverarbeitungstechnologien beitragen, und welche Potenziale siehst du für zukünftige Anwendungen in diesem Bereich?

Weitere Lektionen

Verwendete Quellen

TEXTE

Chiche, A., & Yitagesu, B. (2022). Part of speech tagging. a systematic review of deep learning and machine learning approaches. J Big Data 9. https://doi.org/10.1186/s40537-022-00561-y

Imo, Wolfgang (2016). Grammatik. Eine Einführung. J.B. Metzler.

Pittner, K., & Berman, J. (2021). Deutsche Syntax. Ein Arbeitsbuch. 7., überarbeitete und erweiterte Auflage. Narr.

Stückler, L. (2022). Empirische Methoden der Sprachwissenschaft, Vorlesung Universität Bern.

ILLUSTRATIONEN

Art-generator (2023). https://hotpot.ai/art-generator

Digital Humanities (2022). ISDT. Italian Stanford Dependency Treebank. https://dh.fbk.eu/research/tint/

Rademaker, A., Chalub, F., Real, L., Freitas, C., Bick, E., & de Paiva, V.C. (2017). Universal Dependencies for Portuguese. International Conference on Dependency Linguistics. https://www.semanticscholar.org/paper/-Universal-Dependencies-for-Portuguese-Rademaker-Chalub/703a1e207c47436dd08b6524b68ccb5267aee7d3

Stückler, L. (2022). Empirische Methoden der Sprachwissenschaft, Vorlesung Universität Bern

van der Aa, Han. (2017). Comparing and Aligning Process Representations. https://www.researchgate.net/-figure/4-Overview-of-the-Penn-Treebank-tagset-from-135-p131_tbl3_320858849

Wolf, R. (2023). voyant-tools.org