Sprachverarbeitung mit KI: Die 80-Prozentlösung

INSPIRATION: Muss die Logik der Sprache entschlüsselt werden, damit man flinke Computerprogramme für die maschinelle Sprachverarbeitung schreiben kann? Oder gibt es eine elegante Abkürzung durch die statistische Hintertür?

Insbesondere ingenieurwissenschaftliche Forscher versuchen sich seit Jahren an einer Automatisierung der Spracherkennung. Doch Computer sind tumbe Gesellen. Sie verarbeiten Texte als Symbolfolgen. Diese entstammen einem bestimmten Alphabet. Jedem Buchstaben des Alphabets ist eine bestimmte digitale Adresse zugeordnet (ASCII-Code), welche aus den Ziffern 0 und 1 besteht. Damit hat der Computer einen Algorithmus, eine Kochanleitung sozusagen. Er kann nun rechnen. Ein gespeichertes Programm dekodiert (liest) eine Eingabe und kann diese weiterverarbeiten. „Reguläre Sprachen sind durch reguläre Ausdrücke (Worte) charakterisierbar, die aus den Symbolen eines Alphabets durch Alternative, Verkettung und Wiederholung entstehen.“ Eine simple Sache, so Autor Klaus Mainzer (Maschinelle Sprachverarbeitung, Kognition und Sprachphilosophie). Der Computer als deterministischer endlicher Automat. Er rechnet und rechnet …

Machen Sie Ihr Unternehmen zukunftssicherer: Lesen Sie "Bright Future Business", das neue Buch von Prof. Dr. Pero Mićić. Erfahren Sie, welche acht Eigenschaften ein zukunftssicheres Unternehmen ausmachen und wie man sie als Masterplan für die Entwicklung des eigenen Unternehmens wie auch als Checkliste für Investments nutzt. Zum Buch...

Was ist aber, wenn die Sache mehrdeutig wird? Bei Sprachen kann man sich das leicht vorstellen, dass plötzlich ein mehrdeutiger Begriff auftaucht. Dann braucht man einen nichtdeterministischen endlichen Automaten. Der spielt alle möglichen Alternativen durch. Doch kann das schnell zu exponentiell vielen Möglichkeiten führen. Das lässt sich durch einen Verzweigungsbaum abbilden: linksherum oder rechtsherum? Wir kennen das von der Autovervollständigungsfunktion in der Textverarbeitung: Schritt für Schritt verengt sich das Feld. Bis dann nur noch wenige, höchstwahrscheinlich zutreffende Ausdrücke übrigbleiben. Auf diesem Weg, zu dem es schlicht keine logische Alternative gibt, wird verständlicherweise Rechenzeit und -power benötigt.

Sprachliche Tiefenstrukturen

Jetzt bestehen Sprachen aber nicht bloß aus Worten, sondern diese werden grammatikalisch in Beziehung gesetzt. In der Linguistik werden Grammatiken zur syntaktischen Beschreibung der natürlichen Sprachen verwendet. Dazu werden syntaktische Kategorien eingeführt: Es gibt Nomen, Adjektive, Verben etc. Die muss ein Computerprogramm ebenfalls erkennen können, wenn es Sprache wirklich „verstehen“ möchte. Ansonsten wäre sie bloß eine Phrasendreschmaschine. Vielleicht lustig, aber sonst zu nichts zu gebrauchen. Das „intelligente“ Computerprogramm greift zu diesem Zweck auf einen Speicher zu, indem diese Regeln (sozusagen im Keller) abgelegt sind. Grammatikalische Tiefenstrukturen werden – wieder durch Verzweigungsbäume – abgearbeitet: Nomen? Nein. Adjektiv? ….

„Nur in der Oberflächenstruktur eines Satzes unterscheiden sich natürliche Sprachen. Die Verwendung von Produktionsregeln ist nach Chomsky universal.“ Es wird folglich – in der Tiefenstruktur – eine Universalsprache angenommen; davon hatte schon der Philosoph Leibnitz geträumt. Und der nächste Schritt liegt auf der Hand: Man muss nur noch eine, allen Menschen angeborene kognitive Struktur annehmen, damit wir uns alle verstehen können – und die babylonische Sprachverwirrung hätte ein Ende.

Situationen und Kontexte

Dummerweise ist das Leben mehrdeutiger und komplizierter als diese „Maschinensprache“ abbilden kann. Kommunikation, das dürfte hinlänglich bekannt sein, findet nicht bloß auf einer Sachebene statt. Man erinnere sich bloß an das schöne Beispiel Schulz von Thuns: An einer roten Ampel steht ein Auto. Am Steuer eine Frau, ein Mann als Beifahrer. Die Ampel springt um und der Mann sagt: Es ist grün! – Was antwortet die Frau? … Was lassen sich nicht herrlich erregte und anregende Debatten über diese Frage in Kommunikationstrainings entfachen!

Die Sprachphilosophie (Searle) betrachtet daher inzwischen einen Sprechakt, also eine Handlung. Und diese ist immer situiert, also spezifisch – nicht universal gültig. Schon wieder treffen wir auf Mehrdeutigkeit. Zu blöd aber auch: Die Rechner ackern sich daran ab, die Welt zu verstehen. Doch, wie lernen sie sprechen?

Neuronale Netze

Die Forscher waren immer schon vom menschlichen Gehirn fasziniert, das man sich als ein Netz von Neuronen vorstellt. Wenn man das künstlich nachbauen könnte, statt biologischer Nervenfasern elektrische Leiterbahnen benutzen würde, ich bin mal frech – Elektronikbaukasten für Jungs (6-12 Jahre) – müsste man Sprache simulieren können. Dachten sich die Neuroinformatiker und bauten mehrschichtige Netzwerke. „Da für die Aussprache eines Zeichens die umgebenden Zeichen wichtig sind, werden auch die drei vor und nach dem betreffenden Zeichen stehenden Symbole registriert. Jedes der sieben pro Schritt gelesenen Zeichen wird von Neuronen untersucht, die jeweils dem Buchstaben des Alphabets, Satz- und Leerzeichen entsprechen. Der Output gibt die phonetische Aussprache des Textes an.“

Clever, nicht wahr? Zwischen Input-Text und Output-Aussprache findet Selbstorganisation (Lernen) statt. In dieser dritten (mittleren) Ebene sind Neuronen eingeschoben, „deren synaptische Verbindungen mit Input- und Output-Neuronen durch numerische Gewichte simuliert werden“. Auch hier haben wir – im Bild gesprochen – wieder Verzweigungsbäume, die dann wie „Saiten eines Instruments“ gestimmt werden. Doch nicht deduktiv, top-down, sondern induktiv, also aus der konkreten Empirie gespeist. Dabei hilft die Wahrscheinlichkeitsrechnung. In einer Trainingsphase erlernt das System zunächst die Aussprache eines Beispieltextes. Sie ist durch synaptische Verschaltung der Neuronen (deren Gewichtung) gespeichert.

Wird der Output nicht als korrekt anerkannt (von menschlichen Trainern), arbeitet sich das System wieder zurück zur internen Ebene (Backpropagation). Dort überprüft es die Vernetzung und verändert die Gewichte, um schrittweise das Resultat zu optimieren. Das System lernt Lesen durch Learning by doing. Ähnlich wie ein Mensch: exemplarisch und nicht regelbasiert.

Digital Humanities

Noch ein Schritt weiter: Man muss die Inhalte eines Textes im Detail gar nicht kennen. Trotzdem kann man bestimmte Informationen aus den gespeicherten digitalen Daten ableiten: Metadaten. Das Seitenformat, Beschriftungen, Register oder Marginalien beispielsweise, verraten viel über einen Text. Geeignete Software kann diverse Korrelationen errechnen und anschaulich in Diagrammen aufbereiten. Das ist eine literaturwissenschaftliche Methode. Es braucht bloß Big Data, damit die Programme zu tanzen beginnen.

Solche Schreibprogramme können dann „al Gusto“ Texte auf der Basis dieser Datenozeane schreiben. „Heutige Software zerlegt mittlerweile Sätze in einzelne Phrasen und berechnet blitzschnell die Wahrscheinlichkeiten für passende Antwortmuster auf gestellte Fragen oder passende Übersetzungen in andere Sprachen.“

In technischen Systemen versucht die Computerlinguistik die Schritte der Sprachverarbeitung, die bei uns Menschen verschiedene Repräsentationsebenen nacheinander durchläuft, zu simulieren. Von der Schallinformation zur Textform via morphologische, syntaktische und semantische Analyse. Man nennt das: Pipelinemodell.

Watson

Was bei ELIZA (Als die Maschinen zu sprechen begannen) noch sehr grob ablief, macht in den 2010er-Jahren WATSON von IBM mit links, auf der Überholspur. Das Programm kann die semantischen Bedeutungen der Kontexte und Sprachspiele verstehen. Weil es eine semantische Suchmaschine ist, die in natürlicher Sprache gestellte Fragen erfassen kann und in einer gigantischen Datenbank ultraschnell passende Fakten und Antworten finden kann.

Auch das ist übrigens eine Erkenntnis aus der Gedächtnispsychologie: In einem semantischen Netzwerk liegen Begriffe, die Gemeinsamkeiten teilen, nahe beieinander. Sie können folglich schneller assoziiert werden als weiter entfernte Begriffe. Das können Korrelationen abbilden: die semantische Nähe. So kommt man superschnell von Hölzchen aufs Stöckchen. Das Programm WATSON orchestriert parallel arbeitende Sprachalgorithmen, Expertensysteme, Suchmaschinen und linguistische Prozessoren, die Big Data durchpflügen, und integriert deren Output zu einer Antwort. – Und die Neuigkeit: „WATSON orientiert sich nicht am menschlichen Gehirn, sondern setzt auf Rechenpower und Datenbankkapazitäten.“

Paradigmenwechsel

Was sich hier andeutet, ist der Übergang von einer regelbasierten Verarbeitung zu einer, die nur noch statistische Methoden nutzt. Also rein induktiv, von unten (bottom-up), Empirie-basiert: Was erscheint oft zusammen oder in unmittelbarer Nähe? Das muss wohl ein Muster sein! Es wird nicht mehr top-down, deduktiv, logisch der Sachverhalt erklärt. Bloß noch in der Sprache der Neurowissenschaften: What fires together, wires together. Oder: Wo Rauch ist, muss auch Feuer sein. – Wenn es auch bloß ein Mückenschwarm war, der die Sicht vernebelte … Merkt doch keiner. Oder ein Klapperstorch, der zufälligerweise in der Nachbarschaft brütete, als die Dame des Hauses schwanger wurde. Es gibt doch keine Zufälle!

KI (maschinelles Lernen) auf der Grundlage statistischer Lerntheorie setzte sich gegenüber regelbasierten Methoden durch. Das schlagende Argument ist die größere Effektivität statistischer Methoden. Es lassen sich auf der Grundlage großer Rechenkapazität mit statistischen Methoden gigantische Datenmassen in Windeseile durchforsten. Warum langwierig Entscheidungsbäume für eine 100-Prozent-Lösung abarbeiten, wenn es doch schneller geht, ein Ergebnis zu produzieren, dass mit 80-prozentiger Wahrscheinlichkeit auch supergut aussieht?

Unter der Latte durchlaufen

„Das Verfahren erinnert an Searles Gedankenexperiment vom Chinesischen Zimmer.“ Was da in der Blackbox zwischen Input und Output geschieht, wissen wir nicht. Aber wir anerkennen, dass Input und Output gut zueinander zu passen scheinen.

Ich kommentiere diesen Befund einmal mit einem Peanuts-Comic, der mir vor Jahren einmal unter die Finger kam: „Der Sinn des Lebens besteht darin, von Weitem betrachtet einigermaßen gut auszusehen!“ – Ich bekenne, die Botschaft hat mich seinerzeit echt umgehauen. Und schafft das auch heute immer mal wieder.

Das Bemerkenswerte daran ist, dass die KI-Ingenieure nicht mehr der Ähnlichkeit zu einem kognitiven Verfahren hinterherlaufen, also versuchen, eine Problemlösung zu erarbeiten, die dem menschlichen Gehirn vergleichbar ist und sich evolutionär entwickelt hat. Sondern eine Abkürzung wählen.

Das mag man mit Recht kritisieren. Doch zum Schluss zählt der wirtschaftliche Erfolg: Ein Verständnis von Sprache ist überflüssig. Aufgrund eines Trainings der neuronalen Netze durch gigantische Datenmassen erhält man ein plausibles Ergebnis (Maximierung einer bedingten Wahrscheinlichkeit von Satzpaaren). Damit kann man sich sehen lassen. Man präsentiert einen universellen Mittelwert (=Mainstream).

Böse Zungen mögen da lästern: „Leute fresst Sch…, Millionen Fliegen können nicht irren!“ Vom Mittelwert abzuweichen, damit mag man extravagant kokettieren, es ist aber anstrengend – und teuer. Und die GenKI scheitert dann eben auch oft an solchen extravaganten Beispielen, an literarischen Kunstformen wie der Lyrik.

Vom Nutzen der Sprachphilosophie

Zum Schluss rekapituliert der Autor die sprachphilosophischen Debatten der Neuzeit und setzt sie zu den technischen Entwicklungen in Relation. Das ist erhellend, doch das Fazit ist ambivalent: „Vergleicht man die Ansätze der Sprachphilosophie mit den Methoden der KI, so wird erneut deutlich, dass Technik sich keineswegs am menschlichen Vorbild orientieren muss, um erfolgreich zu sein. Allerdings beschränkt sich dann der technische Erfolg nur auf bestimmte Aspekte (z. B. der Sprachübersetzung) und kann keineswegs beanspruchen, den Menschen zu ersetzen.“

Dem mag man zustimmen. Allerdings ist der Schluss doch eher ein abstrakter. Es wird spannend sein zu beobachten, wie sich – angefeuert durch Simultanübersetzungsanwendungen – unter der Hand Vorstellungen von einer Universalsprache einerseits verbreiten, andererseits idiosynkratische Widerstände, Dialekte und Idiome erhalten oder sogar – aus Protest gegen sprachliche Rasenmäher-Methoden – vielleicht sogar ausbreiten werden. Denn nicht alle Menschen mögen Laberei (Beschränkt intelligent – KI als Zombie).

Werden Sie diesen Beitrag weiterempfehlen?

Kauderwelsch und Rasenmäher

Sprachliche Tiefenstrukturen

Situationen und Kontexte

Neuronale Netze

Digital Humanities

Watson

Paradigmenwechsel

Unter der Latte durchlaufen

Vom Nutzen der Sprachphilosophie

Thomas Webers

Schreibe einen Kommentar Antwort abbrechen

Sprachliche Tiefenstrukturen

Situationen und Kontexte

Neuronale Netze

Digital Humanities

Watson

Paradigmenwechsel

Unter der Latte durchlaufen

Vom Nutzen der Sprachphilosophie

Thomas Webers

Das könnte dich auch interessieren

VR-Kopf-Kino

Die Karawane zieht weiter

Nebenwirkungen der KI

Schreibe einen Kommentar Antwort abbrechen