Von Hartmut Kleineidam zu Google.
Die Suche nach Textkohärenz und die falsche Logik des
tertium non datur am Beispiel pronominaler Referenzen


Rainer Rauch (Duisburg-Essen)


Abstract

Computer gibt es seit ca. 75 Jahren, und von Anfang an stellte sich die Frage, ob diese Maschinen so intelligent wie Menschen werden können. Diese Diskus­sion ist bis heute nicht beendet, wie jeder in entsprechenden Foren (z.B. LinkedIn) feststellen kann. Unabdingbare Voraussetzung für Intelligenz ist die Beherrschung menschlicher Sprache. Hartmut Kleineidam hielt eine solche Be­herrschung mit Blick auf Computer immer für unmöglich, und sein Hauptargu­ment war, dass die Auflösung referenzieller Pronomen (z.B. er, sie, es) von Maschinen nicht umgesetzt werden kann. Der vorliegende, aus dem Jahre 1981 stammende und in Saarbrücken im Sonderforschungsbereich 100 ent­standene Text zeigt, dass mit Mitteln der fuzzy logic eine relativ einfache Lösung darstellbar ist.



1 Einleitende Bemerkungen

Schon im Jahre 1950 hat sich Alan Turing mit der Frage beschäftigt, ob Computer eines Tages so gut sprechen können, dass man sie mit einem Menschen ver­wechseln könnte, wenn man mit ihnen plaudert. Das Computerprogramm Eliza - im Jahre 1966 von Joseph Weizenbaum vorgestellt - hat als erstes Programm diesen Test bestanden, den man nach seinem Schöpfer Turing Test nannte. Die­ser Erfolg führte aber nicht zu einem Umdenken, man verschärfte vielmehr ein­fach die Kriterien: Es musste nun eine vollautomatische Übersetzung möglich sein. Weiterhin gängige Ansicht war und ist immer noch, dass Sprache außerhalb des Fähigkeitsbereichs eines Computers liegt. Eine Äußerung wie: „Das ist eine Google-Übersetzung“ war und ist immer noch abwertend gemeint, aber meis­tens sind solche Übersetzungen recht verständlich und fehlerfrei.
Ich war nie dieser Ansicht und habe in enger Zusammenarbeit mit dem Sonder­forschungsbereich 100 in Saarbrücken nach Lösungen für die oben genannten Probleme gesucht: Mehrdeutigkeit von Pronomen und Textkohärenz im Allge­meinen.
Zu beiden Themen hat Hartmut Kleineidam in Zusammenarbeit mit Bodo Hesse Mitte der 1970er Jahre zwei wichtige Texte verfasst, sowohl zur „Mehrdeutigkeit von Pronomen“ als auch zur „Textkohärenz“, und zwar in der erklärten Absicht, Computern die Fähigkeit zur Übersetzung abzusprechen, und tatsächlich ist die Lösung dieser beiden Probleme eine unabdingbare Voraussetzung für die auto­matische Übersetzung. Inzwischen nutzen weltweit Millionen von Menschen die automatischen Übersetzungen von Google, Bing oder Babylon. Deshalb der Titel dieses Beitrags: „Von Hartmut Kleineidam zu Google, die Suche nach Textkohä­renz die falsche Logik des 'Tertium non datur' am Beispiel pronominaler Referen­zen“. Der vorliegende Text ist eine leicht überarbeitete Version eines Artikels von 1981, für den wir uns entschieden haben, weil Professor Kleineidam in den 1970er Jahren maßgeblich an dem Ringen um wissenschaftliche Erkenntnisse teilgenommen hat. Professor Kleineidam war eher pessimistisch und kritisch, aber ohne seine Gegenbeispiele und Begründungen, hätten wir wahrscheinlich keine Lösung gefunden.

2 Annahmen und Beschränkungen

Eines der größten Hindernisse bei der automatischen Übersetzung stellt bis heute die Auflösung pronominaler Referenzen dar. Im Folgenden soll versucht wer­den, eine praktikable Lösung zur Auffindung von Referenzobjekten zu skizzieren.
Diese Lösung beinhaltet einige Grundannahmen über die Verwendung von Pronomen und einige Beschränkungen hinsichtlich ihrer Anwendbarkeit.

Annahme 1:
Man kann Texte finden oder konstruieren, in denen eine vorhandene pronominale Referenz auch vom menschlichen Sprecher nicht eindeutig auf­gelöst werden kann.


Beispiel 1:
Peter traf Franz, als er gerade aus dem Rathaus kam.

Annahme 2:
Der menschliche Sprecher verfügt über Strategien, auch in solchen Fällen die Mehrdeutigkeit aufzulösen, selbst wenn er dabei einen möglichen falschen Bezug in Kauf nimmt.


Beispiel 2:
Peter traf Maria, als er/sie gerade aus dem Rathaus kam.
Die Annahmen 1 und 2 erscheinen trivial; sie sind letztlich die Ursache für die Problematik.

Annahme 3:
Die Strategie des menschlichen Sprechers ist im Modell nachbildbar, d.h. es gibt Algorithmen zur Auflösung pronominaler Referenz, die den Fähigkeiten des menschlichen Sprechers entsprechen.

Annahme 3 ist eine notwendige Bedingung zur Formulierung einer Lösung. Die Ablehnung von Annahme 3 hätte zur Folge, daß es keine Lösung der Problematik gäbe.


Annahme 4:
Für die automatische Übersetzung ist in vielen Fällen gar keine Auflösung der pronominalen Referenz notwendig, weil die Mehr- oder Vieldeutigkeit in Quell- und Zielsprache gleichermaßen existiert.


Beispiel 3:
Pierre a rencontré François au moment où il a quitté la mairie.
Das geht dich nichts an. - Ça ne te regarde pas.
Vor allem die sehr schwierig aufzulösende Referenz zu Sachverhalten muß meistens nicht aufgelöst werden. In den dem Autor bekannten Sprachen werden Sachverhalte gleichartig aufgelöst, d.h. die Wahl eines Pronomens ist nicht durch den sprachlichen Referenzengegenstand bestimmt, sondern nur durch die syn­taktischen Eigenschaften der Pronomen.
Beispiel 41:
C'est possible.
Das ist möglich.
(Subjekt ce vor être)
Ce n'est pas possible.
Das ist unmöglich.
(Subjekt ce vor être)
Ça marche.
Das klappt.
(ça - Subjekt bei allen anderen Verben)
Je le sais.
Ich weiß das.
(le – COD2 bei allen Verben)
Die Annahme 4 führt zu einer starken Beschränkung der Problematik, weil sie es erlaubt, eine Übersetzung ohne eine eindeutige Identifizierung des Referenz­objektes durchzuführen. In der Vergleichstabelle französischer und deutscher Pronomen (Anhang I) wird die mögliche Vereinfachung verdeutlicht.
Die Suche des Referenzobjektes entfällt zum Beispiel im Falle der Possessiv- und Relativpronomen, wenn man ins Französische übersetzt. Bei der Übersetzung vom Französischen ins Deutsche ist die Suche eines Referenzobjektes zum Beispiel in den folgenden Fällen überflüssig:
Personalpronomen : eux, ils, elles, leur und les
Demonstrativpronomen : ceux-là und celles-là

Annahme 5 - In dieser Annahme verbirgt sich die Fuzzy Logic:
Damit überhaupt Kommunikation ermöglicht wird, muss ein Sprecher bei der Verwendung referentieller Pronomen darauf achten, daß der Hörer das Referenzobjekt identifizieren kann. Die Distanz zwischen Pronomen und Referenzobjekt ist deshalb abhängig von der Textsorte, der Vieldeutigkeit des verwendeten Pronomens und der kommunikativen Wichtigkeit des Refe­renzobjektes. Diese Distanz kann empirisch ermittelt werden und liefert ein sinnvolles Abbruchkriterium zum Wechseln der Auflösungsstrategie.

Annahme 5 scheint der Schlüssel zur Strategie des menschlichen Sprechers / Hörers zu sein. Sie klingt plausibel (umfangreiche empirische Untersuchungen fehlen noch), und sie ermöglicht eine Bewertung der Referenzobjekte außerhalb der klassischen syntaktisch-semantischen Bewertungskategorien. So kann - ganz im Sinne der Präferenzgrammatik von Yorick Wilks (1977, 1978) - ein weniger passendes Referenzobjekt einem passenderen vorgezogen werden, weil es günstiger, d.h. näher zum Pronomen liegt.

3 Distanz zwischen Pronomen und Referenzobjekt
Die folgende grafische Darstellung verdeutlicht die Zusammenhänge, die aus Annahme 5 ableitbar sind. Es handelt sich nicht um eine ernsthafte empirische Untersuchung - dafür ist das Material nicht umfangreich genug -, aber man kann ihr doch wertvolle Hinweise und Untersuchungsziele entnehmen.
Die durchschnittliche Distanz von 1.26 zeigt, dass der Erzähler dem Leser keine großen Abstände zumutet. Diese sehr niedrige Zahl verdeutlicht unser Interesse an Abstandsmessungen. Um das Ergebnis nicht nach unten zu manipulieren, ist darauf verzichtet worden, Relativpronomen, deren durchschnittlicher Abstand im Französischen sicherlich gegen 0.01 tendiert, in die Rechnung einzubeziehen.
Auf der x-Achse sind die 82 Pronomen des Textes eingetragen, auf der Y-Achse der Abstand des Pronomens zu dem zugehörigen Referenzobjekt:


Einen wirklich großen Abstand mutet der Erzähler dem Leser lediglich zweimal zu (Abstand von 9 bzw. 10). Es handelt sich In beiden Fällen um das Pronomen y mit einer Ortsangabe als Referenzobjekt, deren Auflösung sehr einfach ist, weil jeweils die letztgenannte Ortsangabe gemeint ist3.

4 Algorithmus zur Auflösung pronominaler Referenzen
In dem von uns vorgeschlagenen Algorithmus (Anhang II) zur Auflösung prono­minaler Referenzen ist zunächst nur Annahme 5 in genereller Weise eingearbeitet, d.h. Annahme 4 wird lediglich in ihrem möglicherweise nicht sprachgebundenen Anteil, der Auflösung von Sachverhalten, verwendet. Eine Integrierung von Annahme 4 könnte schon nach der Identifizierung des Prono­mens, wenn diesem Pronomen genau ein Pronomen der Zielsprache entspricht, zur Übersetzung führen. Notwendigerweise ist eine solche Prüfung an die betei­ligten Sprachen gebunden, sie könnte aber zu erheblicher Zeitersparnis führen und möglicherweise in einigen wenigen Fällen auch eine Übersetzung ermög­lichen, wenn der Algorithmus Keine Übersetzung möglich!! meldet.
Die im Algorithmus vorgesehene Präferenzüberprüfung ist im Sinne der oben genannten Präferenzgrammatik von Yorick Wilks (1977, 1978) gemeint, d.h. der passenderen Nominalgruppe wird der Vorzug gegeben. Der Abstand wird hier lediglich als Abbruchkriterium verwendet, d.h. unabhängig vom tatsächlichen Abstand wird die Nominalgruppe mit der größeren semantischen Übereinstim­mung bevorzugt, wenn sie nur innerhalb des definierten Maximalabstands liegt. Mit Hilfe umfangreicher Untersuchungen könnte man das in Annahme 5 formu­lierte Ziel der Einbettung des Abstands in die Präferenzüberlegungen erreichen. Dieser Algorithmus verzichtet noch hierauf; er setzt immerhin die Kenntnis eines textsorten- und pronomenspezifischen Maximalabstands voraus - Zahlen, die bisher niemand kennt und deren Kenntnis die automatische Übersetzung einen großen Schritt weiterbringen würde.
Der Algorithmus bricht derzeit erfolglos ab, wenn er keine syntaktisch korrekte Nominalgruppe innerhalb des definierten Abstands findet, d.h. er würde im fol­genden Fall versagen:
Beispiel 5: Im Garten saß ein kleines Mädchen. Sie war so niedlich...
Trotz des Syntaxfehlers versteht jeder Deutsche diese Äußerung spontan und ohne Nachfrage. Es ist sogar davon auszugehen, dass dieser Fehler den meisten deutschen Mittersprachlern entgeht bzw. dass viele Deutsche den Satz so äußern würden. Hieraus folgt, daß unter bestimmten Bedingungen sogar ein Syntaxfehler bei der automatischen Analyse vorkommen dürfen muß.
Die im Anhang III durchgeführte Referenzanalyse eines Textanfangs, entnommen aus H.G. Wells' Zeitmaschine, zeigt, daß
  • es der Pronomen viele gibt, d.h. sie verweist auf die Wichtigkeit der Lösung der Problematik,
  • der Algorithmus funktioniert, solange alle Pronomen anaphorisch sind (der Algorithmus sucht nur nach links),
  • das Referenzobjekt Teil des Textes ist (eine deiktische Verwendung ist also ausgeschlossen) und
  • der Text vollständig ist.
Diese letzte Einschränkung kann man an dem vorliegenden Text besonders gut sehen, wenn man den ersten Satz wegläßt.


Anhang I: Vergleichstabelle Pronomen Deutsch - Französisch

Ist-Kasus der Quelle
Such-
ohne
Soll-Kasus des Ziels

Nominativ

Dativ

Akkusativ

Genitiv

Genus

Numerus

Kasus

Sujet

Objet indirect
Objet direct
er
ihm
ihn
mask.
Sing.
lui
il
lui
le
sie
ihr
sie

fem.
Sing.
elle
elle
lui
la
es
ihm
es
neutr.
Sing.
sie
ihnen
sie

/
Plur.
eux
ils
leur
les
elles
elles
leur
les
sein
seinem
seinen
mask.
Sing.
seine
seiner
seine

mask.
Sing.

sein
seinem
sein

mask.
Sing.

seine
seinen
seine
mask.
Sing.

ihr
ihrem
ihren

fem.
Sing.
son

ihre
ihrer
ihre

fem.
Sing.
sa

ihr
ihrem
ihr

fem.
Sing.
ses

ihre
ihren
ihre
fem.
Sing.

sein
seinem
seinen

neutr.
Sing.

seine
seiner
seine

neutr.
Sing.

sein
seinem
sein

neutr.
Sing.

seine
seinen
seine

neutr.
Plur.

ihr
ihrem
ihren

/
Plur.
leur

ihre
ihren
ihre

/
Plur.
leurs
dieser
diesem
diesen
mask.
Sing.
celui-là

diese
dieser
diese

fem.
Sing.
celle-là

dieses
diesem
dieses

neutr.
Sing.
/

diese
diesen
diese

/
Plur.
ceux-là

diese
diesen
diese

/
Plur.
celles-là

der
dem
den
mask.
Sing.
qui
à qui
que
die
der
die

fem.
Sing.
qui
à qui
que
das
dem
das

neutr.
Sing.
qui
à qui
que
die
denen
die
/
Plur.
qui
à qui
que
dessen
mask.
Sing.

von dem
mask.
Sing.


deren
fem.
Sing.
dont


von der
fem.
Sing.
de qui


deren
/
Plur.

von denen
/
Plur.
das

(dem)

das

s.o.

/

Sing.

ça

ça/
ce/il
dont/y

ça/le

dar + an/in/über etc.
/
Sing.

là-dessus


davon
/
Sing.
en




Anhang III: Referenzanalyse "Die Zeitmaschine" (Wells 1974: 7)

Text4
Der Zeitreisende (denn so will ich ihn der Einfachheit halber nennen) erläuterte uns eine schwer verständliche Sache. Seine grauen Augen leuchteten und funkel­ten, und sein gewöhnlich blasses Gesicht war gerötet und belebt.
... (1 Satz)
Unsere Stühle - seine patentierte Erfindung - umarmten und verwöhnten uns mehr, als daß sie uns lediglich zum Sitzen dienten, und es herrschte jene wohl­tuende Nachtisch-Atmosphäre, da die Gedanken gelöst und frei von den Fesseln der Pedanterie fließen. Und während wir so dasaßen und träge seinen Eifer und seinen schöpferischen Geist bei der Darstellung dieses neuen Paradoxons (wofür wir es hielten) bewunderten, erläuterte er es uns, die wesentlichen Punkte mit ei­nem hageren Zeigefinger hervorhebend auf die folgende Weise.
(1 Abschnitt wörtliche Rede)
(2 Sätze)
Sie wissen sicherlich, daß eine mathematische Linie, eine Linie von der Dicke "null", in Wirklichkeit nicht existiert. Hat man Sie das gelehrt? Ebensowenig eine mathe­matische Fläche. Das sind reine Abstraktionen.


Referenzanalyse
1. ihn
Die einzige Nominalgruppe links von ihn ist der Zeitreisende. Die Syntaxprüfung ist fehlerfrei, Nominalgruppe und Pronomen sind Maskulin Singular. Die Semantikprüfung führt auch zu keinem Fehler, denn mit dem Nomen der Zeitreisende ist ein mensch­liches Wesen gemeint, das Subjekt des Verbs erzählen sein muß. Das Pronomen ihn verweist nicht auf einen Sachverhalt. Die Übersetzung führt zu le, da voyageur ebenfalls Maskulin Singular ist und das Pronomen funktional direktes Objekt des Verbs appeler sein muss.
2. seine Augen
Die Nominalgruppen um Sache und Einfachheit sind syntaktisch nicht möglich, weil beide feminin sind, seine aber für einen maskulinen Besitzer steht. Die einzige Nominalgruppe, die bleibt, ist der Zeitreisende. Der errechnete Maximalabstand kann schon überschritten sein, aber Pronomenketten, die auf dieselbe Nominalgruppe verweisen, unterbrechen die Zählung, d.h. man fängt wieder bei Null an. (Fokusbil­dung, handelndes Subjekt, betrachtetes Objekt):
Beispiel:
Peter, du kennst ihn, er hat … und dann hat er …, seitdem … ist er wieder….Wollen wir ihn besuchen??


3. sein Gesicht
Das Substantiv Augen kommt nicht in Frage, weil es Plural ist, das Pronomen sein aber Singular ist..
Ansonsten gilt das zu Punkt 2 Gesagte entsprechend, es bleibt nur die Nominalgruppe der Zeitreisende.


4. seine Erfindung
Gesicht, Kaminfeuer und Schein sind syntaktisch mögliche Nomina, alle anderen nicht, weil sie entweder Plural oder feminin sind. Die semantische Prüfung des pronominalen Kontextes zeigt aber, dass das gesuchte Nomen zumindest animalisch belebt sein muß, denn es ist semantisches Subjekt von erfinden. Alle syntaktisch passenden Nomina be­zeichnen aber etwas Unbelebtes. Über die Pronomenkette erhalten wir wieder als einzig mögliches Referenzobjekt den Zeitreisenden.


5. sie dienten
Stühle, Gläser, Bläschen, Lilien und Augen sind mögliche Referenzobjekte des Pronomens sie. Durch die Semantikprüfung können mit großer Sicherheit nur die Augen als zum Sitzen dienend ausgeschlossen werden. Eine Präferenzanalyse würde aber die Stühle als vorrangig ausweisen, außerdem war Stühle das nächste Nomen (doppelte Präferenz).


6. es herrschte
Aus den syntakto-semantischen Eigenschaften (Valenzeigenschaften) des Verbs herrschen folgt, daß die auf herrschen folgende Nominalgruppe nicht möglich ist, es sei denn, dass sie Subjekt von herrschen ist. Daraus folgt, daß es kein anaphorisches, sondern ein kataphorisches Pronomen sein muß. Es bezieht sich auf die folgende No­minalgruppe.


7. seinen Eifer und seinen Geist
Die Nomina Eifer und Geist können nur animalisch belebte oder sogar nur menschliche Lebewesen haben. Die Nomina Gesicht, Kaminfeuer und Schein bezeichnen aber etwas Unbelebtes. Daraus folgt, daß sich das Pronomen sein... auf das einzig genannte menschliche Lebewesen beziehen muß, nämlich den Zeitreisenden.


8. wir es hielten
Die Nomina Paradoxon, Sitzen, (Glühlicht), Kaminfeuer und Gesicht sind syntaktisch zulässig und auch semantisch alle möglich. Für das Nomen Paradoxon spricht die große Nähe. Das Nomen Glühlicht ist in unserer Auflistung eingeklammert, weil es eine Nomi­nalgruppe innerhalb einer Nominalgruppe bildet. Das Prinzip A über A ist zwar nicht allgemein gültig, aber es wirkt stark einschränkend.


9. erläutert er es uns
Zu dem Pronomen es gilt das unter Punkt 8 Gesagte weiterhin. Das Pronomen er kann als Referenzobjekt nur ein maskulines singularisches Nomen haben. Das Nomen Schein, das syntaktisch möglich wäre, kommt aus semantischen Erwägungen nicht in Betracht, denn das Subjekt von erläutern ist mit hoher Präferenz ein menschliches Lebewesen. Der inzwischen sehr weite Abstand zu Zeitreisender wird durch die Pronomenkette relativiert.


10. hat man Sie das1 gelehrt / das2 sind
Das1 als Objekt bezieht sich auf einen Sachverhalt. Als Subjekt von sein bezieht sich das2 ebenfalls auf einen Sachverhalt.


Bibliographie

Bruderer, Herbert (1977). Handbuch der maschinellen und maschinenunterstützten Sprachübersetzung. München / New York: Dokumentation Saur.

Bruderer, Herbert (Hrsg.) (1982). Automatische Sprachübersetzung. Darmstadt: Wis­senschaftliche Buchgesellschaft.

IRIA (Hrsg.) (1978). Séminaire international sur les systèmes intelligents de question-réponse et grandes banques dedonnées = International Seminar on Intelligent Question-Answering and Data Base Systems. Bonas 21.06 – 30.06.1977, Rocquencourt: Institut de recherche d'informatique et d'automatique.

Rauch, Rainer (1980). Algorithmische Grammatik und automatische Übersetzung. In: Figge (Hrsg.) (1980). Romanistik und Datenverarbeitung. Akten der 1. Sektion des deutschen Romanistentages, Saarbrücken 1979. Dudweiler: AQ-Verlag.

Rauch, Rainer (1981). Die Entzeichnung einfacher französischer Texte. Beiträge zur Algorithmischen Grammatik. Dudweiler AQ-Verlag.

Wells, Herbert George (1974). Die Zeitmaschine. Zürich.

Wilks, Yorik (1977). Sprachverstehende Systeme in der künstlichen Intelligenz. Überblick und Vergleich. In: Eisenberg, Peter (Hrsg) (1977). Semantik und künstliche Intelligenz, 180-230.

Wilks, Yorik (1978). Analyzing common sense knowledge. In: IRIA.

1Vgl. auch Anhang I: Vergleichstabelle Pronomen Deutsch – Französisch
2COD: Complément d'objet direct
3Text: La légende de Roland, racontée pour les jeunes et annotée par R. Hähner. Stuttgart 1972

4Die hier durch Fett- und Kursivdruck hervorgehobenen Elemente beziehen sich auf die nachstehende Referenzanalyse.