Einfacher ChatGPT Uhrzeit-Promt zeigt: So dumm ist KI

Als Video ansehen
Bereitgestellt über YouTube

Einfacher ChatGPT Uhrzeit-Promt zeigt: So dumm ist KI

„Künstliche Intelligenz“ ist oft gar nicht so intelligent, wie behauptet. An simplen Aufgaben scheitern sie kläglich und Lügen uns dabei sogar noch an. Dieses Beispiel zeigt das sehr eindrucksvoll, weil es für Menschen leicht zu erkennen ist. Am überraschenden Grund lässt sich eines der größten Probleme von KI demonstrieren. Dies mag bei der Uhrzeit wenig Auswirkungen haben – doch bei sachlichen Fragen, deren Antwort unbekannt ist, sieht es schon anders aus.

Der KI-Hype

Im November 2022 veröffentlichte OpenAI das verbesserte GPT-3.5 und erlaubte im ChatGPT-Textbot jedem den kostenfreien Zugriff darauf. Seit dem ist KI für viele Menschen bekannt sowie greifbar geworden. Mit sehr hoher Geschwindigkeit: Schon am 01.02.2023 – gerade einmal gute zwei Monate später – kannten 27,7% der befragten ChatGPT. Insgesamt 11% haben es bereits ausprobiert.1

Das ist eine steile Massenverbreitung. KI wurde nämlich keineswegs erst Ende 2022 erfunden. Schon seit Mitte des letzten Jahrhunderts forschen Wissenschaftler daran.2 Oft allerdings wenig Spektakulär. Wie z.B. Quantenphysik war es ein Insider-Thema. Wer dazu gehörte, vermied das Thema bei Dates & anderen Treffen eher, um niemanden zu verschrecken. Nun ist KI zum Hype geworden: Wer irgendwas damit macht, gilt als hipp & modern. Die Erwartungen sind riesig – viel zu groß, um ansatzweise erfüllt werden zu können. Teils sogar Widersprüchlich.

ChatGPT verzweifelt an dieser einfachen Aufgabe

Um das zu demonstrieren, muss KI gar nicht an die großen Probleme unserer Zeit heran gelassen werden: ChatGPT, Copilot (Bing) & Konsorten scheitern bereits an einer Uhr. Um das zu erkennen, genügt das Wissen eines 6-Jährigen Kindes.3 Der erste Promt dafür lautet: Erzeuge ein Bild mit vielen Uhren, die die Uhrzeit 12:03 anzeigen. Der kleine Zeiger ist auf der 12 und der große ein wenig weiter rechts, würde man im Kindergarten erklären. ChatGPT generiert jedoch folgendes Bild:

Ohne es in voller Größe zu öffnen, wird jedoch schon klar: Die Uhren zeigen eine ganz andere, falsche Zeit. Bei fast allen erkennbaren ist es ungefähr 10:10 Uhr. Manche lassen einen leichten Versatz erkennen. Unten rechts in der Ecke ist es mit ca. 10:25 minimal später. Von den verlangten 12:03 Uhr sind alle Meilenweit entfernt.

Dazu enthält es eine Reihe an offensichtlichen Logik-Fehlern, welche ebenfalls jedem Kind auffallen dürften. Beispielsweise hat der Raum ein Fenster, der ChatGPT jedoch nicht davon abhält, davor Uhren zu platzieren. Von einigen lässt sich gar keine Zeit ablesen, weil mindestens die Zeiger verwaschen aussehen. Manche wirken defekt – der große Zeiger an der Uhr rechts in der Mitte ist z.B. überproportional groß in Vergleich zum Kleinen, der abgebrochen wirkt. Es gibt sogar Kandidaten mit nur einem Zeiger, die man alleine betrachtet eher für eine analoge Druckanzeige oder ähnliches halten würde. Warum vorne einige Sanduhren platziert sind, bleibt ebenfalls ein ungelöstes Rätsel.

Kein Einzelfall: Auch andere Cloudanbieter können die Uhr nicht

Ist 12:03 Uhr einer der mysteriösen Hacks, die KI-Sprachmodelle aus dem Gleichgewicht bringt? Schließlich stecken diese voller Eigenheiten, die sich nur schwer erklären lassen. Ein aktuelles Beispiel: ChatGPT stürzt ab, wenn der Promt den Name „David Mayer“ enthält.4

Dass der Chatbot die Uhr nicht versteht, jedoch nichts mit dieser speziellen Uhrzeit zu tun. Mehrere Versuche liefern ähnliche Ergebnisse. Bitten wir beispielsweise um Armbanduhren, die 18:05 zeigen, erzeugt der Dienst immerhin ein deutlich ansehnlicheres Bild. Auch hier zeigt keine einzige die gewünschte Zeit, sondern wieder ca. 10:10 Uhr.

Wir konfrontieren die lügende KI

ChatGPT hat den Promt verstanden, weil er bereits auf die erste Anfrage mit „[…] die alle 12:03 Uhr anzeigen“ antwortet. Auch beim zweiten Versuch wird versichert, auf allen Armbanduhren sei 18:05 Uhr zu sehen. Beides davon ist komplett falsch. Darauf angesprochen entschuldigt die Software sich für den Fehler und liefert ein neues, welches wirklich die geforderte Zeit anzeigt. Überraschung: Auch diesmal stimmen die Zeiger nicht mal auf einer Uhr im Ansatz.

Diesmal wollte ich vom System wissen, ob es seinen Fehler erkennt & was es dazu sagt. Schließlich hat es mir mehrmals versichert, meinen Promt korrekt verstanden & umgesetzt zu haben. Obwohl mindestens das Zweite nicht stimmt. ChatGPT zeigt sich überraschend unterwürfig: Falls ich Recht habe tue es ihm leid. Ein dritter Versuch soll es richten. Dazu kam es nicht, weil die Limits zur Bildgenerierung in meinem Konto überschritten wurden. Offensichtlich rechnet OpenAI jegliche Bildgenerierungen an.

Der Chatbot wird einsichtig & verrät etwas

Ich bestehe auf die Beantwortung meiner Frage – statt eines neuen Bildes, welche selbst ohne Limits wahrscheinlich kaum besser werden dürfte. Das bestätigt die Antwort: ChatGPT kann gar nicht prüfen, ob das Bild zum Promt passt. Stattdessen wiederholt es schlicht die Anweisungen zur Erstellung. Frei nach dem Motto, wird schon passen. Es weiß schlicht nicht, ob mein Einwand berechtigt ist. Auf Nachfrage gibt der Bot zu, ungenau gewesen zu sein. Zu sehr Fokus auf Kritik scheint ungewollt: Stetig wird gefordert, ich solle mich bei Fehlern für Anpassungen melden. Gegen Ende hin schwenkt er von seinem Eingeständnis zu mir über, damit ich das Bild überprüfe.

Damit erklärt sich das devote Verhalten – man geht davon aus, der Nutzer könnte recht haben. Und hofft blind ins blaue, beim nächsten Versuch könnte es besser werden. Funktionieren kann das allerdings bloß, wenn es z.B. ein Verständnisproblem gab. Oder der Nutzer weitere Details nachreicht, bei denen seine Vorstellungen anders waren. Nicht aber grundsätzliche Probleme, die tief im System bzw. dessen Daten stecken.

Kein Einzelfall: Auch andere Cloudanbieter können die Uhr nicht

Und zwar nicht nur bei ChatGPT. Versteht der Bild-Ersteller aus dem Hause Microsoft Bing mehr von der Uhrzeit? Zwar verwenden beide DALL-E als Generator. Allerdings ist es durchaus möglich, dass die einzelnen Dienste verschiedene Anpassungen besitzen. Ich habe über 15 Versuche mit verschiedenen Promts gestartet. Mangels Limit war das hier problemlos möglich, was ebenfalls für weitere Tests mit Bing stand.

Das ernüchternde Ergebnis: Keine einzige Uhr zeigte die von mir vorgegebene Zeit. Stattdessen zeigten die Bilder teils unrealistische Szenen – beispielsweise verschwinden Armbänder mitten im Arm, aus dem zudem eine Glaskugel ragt.

Wenn ich anstelle der Zeit die Position der Zeiger beschreibe, werden die Ergebnisse noch seltsamer. Darunter ist eine Armbanduhr mit nur einem Armband und vielen Schlüsseln, die um sie herum angebracht sind. Ein wenig besser scheinen die Modelle mit Digitaluhren umgehen zu können. Dort zeigt zumindest eine die gewünschte Uhrzeit an. Der Großteil schaffte nicht mal das, sondern bloß z.B. „02:03“, „112:013“. Bei Angaben wie „12:83“ wurde das Ziel verfehlt und die Länge einer Stunde dabei deutlich ausgedehnt.

Warum 10:10 Uhr? Wenn Daten statt Intelligenz die Macht übernehmen

Die simple Erklärung lautet: Das Internet ist voller Uhren mit dieser Uhrzeit. Wer bei einer Suchmaschine etwa nach Armbanduhren sucht, findet Unmengen an Bilder von verschiedenen Modellen – nahezu alle zeigen ungefähr 10:10 Uhr. Lediglich ein Versatz von wenigen Minuten ist zu beobachten – manche stehen auf 10:08, bei anderen ist es 10:07. Nur gelegentlich findet sich ein Außenseiter, der seine Zeiger in einer anderen Stellung positioniert.

Dahinter steckt keine Verschwörung, die Mainstream-Fotografen zwingt, um ein geheimes Zeichen zu verbreiten. Sondern eine Mischung aus Tradition und Marketing. Das Logo oder der Modellname steht meistens unter der 12, manchmal unten über der 6. Beide Stellen sind gut erkennbar, wenn die Uhr auf ca. 10:10 eingestellt ist. Außerdem kann der Kunde die Zeiger gut erkennen. Eine Theorie besagt, die V-Stellung soll Verbindungen zu einem lachenden Smiley wecken & damit die Sympathie der Kunden. In einer Studie konnte das jedoch nicht bestätigt werden.5

„KI“: Wie intelliegent ist sie wirklich?

Wer nun dem größten Irrtum von KI nicht erliegt, der versteht das Problem. Es fängt bereits mit dem Begriff Künstlicher Intelligenz an. Genau genommen sogar bei Intelligenz. Bereits Wissenschaftler streiten darüber, was genau ist. Das Wort stammt vom lateinischen intellegere, was „erkennen“, „einsehen“, „verstehen“ bedeutet.6 Viele würden sicher zustimmen, wenn wir daraus ableiten: Ein intelligenter Mensch kann z.B. ein Problem erkennen, verstehen & eine sinnvolle Lösung entwickeln.

Die oft eingesetzte Generative Künstliche Intelligenz kann grundsätzlich Muster erkennen – scheitert allerdings leicht an Ähnlichkeiten. Ein tragisches Beispiel ist der erste tödliche Unfall eines computergesteuerten Autos. Der Tesla erkannte den vor ihm fahrenden Lastwagen-Anhänger fälschlicherweise als hohes Autobahn-Schild. Statt zu bremsen, fuhr er auf den LKW – die Unterkante des Anhängers traf die Windschutzscheibe des Teslas und tötete dadurch den Fahrer.7 Ein verkehrstauglicher Mensch hätte den LKW wohl sofort erkannt. Ein aktuelles Beispiel ist Waymo: Dessen Robotaxi findet nicht mehr aus dem Kreisverkehr heraus.8

Beim Verstehen muss KI endgültig aufgeben. Das große Problem: Die Technik hat null Verständnis von irgendetwas. Das hat ChatGPT bereits beim ersten Bild bewiesen, in dem es Uhren an das Fenster hängte. Jedem Mensch dürfte klar sein, wie unsinnig und unrealistisch das ist. Eben so die Darstellung von Sanduhren, wenn ich eine bestimmte Uhrzeit fordere, die diese Uhren gar nicht darstellen können. Algorithmen haben keinen gesunden Menschenverstand, der ihnen so etwas sagt. Ihnen fehlt gar jegliches Verständnis für unsere Sprache sowie die Bedeutung der Worte.

Nur Wahrscheinlichkeiten auf großer Datenbasis

Stattdessen betreibt Generative KI Wahrscheinlichkeitsrechnung. Eine Begrüßung ist ein einfaches Beispiel: Vormittags sagen die meisten Menschen „Guten Morgen“. In Richtung 12 Uhr ändert sich das zu „Mahlzeit“ oder „Guten Tag“, während „Guten Abend“ erst einige Stunden später als angemessen empfunden wird. Aus großen Datensammlungen lässt sich statistisch berechnen, bis zu welcher Zeit die meisten Menschen ein „Guten Morgen“ angemessen finden.

Das perfide dabei: Dadurch wählt die KI oft gute bis perfekte Worte – und täuscht uns Menschen mit plausibel klingendem Blödsinn.9 Je nachdem, wo sie eingesetzt wird, kann das sehr gefährlich werden. Bei komplexeren medizinischen Fällen erreicht ChatGPT 4 nur eine Erfolgsquote von 39%.10 Eine aktuellere Studie stellte gar fest, dass 22% der Ratschläge zu schweren Schäden oder dem Tod des Patienten führen. Selbst bei den 50 am häufigsten verschriebenen Medikamenten ist die Qualität katastrophal: Nur 34% der Antworten gefährden den Patienten nicht.11

Daten können gefährlich sein

Weil das Verständnis zur Beurteilung fehlt, sind die Daten besonders wichtig. Enthalten sie Verzerrungen, wenig oder keine Informationen zu Minderheiten oder andere Verzerrungen, fällt damit der Rest an Nützlichkeit einer KI. Maßgeblich ist hierbei die Qualität – es gilt das Motto shit in, shit out. Aus Kostengründen versuchen einige Konzerne jedoch, schlicht große Datenmengen zu kaufen. Wohl in der Hoffnung, schlechte Qualität durch die Masse herausfiltern zu können.

Zu welchen Ergebnissen das führt, zeigen Beispiele von großen Konzernen wie Google. Wenn Käse nicht an der Pizza klebt, empfehlen Googles AI Antworten „ungiftigen Leim“. Die Quelle dafür scheint der scherzhafte Kommentar eines Reddit-Nutzers namens fucksmith gewesen zu sein. Sucht man nach „smoking while pegnant“ behauptet Googles KI, Ärzte würden 2-3 Zigaretten pro Tag während der Schwangerschaft empfehlen. Auch einen Hund im heißen Auto alleine zu lassen, ist laut der vermeintlich Künstlichen Intelligenz in Ordnung. Dabei bezieht sie sich auf einen Beatles-Parody-Song, der diesen Satz enthält. Übrigens empfehlen dir Spezialisten, mindestens einen kleinen Stein täglich zu essen.12

Googles KI empfahl gefährliches, wie z.B. das Rauchen während einer Schwangerschaft
(Bild: angrytomtweets)

Diese und noch viele weitere Katastrophen sind entstanden, weil Google die Nutzerdaten von Reddit gekauft hat. Dort kann sich jeder Anmelden und Inhalte veröffentlichen. Sämtliche Informationen sind also nicht verifiziert. Noch schlimmer: Es existieren diverse Subreddits, die auf Ironie & Sarkasmus spezialisiert sind, r/aberBitteLaminiert ist ein Beispiel von vielen.13 Für KI eine Katastrophe – mangels Verständnis des Inhalts hat sie keine Chance, das zu erkennen.

Fazit: KI wird überschätzt & falsch verstanden

Eine falsche Uhrzeit dürfte jeder Mensch erkennen – vor allem nach expliziter Anforderung. Ganz anders sieht es dagegen aus, falls nach unbekannten Dingen gefragt wird, bei denen korrekte, verlässliche Informationen wichtig sind. Um die Technik sinnvoll & sicher einzusetzen, ist das Wissen über ihre Funktion zusammen mit den Grenzen essenziell. Es gibt durchaus Dinge, bei denen sie hilfreich sein kann – etwa Kreativität. Während meines Tests sind viele Uhren entstanden, die beeindruckend aufwändig schön gestaltet sind. Auch die Formulierung eines Textes können allgemeine Sprachmodelle verbessern. Vorausgesetzt, man achtet genau darauf, dass die KI nichts verfälscht oder wichtige Informationen entfernt.

KI-Diensten blind zu vertrauen ist der größte Fehler, den wir machen können: Ihnen fehlt das Verständnis, was sie tun. Insbesondere bei proprietären Systemen kennen wir die Trainingsdaten nicht.14 Sind sie einseitig oder anderweitig vorbelastet? Das müsste man wissen, um die Tauglichkeit vernünftig beurteilen zu können. Setzen wir sie blind & nicht verantwortungsbewusst ein, kann die Technik bereits vorhandene Probleme erheblich beschleunigen sowie neue verursachen – statt uns zu helfen. Auch wenn KI weit weniger liefern kann, als der Hype suggeriert: Es gibt durchaus Anwendungsfälle, in denen sie richtig eingesetzt eine positive Wirkung erzielen können.

Quellen

  1. https://www.cais-research.de/news/chatgpt-wie-viele-menschen-kennen-dich-bereits/ ↩︎
  2. https://www.bosch.com/de/stories/geschichte-der-kuenstlichen-intelligenz/ ↩︎
  3. https://www.mastersintime.de/inspiration/welche-kinderuhr-ist-fur-welches-alter-geeignet/ ↩︎
  4. https://t3n.de/news/mysterioeser-bug-mit-diesem-namen-hat-chatgpt-ein-problem-1661095/?utm_source=rss&utm_medium=feed&utm_campaign=news ↩︎
  5. https://www.gq-magazin.de/mode/artikel/uhren-stehen-immer-auf-10-nach-10-erklaerung ↩︎
  6. https://www.frag-caesar.de/lateinwoerterbuch/intellegere-uebersetzung.html ↩︎
  7. https://www.autohaus.de/nachrichten/autohersteller/toedlicher-unfall-tesla-autopilot-hielt-lkw-anhaenger-fuer-hohes-schild-2728581 ↩︎
  8. https://t3n.de/news/kreisverkehr-robotaxi-waymo-1663625/?utm_source=rss&utm_medium=feed&utm_campaign=news ↩︎
  9. https://winfuture.de/news,146050.html ↩︎
  10. https://winfuture.de/news,140461.html ↩︎
  11. https://winfuture.de/news,145944.html ↩︎
  12. https://www.watson.ch/digital/google/246434058-google-ki-suche-liefert-unfassbar-peinliche-antworten-12-beispiele ↩︎
  13. https://www.reddit.com/r/aberBitteLaminiert/ ↩︎
  14. https://netzpolitik.org/2023/ki-forschung-openai-ist-jetzt-closedai/ ↩︎

Leave a Reply