Halluzinogene in der Büroarbeit

Der Karbol-Champignon ist eine giftige Pilzart, der dem essbaren Champignon sehr ähnlich sieht. Immerhin ist er nicht halluzinogen.

Ein kleiner persönlicher Erfahrungsbericht. Ich bin seit längerem großer Anhänger von Mistral und nutze Le Chat in der Pro Version. Seit der Einführung von Mistral Medium 3.1 im August haben gefühlt tausende von GPT-5 enttäuschte Nutzer:innen das rettende Ufer bei Le Chat gesucht.

Le Chat ist seit dem Modelupdate nicht mehr so kühl und kurz angebunden im Default-Umgangston, sondern geschwätziger, was mich die Prägnanz der Antworten vermissen lässt. Was meine Begeisterung in den letzten Wochen ziemlich abkühlen ließ sind Fehler in den Antworten, die mich erst schmunzeln und nun, mit steigender Häufigkeit, irritiert zurücklassen.

Halluzinationen sind in LLMs täglich Brot. Das dann aber in der Intensität selbst erleben zu dürfen (müssen), ist tatsächlich nochmal ein ganz anderer Schnack. Ob es nun die Trainingsdaten per se oder die Trainingsmethoden oder die Schlussfolgerungen (Inferenz) sind, die hier Le Chat ins Wanken bringt, entzieht sich meiner menschlichen Intelligenz.

Jede dritte Antwort in KI Chatbots ist fehlerhaft; Tendenz steigend. In der Fehlerquote schenken sich Le Chat, ChatGPT & Copilot nicht viel. Einzig Gemini und Claude stehen mit weniger Fehlern besser da (ingenieur.de). Was macht das mit uns? Nur knapp ein Viertel aller KI-Nutzer:innen überprüft die Inhalte (zeit.de). All diejenigen, die zu jenem Viertel gehören, kennen den Schmerz, die Antworten manuell zu validieren.

KI wird ad absurdum geführt, wenn wir die gewonnene Effizienz und Geschwindigkeit verlieren, weil wir wieder selber in die Pedale treten müssen. Und wenn wir das einfach durch smarteres Prompting einfangen? Bessere Prompts → bessere Antworten mit weniger Fehlern → weniger manuelle Validierung → mehr Zeit für schöne Sachen im Leben?

UX Veteran Jared Spool sieht hier die KI-Unternehmen in der Pflicht:

Whenever anyone struggles to get their AI tool to do a desired action, the knee-jerk reaction is, “You need to engineer the prompts better.” If the AI tool were usable, users would have no trouble directing it to produce their desired results. That they need to master a specialized language to make it happen means it’s unusable.

LinkedIn

Die Unkenrufe hallen schon eine ganze Weile, dass wir in eine Abwärtsspirale, in einen Modellkollaps rutschen, bei dem ich hoffe, dass wir vom Tipping Point noch lange entfernt sind. Wenn neue Trainingsdaten zunehmend KI-generierte Texte enthalten, führt das laut Forschung der Universitäten Oxford und Cambridge zu einem degenerativen Prozess, bei dem Modelle weniger zuverlässig werden und die Fehlerquote steigt.

Heißt letzten Endes, dass die oben besungene Fehlerquote und die Masse an Halluzinationen weiter zunehmen werden, bis die Modelle im worst Case kollabieren. Ein nicht so angenehmer Nebeneffekt: die Vielfalt der menschlichen Ausdruckweise in den Texten stirbt durch den rundgelutschten, globalgenerischen KI Buddy Tonfall.

Was bleibt uns? Auf die Unternehmen hoffen? RAG kann Abhilfe schaffen: Wenn die KI auf konkrete, aktuelle Quellen gezielt zurückgreift, sinkt die Anfälligkeit für Halluzinationen. Die Vorzeichen müssen am Ende umgekehrt sein: Wir denken vor und lassen die KI unseren Input/Output validieren. Nicht umgekehrt.

Blind vertrauen kann schief gehen.

Diesen Schnipsel habe ich auch auf LinkedIn geteilt.

Leave a comment

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden.

Go to top