KI im Finanzreporting: Warum LLMs Deine Zahlen halluzinieren

Inhalt
In einem viralen Reddit-Thread auf r/analytics beschreibt ein Nutzer, wie ein KI-Agent in seinem Unternehmen drei Monate lang Analytics-Daten erfunden haben soll. Der CFO habe daraufhin ein Board-Deck mit frei erfundenen Insights präsentiert, der VP of Sales Vertriebsgebiete auf Basis nicht existierender Zahlen neu zugeschnitten, und niemand habe es gemerkt. Ob der Fall sich genau so zugetragen hat, lässt sich nicht verifizieren. Aber Geschichten in dieser Art haben wir in verschiedenen Varianten schon immer wieder gehört. Finance-Teams kippen Rohdaten in ChatGPT oder Claude, bekommen plausibel klingende Antworten zurück und merken zu spät, dass die Zahlen frei erfunden sind. Das Problem dabei ist nicht mangelnde Prompt-Qualität oder fehlende Schulung. Es ist ein strukturelles Problem, das sich durch bessere Anweisungen nicht lösen lässt. Denn LLMs sind nicht dafür gebaut, korrekt zu sein. Sie sind dafür gebaut, plausibel zu klingen. Und genau diese Lücke wird im Finanzreporting zum existenziellen Risiko.

Plausibel ist nicht korrekt
Wenn Du in Excel „=SUMME(A1:A10)" schreibst, bekommst Du bei gleichem Input ausnahmslos denselben Output. Das nennt man deterministisch. Excel rechnet nicht wahrscheinlich, sondern exakt. SQL macht das Gleiche, Deine Buchhaltungssoftware auch. Diese Systeme sind so gebaut, dass identische Datenlagen zu identischen Ergebnissen führen, und Reproduzierbarkeit ist ihre Kernfunktion. Ein LLM wie ChatGPT, Claude oder Gemini funktioniert genau andersherum. Es berechnet für jedes Wort die Wahrscheinlichkeit, mit der es als nächstes auftauchen sollte, basierend auf Milliarden von Trainingsbeispielen. Es errät nicht die Zahl, es errät das nächste Token. Das nennt man probabilistisch, und das Modell ist darauf optimiert, sprachlich kohärent und überzeugend zu wirken, nicht darauf, faktisch korrekt zu sein. Wenn Du dieselbe Frage zweimal stellst, kannst Du zwei verschiedene Antworten bekommen, nicht weil das Modell „schlecht" ist, sondern weil es genau dafür gebaut wurde.

Im Marketing oder in der Content-Erstellung ist diese Unschärfe egal. Wenn ein LLM einen Blogpost umformuliert und dabei ein Wort variiert, ist das kein Problem. Im Finanzreporting ist sie toxisch. Ein EBITDA, das zwischen 2,3 Millionen und 2,7 Millionen schwankt, je nachdem wie oft Du die Frage stellst, ist kein Reporting-Fehler, sondern strukturelle Unbrauchbarkeit. Das Wort „Halluzination" klingt dabei fast zu harmlos, weil es suggeriert, dass das Modell gelegentlich spinnt. Tatsächlich ist das Erfinden von Daten kein Fehler, sondern eine inhärente Eigenschaft probabilistischer Systeme. LLMs haben keinen Begriff von Wahrheit, sondern nur einen Begriff von Plausibilität, und in der Finanzwelt ist plausibel das gefährlichste Wort überhaupt, weil es Vertrauen erzeugt, ohne es zu verdienen.
Stell Dir vor, Dein Steuerberater sagt Dir, er habe Deine Bilanz mit hoher Wahrscheinlichkeit korrekt erstellt. Du würdest den Steuerberater wechseln. Genau das machst Du aber, wenn Du ChatGPT Deine Gewinn- und Verlustrechnung analysieren lässt, weil Du ein probabilistisches System in einem Kontext akzeptierst, der Determinismus voraussetzt. Verschärft wird das Problem dadurch, dass die Antworten oft extrem überzeugend klingen, weil sie grammatikalisch korrekt, logisch strukturiert und sauber formatiert sind. Sie sehen aus wie ein Consultant-Deck, aber die Zahlen sind frei erfunden. Genau diese professionelle Verpackung senkt die kritische Distanz, sodass die Antwort am Ende ins Board-Deck übernommen, in die Forecasting-Runde eingespeist oder ans Controlling weitergereicht wird, ohne dass jemand noch einen Schritt zurückgeht.
Halluzinationen sind kein Randphänomen
Wenn Du denkst, dass Halluzinationen nur bei schlechten Modellen oder bei unsauberen Prompts auftreten, liegst Du falsch. Die Forschung zeichnet ein anderes Bild. Eine Studie, die 35 führende LLM-Modelle untersucht hat, kommt zu einem ernüchternden Ergebnis. Bei einer Kontextlänge von 32.000 Token schaffen es gerade einmal zwei von 35 Modellen, eine Fehlerrate unter 5 Prozent zu halten, und das beste Modell liegt bei 1,19 Prozent. Das klingt zunächst gut, übersetzt in ein Quartalsdeck heißt es aber, dass bei 100 analysierten Datenpunkten mindestens einer frei erfunden ist, und Du weißt nicht, welcher. Sobald die Kontextlänge auf 200.000 Token steigt, also bei größeren Dokumenten oder längeren Auswertungen, kollabiert die Zuverlässigkeit komplett. Alle 35 getesteten Modelle überschreiten dann eine Fehlerrate von 10 Prozent, jede zehnte Antwort ist eine Halluzination.
Die Fehlerrate verdreifacht sich nahezu schon zwischen 32.000 und 128.000 Token, was im Klartext bedeutet, dass jede komplexere Finanzauswertung mit längerem Zeitraum und mehr Datenpunkten überproportional anfällig wird. Und diese Halluzinationen sind nicht zufällig verteilt, sondern treten bevorzugt dort auf, wo die Datenlage unklar ist, wo Logik inferiert werden muss oder wo das Modell zwischen mehreren plausiblen Interpretationen wählen kann. Genau dort also, wo Du als Finance-Verantwortlicher die größte Sorgfalt brauchst. Eine weitere Studie aus dem medizinischen Bereich illustriert, wie groß die Unterschiede zwischen Modellen sein können. GPT-3.5 halluzinierte in 39,6 Prozent der Fälle, GPT-4 immer noch in 28,6 Prozent. Das sind keine Ausreißer, sondern der Normalfall, und er zeigt, dass selbst die besten verfügbaren Modelle strukturell ungeeignet sind, wenn faktische Korrektheit das Kriterium ist.
Eine eigene Anekdote: Wenn selbst der GSheet-Test scheitert
Wir haben selbst einen simplen Test gemacht: Ein Google Sheet mit zehn Zeilen, fünf Spalten, saubere Überschriften, keine komplexen Formeln. Die Aufgabe an Gemini: Lies die Daten aus und fasse sie zusammen. Das Ergebnis war ernüchternd. Das Modell hat Werte durcheinandergebracht, Spalten falsch zugeordnet und in einem Fall sogar eine Zeile erfunden, die im Datensatz gar nicht existierte. Kein mehrstufiger Forecast, keine verschachtelten Pivot-Tabellen, kein komplexes Datenmodell, nur ein simples GSheet, und das Modell war trotzdem unzuverlässig. Das zeigt, dass Halluzinationen nicht nur bei komplexen Fragen auftreten. Sie sind ein Grundproblem der Architektur. Ein LLM liest keine Daten wie eine Datenbank. Es interpretiert Text, inferiert Muster und erzeugt eine sprachliche Repräsentation dessen, was es für plausibel hält. Wenn die Trainingsdaten dem Format ähneln, wird die Antwort überzeugend klingen. Ob sie stimmt, ist eine andere Frage. Und genau das ist das Problem.
Das unterschätzte Compliance-Problem
Während alle Welt über die Genauigkeit von KI diskutiert, läuft im Hintergrund ein viel größeres Problem ab: Datenlecks. 77 Prozent der Mitarbeitenden teilen sensible Unternehmensdaten über ChatGPT und ähnliche Tools. Das sind keine hypothetischen Worst-Case-Szenarien, das ist der Status quo. Quartalszahlen, Forecasts, Kundendaten, interne Kalkulationen – alles landet in Cloud-basierten LLM-Diensten, ohne dass klar ist, wo diese Daten gespeichert werden, wer Zugriff darauf hat und ob sie in zukünftige Modelltrainings einfließen. Generative KI-Tools sind mittlerweile für 32 Prozent aller unautorisierten Datenabflüsse in Unternehmen verantwortlich. Das ist keine Randerscheinung mehr, das ist eine der Hauptquellen für Datenschutzverletzungen. Und während große Konzerne längst reagiert haben, kippt der Mittelstand weiterhin seine Zahlen ungeschützt in öffentliche Modelle.

GoBD, HGB, DSGVO – warum DACH besonders betroffen ist
Im DACH-Raum kommt eine zusätzliche Dimension hinzu: Die rechtlichen Anforderungen an Finanzreporting sind rigider als in vielen anderen Märkten. Die GoBD verlangen Nachvollziehbarkeit, Unveränderbarkeit und Vollständigkeit der Buchführung. Wenn Du eine Zahl in Deinem Jahresabschluss nicht auf eine originäre Quelle zurückführen kannst, hast Du ein Problem. Ein LLM, das eine Kennzahl „zusammenfasst", ohne dass Du nachvollziehen kannst, wie es zu dieser Zahl gekommen ist, erfüllt diese Anforderung nicht. Das HGB fordert eine ordnungsgemäße Buchführung. Halluzinierte Zahlen sind per Definition nicht ordnungsgemäß. Die DSGVO setzt strenge Grenzen beim Umgang mit personenbezogenen und sensiblen Unternehmensdaten. Wenn Du Mitarbeiterdaten, Gehaltslisten oder personenbezogene Forecasts in ein externes LLM einspeist, bewegst Du Dich in einem rechtlichen Graubereich, der im Ernstfall teuer werden kann.
Was Banken längst verstanden haben
Es ist kein Zufall, dass globale Banken wie JPMorgan und Bank of America ChatGPT verboten haben. Diese Unternehmen haben verstanden, dass die Kombination aus Halluzinationsrisiko und Datenleckage-Potential nicht durch Policies oder Schulungen zu kontrollieren ist. Die Architektur dieser Tools ist für regulierte Umgebungen strukturell ungeeignet. Trotzdem nutzt der Mittelstand genau diese Tools, oft ohne interne Richtlinien, ohne Datenschutzvereinbarung und ohne klare Verantwortung. Die Ironie dabei: Während die großen Player ihre Finanzprozesse abschotten, öffnet der Mittelstand die Türen weit. Nicht aus Leichtsinn, sondern weil die Technologie so zugänglich ist, dass sie sich der internen Kontrolle entzieht. Shadow AI ist längst Realität. Und im Finance-Bereich ist das besonders gefährlich, weil die Zahlen, die dort fließen, regulatorische Relevanz haben. Ein gefakter Analytics-Report ist ärgerlich. Eine halluzinierte Bilanzposition ist existenzgefährdend.
Was es stattdessen braucht: Architektur statt bessere Prompts
Die gute Nachricht: Das Problem ist lösbar. Die schlechte: Die Lösung liegt nicht im besseren Prompting, sondern in einer grundlegend anderen Architektur. Finance-grade KI bedeutet nicht, ein besseres LLM zu nehmen oder präzisere Anweisungen zu formulieren. Es bedeutet, die Aufgaben klar zu trennen. Deterministische Systeme müssen die Zahlen liefern. Die KI darf die Sprache darum herum liefern. Sobald ein LLM direkten Zugriff auf Rohdaten bekommt und daraus Kennzahlen ableitet, hast Du ein strukturelles Risiko. Sobald die KI nur noch auf bereits validierte, strukturierte Metriken zugreift und diese erklärt, kontextualisiert oder visualisiert, wird das Risiko beherrschbar. Der Unterschied liegt in der Schicht zwischen Daten und Modell. Diese Schicht heißt in der Fachliteratur „Semantic Layer" und sie ist der Schlüssel zu vertrauenswürdiger KI im Finanzbereich.
Fünf Prinzipien für finance-grade KI
Finance-grade KI steht auf fünf Prinzipien, die ineinandergreifen müssen. Den Anfang macht eine standardisierte Definition jeder einzelnen Kennzahl, mit eindeutiger Berechnungslogik, klaren Datenquellen und dokumentierten Annahmen. Wenn zehn Leute „EBITDA" sagen, müssen alle dieselbe Berechnung meinen, sonst fällt das ganze System schon an dieser Stelle auseinander. Darauf setzt ein Semantic Layer mit deterministischer Geschäftslogik auf. Die Zahlen entstehen nicht im LLM, sondern in einer Logikschicht darunter, die wie Excel oder SQL arbeitet und entsprechend reproduzierbare, exakte Ergebnisse liefert. Die KI greift ausschließlich auf das Ergebnis dieser Schicht zu, nie auf die Rohdaten selbst. Jede Ausgabe muss sich anschließend gegen Quelldaten validieren lassen. Wenn die KI sagt, der Cashflow sei um 12 Prozent gestiegen, muss diese Zahl deterministisch aus der Buchhaltung ableitbar sein und nicht aus Mustern inferiert. Dazu gehört Reproduzierbarkeit als nicht verhandelbare Eigenschaft, sodass bei identischem Input jedes Mal derselbe Output herauskommt. Und schließlich braucht ein finance-grade System einen vollständigen Audit-Trail, der jederzeit nachvollziehbar macht, welche Daten in welche Berechnung eingeflossen sind, wer wann welche Änderung vorgenommen hat und wie eine Kennzahl zustande gekommen ist. Ohne diesen Audit-Trail gibt es keine Compliance, und ohne Compliance ist kein System wirklich finance-grade, egal wie überzeugend die Oberfläche aussieht.
Die richtige Rolle der KI: Erklären, nicht rechnen
Wenn Du diese fünf Prinzipien umsetzt, verschiebt sich die Rolle der KI fundamental. Sie wird vom Rechner zum Erklärer. Und das ist genau die Rolle, für die LLMs tatsächlich gut sind. Ein LLM kann hervorragend beschreiben, warum Dein Cashflow gesunken ist, welche externen Faktoren eine Rolle spielen könnten, welche Fragen Du Dir stellen solltest. Es kann komplexe Zusammenhänge in einfache Sprache übersetzen, Anomalien identifizieren und kontextualisieren, Forecasts narrativ einordnen. Aber es sollte niemals diejenige Instanz sein, die die Zahl selbst produziert. Diese klare Rollenverteilung ist der Kern einer verantwortungsvollen KI-Integration im Finanzbereich. Determinismus liefert die Zahlen, KI liefert die Sprache darum herum. Gartner prognostiziert, dass Unternehmen, die bis 2027 auf semantische Grundlagen für KI setzen, die Genauigkeit ihrer GenAI-Modelle um bis zu 80 Prozent steigern können. Das ist kein inkrementeller Fortschritt, das ist ein Paradigmenwechsel. Und er passiert nicht durch bessere Modelle, sondern durch bessere Architektur.
Wie Finokapi das Problem löst
Genau diesen Paradigmenwechsel haben wir bei Finokapi zur Designgrundlage gemacht. Erst die Datenbasis und die Logikschicht, dann die KI darüber, nicht andersherum. Die Kennzahlen, mit denen Finokapi heute arbeitet, werden deterministisch berechnet. GuV, Bilanz, Cashflow und Forecast basieren auf standardisierten Definitionen, reproduzierbaren Werten und einem vollständigen Audit-Trail. Auf diese Datenschicht bauen wir Schritt für Schritt KI-Funktionen auf, und zwar bewusst so, dass sie keinen direkten Zugriff auf Rohdaten haben. Sie sollen ausschließlich mit den bereits validierten, strukturierten Metriken aus dem Semantic Layer arbeiten. Ihre Aufgabe ist nicht zu rechnen, sondern zu kontextualisieren, Zusammenhänge zu erklären und Abweichungen einzuordnen. Sie sollen niemals die Instanz sein, die eine Zahl produziert. Diese Architektur ist aufwendiger als ein Chatbot, der auf Excel losgelassen wird, aber sie ist die einzige, die im regulierten Finanzumfeld verantwortbar ist. Bei P&L, Bilanz, Cashflow und Forecasts gibt es keinen Spielraum für Halluzinationen, und genau deshalb bauen wir Finokapi konsequent von der Datenbasis nach oben.
Fazit
KI im Finanzreporting ist kein Hype, sondern ein massiver Hebel – wenn die Architektur stimmt. Wenn nicht, ist sie ein Risiko, das Dich Board-Decks mit erfundenen Zahlen präsentieren lässt, ohne dass Du es merkst. Der strukturelle Unterschied zwischen deterministisch und probabilistisch ist keine Fußnote für IT-Nerds, sondern der entscheidende Punkt, an dem Finance-grade KI und gefährliche Spielerei auseinandergehen. LLMs sind brillant darin, Sprache zu erzeugen. Sie sind strukturell ungeeignet, Zahlen zu erzeugen. Die Lösung liegt nicht in besseren Prompts, sondern in der Schicht zwischen Daten und Modell. Ein Semantic Layer mit deterministischer Logik, standardisierten Metrik-Definitionen und vollständigem Audit-Trail macht den Unterschied zwischen einem Tool, das im Mittelstand skaliert, und einem Tool, das im ersten Compliance-Review auseinanderfällt. KI soll erklären und kontextualisieren. KI soll niemals diejenige sein, die rechnet. Das ist keine Einschränkung, das ist die Voraussetzung dafür, dass Du ihr vertrauen kannst.
FAQ
Sind LLMs wie ChatGPT prinzipiell ungeeignet für Finance?
Nicht prinzipiell, aber für bestimmte Aufgaben. LLMs sind hervorragend darin, Zusammenhänge zu erklären, Anomalien zu kontextualisieren oder Berichte zu formulieren. Sie sind strukturell ungeeignet, um Zahlen selbst zu berechnen oder aus Rohdaten Kennzahlen abzuleiten. Die Architektur entscheidet: Wenn das LLM nur auf validierte, deterministisch berechnete Metriken zugreift, ist es sicher. Wenn es direkten Zugriff auf Rohdaten hat, ist es ein Risiko.
Was ist eine Halluzinationsrate und wie hoch ist sie wirklich?
Eine Halluzinationsrate gibt an, wie oft ein LLM Informationen erfindet, die nicht in den Eingangsdaten enthalten sind. Bei führenden Modellen liegt diese Rate je nach Kontextlänge zwischen 1,19 Prozent und über 10 Prozent. Das klingt niedrig, bedeutet aber: Bei 100 Datenpunkten ist mindestens einer frei erfunden. Und Du weißt nicht, welcher. Im Finanzreporting ist das inakzeptabel.
Welche Compliance-Risiken entstehen durch ChatGPT-Nutzung im Mittelstand?
Das größte Risiko sind Datenlecks. 77 Prozent der Mitarbeitenden teilen sensible Unternehmensdaten über ChatGPT, oft ohne dass eine Datenschutzvereinbarung existiert. Daneben fehlt die Nachvollziehbarkeit, die GoBD und HGB verlangen und die LLMs strukturell nicht liefern können. Dazu kommt das Halluzinationsrisiko in regulatorisch relevanten Berichten, das im Ernstfall zu Falschdarstellungen mit rechtlichen Konsequenzen führen kann. Banken wie JPMorgan haben ChatGPT genau aus diesen Gründen verboten.
Wie unterscheidet sich finance-grade KI von Standard-LLM-Integration?
Finance-grade KI trennt die Aufgaben klar: Deterministische Systeme berechnen die Zahlen, die KI erklärt sie. Das erfordert einen Semantic Layer, der standardisierte Metriken, reproduzierbare Logik und vollständige Audit-Trails liefert. Standard-LLMs greifen direkt auf Rohdaten zu und inferieren Ergebnisse – das ist schnell, aber unzuverlässig und nicht compliance-fähig.
Was sollte ich konkret tun, wenn mein Team bereits ChatGPT für Finanzauswertungen nutzt?
Trenne zuerst die Anwendungsfälle. Für unkritische Aufgaben wie Texte formulieren, Konzepte erklären oder Brainstorming kannst Du LLMs weiter nutzen. Für alles mit regulatorischer Relevanz – Bilanzen, Forecasts, Board-Decks – stoppe die ungeprüfte Nutzung sofort. Dokumentiere, welche Daten bisher geteilt wurden, und validiere kritische KI-generierte Auswertungen gegen Quelldaten. Setze interne Richtlinien, die klar regeln, wofür LLMs genutzt werden dürfen. Und wenn KI im Reporting eine Rolle spielen soll, dann über eine Plattform mit deterministischer Datenbasis darunter – nicht über ein LLM mit direktem Zugriff auf Deine Excel-Dateien.
Entdecke unsere neuesten Insights
Entdecke Strategien für eine effektive Finanzplanung.




