Audit-Log für KI-Workflows: Was Ihr Mittelstand protokollieren sollte
Welche Logs eine KI-Anwendung im Mittelstand braucht, wie lange Sie sie aufbewahren und welche Felder Ihnen im Ernstfall den Rücken retten.
Von Arno Hoffrichter
Der Moment, an dem ein Audit-Log wirklich zählt, kommt nie zu einem geplanten Termin. Er kommt an einem Donnerstagmorgen, wenn ein Kunde anruft und behauptet, das Chat-System habe ihm eine falsche Zusage gemacht. Oder wenn die Aufsichtsbehörde fragt, wer am 14. Februar um 11:42 Uhr eine bestimmte Anfrage durch das KI-Modell geschickt hat. Oder wenn die Haftpflichtversicherung Belege sehen will, weil ein Schaden im Raum steht.
Wer in diesen Momenten nicht innerhalb von 15 Minuten ein vollständiges Protokoll vorlegt, hat ein Problem. Nicht weil das Gesetz das so will, sondern weil das Vertrauen weg ist.
Warum Logging im KI-Zeitalter wichtiger wird
Klassische Software macht das, was im Quelltext steht. Wer eine Eingabe gleich behandelt, bekommt eine gleiche Ausgabe. Bei KI-Modellen gilt das nicht. Das gleiche Modell, die gleiche Frage und ein leicht anderer Kontext führen zu einer anderen Antwort. Diese Eigenschaft macht KI nützlich. Sie macht sie aber auch schwer nachzuvollziehen.
Ein guter Audit-Trail füllt diese Lücke. Er ist die einzige Quelle, mit der Sie hinterher rekonstruieren können, was genau passiert ist. Wer hat die Anfrage gestellt, welche Quellen hat das System konsultiert, welche Antwort hat es gegeben, welche Variante des Modells war im Einsatz. Ohne diese Informationen sind Sie auf das Gedächtnis Ihrer Mitarbeitenden und auf das Wort des Anbieters angewiesen. Beides ist kein guter Beweis.
Welche Felder Sie protokollieren sollten
Aus der Erfahrung mit Mittelstands-Setups lassen sich neun Felder benennen, die immer dabei sein sollten.
Zeitstempel. UTC mit Millisekunden. Lokale Zeitzonen führen im Audit zu Verwirrung.
Anfrage-ID. Eine pseudonyme ID, die einen Vorgang vom Eingang bis zur Auslieferung verfolgt. Diese ID darf in keinem Modell-Aufruf fehlen.
Verantwortlicher Account. Der interne Benutzer oder das Service-Konto, das die Anfrage ausgelöst hat. Bei Kundenanfragen aus dem Web genügt ein pseudonymer Session-Schlüssel.
Modell-Version. Nicht nur “GPT-4” oder “Claude”. Sondern die exakte Bezeichnung inklusive Datumsstempel oder Revision. Modelle ändern sich. Wenn Sie das nicht protokollieren, können Sie nach drei Monaten nicht mehr nachvollziehen, welche Version geantwortet hat.
Eingabe-Text. Der vollständige Prompt, der an das Modell ging. Inklusive System-Prompt. Pseudonymisiert, wo sinnvoll, aber sonst vollständig.
Quellen-Liste. Bei RAG-Anwendungen die Liste der Dokumente, die das System konsultiert hat. Mit Versionsstand. So lässt sich später prüfen, ob das System veraltete Information gezogen hat.
Ausgabe-Text. Die Antwort des Modells, bevor sie an die Oberfläche ging. Nicht das, was der Mensch danach umformuliert hat. Sondern was das Modell wirklich gesagt hat.
Vertrauens-Signal. Wenn das System ein Vertrauensmaß liefert oder eine Eskalationsempfehlung gegeben hat: festhalten. Wer das nicht tut, kann später nicht zeigen, dass das System eigentlich gewarnt hatte.
Folge-Aktion. Wurde die Antwort als E-Mail rausgegangen, in das CRM gespeichert, an einen Mitarbeitenden eskaliert. Dieser letzte Schritt schließt den Kreis und verbindet die KI-Aktion mit einer realen Geschäftshandlung.
Was Sie nicht in den Audit-Log packen sollten
Das Audit-Log selbst ist personenbezogen und unterliegt der DSGVO. Wer beim Logging unvorsichtig ist, baut sich ein zweites Compliance-Problem.
Klarnamen, Telefonnummern, vollständige E-Mail-Adressen und alles, was die Person eindeutig identifiziert, gehört nicht roh in das Log. Stattdessen arbeiten Sie mit pseudonymen IDs und legen die Auflösung in einem separaten System ab, das nur ausgewählte Personen einsehen dürfen.
Passwörter, Gesundheitsdaten, Bankdaten, Sozialversicherungsnummern haben im KI-Log überhaupt nichts zu suchen. Wenn diese Daten in der Eingabe vorkommen, müssen Sie sie vor dem Log-Eintrag maskieren. Das lässt sich auf der Pipeline-Ebene robust automatisieren.
Wie lange Sie Logs aufbewahren sollten
Es gibt keine allgemeingültige Frist. Aber es gibt vernünftige Richtwerte.
Für operative Fehlersuche reichen 30 Tage. Für die Beweisführung gegenüber Kunden oder bei Beschwerden empfehle ich 6 Monate. Für regulierte Prozesse, etwa wenn der Vorgang in Buchhaltungs- oder steuerrelevante Geschäftsvorgänge mündet, gelten die handels- und steuerrechtlichen Fristen, also bis zu 10 Jahre.
Wichtig ist die Trennung. Volllogs mit Eingabe und Ausgabe nicht 10 Jahre aufbewahren. Stattdessen nach 6 Monaten auf eine Langzeitfassung verdichten, die nur Metadaten und die Anfrage-ID enthält. So bleibt der Audit-Trail auffindbar, ohne dass Sie ein riesiges Datenschutz-Risiko mit sich herumtragen.
Wo der Log liegt
In der Cloud des KI-Anbieters allein ist nicht genug. Wenn der Anbieter morgen den Vertrag kündigt, ist Ihr Beweis weg. Empfehlung: jeder KI-Aufruf wird parallel in Ihrer eigenen Infrastruktur protokolliert. Bei White-Fox-Setups schreibt jeder Workflowknoten in eine zentrale Postgre-Datenbank in der EU, redundant und mit täglicher Sicherung in ein zweites Rechenzentrum.
Zusätzlich empfiehlt sich ein Schreib-einmal-lesen-oft-Speicher für besonders sensible Logs. Eine simple Append-only-Datei in einem Object-Store, mit Versionierung, der niemand außer dem System-Account schreiben darf. Das ist die Form, die einer Aufsichtbehörde am ehesten als Beweis genügt.
Was der EU AI Act dazu sagt
Der EU AI Act fordert für Hochrisiko-Anwendungen explizit Logging und Nachvollziehbarkeit. Für Standard-Anwendungen im Mittelstand, also Marketing, Sales-Assistenz, Service-Bot, sind die Pflichten kürzer. Aber die Logik ist die gleiche. Wer ein Modell betreibt, muss erklären können, was es getan hat.
Wer das Logging schon heute sauber aufsetzt, hat in zwei Jahren keine Überraschungen, wenn die Anwendung in eine höhere Risikoklasse rutscht oder die Aufsichtpraxis sich verschärft.
Was im Notfall zählt
Stellen Sie sich vor, in drei Monaten ruft jemand an und behauptet, das System habe einen falschen Preis genannt. Sie suchen die Anfrage-ID in Ihrer Datenbank, ziehen die vollständige Eingabe, die Modell-Version, die konsultierten Quellen und die Ausgabe. Drei Minuten später haben Sie ein PDF in der Hand, das den Vorgang dokumentiert.
Das ist die ruhige Variante. Die andere Variante heißt, drei Tage lang Mitarbeitende interviewen, in alten E-Mails wühlen und am Ende einen Vergleich anbieten, weil Sie nicht beweisen können, was wirklich passiert ist.
Ein gutes Audit-Log ist nicht Compliance-Theater. Es ist die Versicherung, die Ihre KI-Anwendung im Ernstfall trägt.
So gehen Sie konkret vor
Wer heute mit einer KI-Anwendung startet, baut das Logging am ersten Tag mit ein. Wer eine bestehende Anwendung ohne Audit-Trail im Einsatz hat, ergänzt es jetzt. Beide Wege sind in wenigen Tagen umsetzbar und kosten weniger als ein einziger ungeklärter Streitfall.
Wenn Sie überlegen, wie ein sauberer Audit-Trail in Ihrem Setup aussehen kann, sprechen Sie uns an. Telefonisch unter +49 40 60 77 49 50 oder über das Kontaktformular. Wir hören uns Ihren Stand an, sagen Ihnen ehrlich, ob Sie ein Problem haben, und zeigen Ihnen, wie wir es bei vergleichbaren Mittelständlern gelöst haben.
Wenn Sie das praktisch umsetzen wollen
Auch interessant
- 22. Mai 2026 8 Min. Lesezeit
Voice-Agents am Telefon: KI-Anrufe im Mittelstand, die funktionieren.
Weiterlesen - 21. Mai 2026 8 Min. Lesezeit
Angebote automatisch erstellen im B2B-Mittelstand.
Weiterlesen - 19. Mai 2026 8 Min. Lesezeit
E-Mail-Eingang automatisieren: Klassifikation, Routing, Antwort-Entwürfe
Weiterlesen