Wissen 5. Mai 2026 8 Min. Lesezeit

Belege automatisch in DATEV mit OCR-Pipeline

OCR, KI-Extraktion, sevDesk und DATEV-Export. Wie Sie eine Belegerfassung im Mittelstand bauen, die Buchhalter wirklich entlastet statt nur Tickets erzeugt.

Von Learoy Eichholz

Hamburger Buchhaltungs-Schreibtisch mit Aktenordner, Laptop und Beleg-Stapel, OCR-Pipeline für DATEV im Mittelstand, White Fox Automations — OCR-Pipeline für die Belegerfassung im Mittelstand: Was zwischen Eingangs-Postfach und DATEV-Export wirklich passiert. Foto: White Fox Automations, Hamburg.

In jeder zweiten Buchhaltung im Mittelstand sieht es so aus. Auf dem Schreibtisch liegt ein Stapel Eingangsrechnungen. Im Postfach hängen 40 PDFs von Lieferanten. In der Cloud-Ablage liegt ein Ordner „Belege Mai”, in den drei Mitarbeitende ihre Reisequittungen geworfen haben. Und am Monatsende ruft der Steuerberater an und fragt, ob die Daten endlich für DATEV bereit sind.

Das ist die Ausgangslage, in der KI-Belegerfassung tatsächlich helfen kann. Nicht als Wundermaschine. Sondern als saubere Pipeline aus vier Schritten, die zuverlässig läuft und für die der Buchhalter dem System auch dann vertraut, wenn er gerade nicht hinschaut.

Wir bauen solche Pipelines in der Werkstatt regelmäßig. Hier kommt eine ehrliche Beschreibung dessen, was funktioniert, was scheitert und welche Werte realistisch sind.

Schritt 1: Belege einsammeln, statt sie zu jagen

Eine OCR-Pipeline beginnt nicht mit OCR. Sie beginnt mit einer einzigen Eingangsquelle. Wenn Belege aus drei E-Mail-Postfächern, einer Cloud-Ablage und der Hosentasche eines Außendienstlers kommen, hilft Ihnen das beste KI-Modell der Welt nichts.

In der Praxis empfiehlt sich eine zentrale Beleg-Adresse, etwa belege@firma.de, plus eine Upload-Seite für die Mitarbeitenden plus optional ein Drive-Ordner mit Watch-Funktion. Alle drei Eingänge laufen in dieselbe Pipeline. Lieferanten bekommen die Beleg-Adresse als neue Standard-Adresse für Rechnungen mitgeteilt. Das spart in den ersten zwei Wochen mehr Zeit als jedes KI-Modell danach.

Technisch nutzen wir hier nichts Spektakuläres. Ein IMAP-Listener auf das Beleg-Postfach, ein Webhook-Endpoint für die Upload-Seite und ein File-Watcher auf dem Drive-Ordner. Alles drei landet in derselben Queue, mit derselben ID, mit demselben Statusfeld.

Schritt 2: OCR und KI-Extraktion, die wirklich funktionieren

Hier kommt die eigentliche Arbeit. Aus einem PDF oder einem Foto sollen strukturierte Felder werden: Lieferant, Rechnungsnummer, Datum, Netto, USt, Brutto, einzelne Positionszeilen, Konto- oder Steuernummer, Zahlungsziel.

Drei Wege haben wir produktiv im Einsatz, je nach Anforderung.

Erstens, klassisches OCR plus Regex. Tools wie Tesseract oder Google Document AI lesen den Text aus, dann holt eine Regel den Rechnungsbetrag aus dem Layout. Funktioniert für saubere Lieferantenrechnungen mit konstantem Aufbau. Bricht zusammen, sobald ein neuer Lieferant ein anderes Layout schickt.

Zweitens, Vision-Modelle wie GPT-4o, Claude Sonnet 4 oder Gemini 2.5. Hier lädt die Pipeline das PDF als Bild in das Modell und fragt strukturiert nach den Feldern. Vorteil: Robust gegen neue Layouts, brauchbar auch bei Foto-Belegen. Nachteil: Kosten pro Beleg steigen, und ohne klare JSON-Schema-Vorgabe halluziniert das Modell Felder, die im Beleg gar nicht stehen.

Drittens, dedizierte Document-AI-Anbieter wie Klippa, Candis oder GetMyInvoices. Die machen die OCR-Schicht inklusive Konfidenzwerten und Lieferanten-Lernfunktion. Wir setzen die ein, wenn ein Kunde sehr viele Belege pro Monat hat und die Kostenrechnung gegen Selbstbau spricht.

In der Realität läuft die beste Pipeline mit einer Kombination. Erst eine schnelle OCR-Schicht für Standard-Rechnungen. Wenn die Konfidenz unter 0,9 fällt, wandert der Beleg automatisch in die Vision-Modell-Spur. So zahlen Sie die teure Spur nur für die Belege, die sie wirklich brauchen.

Schritt 3: Validieren, bevor jemand auf „Buchen” klickt

Genau hier scheitern die meisten Mittelstands-Projekte. Die KI extrahiert die Felder, jemand schiebt das in DATEV, und drei Wochen später fällt auf, dass eine 12.000-Euro-Rechnung als 1.200 Euro verbucht wurde.

Eine produktive Pipeline hat darum eine Validierungs-Schicht mit klaren Schwellen. Wenn die Konfidenz über allen Pflichtfeldern bei 0,95 oder höher liegt und die Brutto-Netto-USt-Summe rechnerisch stimmt, wird der Beleg automatisch ins CRM oder in das Vorbuchungs-Konto übernommen. Wenn die Konfidenz darunter liegt oder die Rechenprüfung knirscht, geht der Beleg in eine Freigabe-Queue. Dort sieht der Buchhalter den Beleg und das vorgeschlagene Buchungsblatt nebeneinander und klickt einmal Freigabe oder Korrektur.

Diese Schwelle ist die wichtigste Stellschraube der ganzen Pipeline. Setzen Sie sie zu hoch, sieht der Buchhalter weiter jeden Beleg manuell. Setzen Sie sie zu niedrig, schleichen sich Fehler ein, die später teuer werden. Wir starten neue Kundenpipelines bei 0,95 und justieren nach den ersten 200 Belegen mit echten Zahlen. Bei guten Layouts landen wir nach vier Wochen meist bei 0,90.

Schritt 4: Sauber nach DATEV und sevDesk

Der Export nach DATEV ist technisch gut dokumentiert. Es gibt CSV-Schnittstellen, es gibt die DATEV-Rechnungswesen-Online-API für direkten Belegtransfer, und sevDesk kann beides. Wer sevDesk nutzt, exportiert direkt aus sevDesk in DATEV mit dem Standard-Kontorahmen SKR03 oder SKR04. Wer kein Vorsystem hat, schreibt aus der Pipeline einen DATEV-Export im Format „Belegtransfer”, den der Steuerberater einliest.

Wichtig ist hier nur eines: Jeder Beleg, der durch die Pipeline läuft, behält seine ursprüngliche PDF-Datei plus eine Audit-Spur. Wer hat wann welches Feld geändert, mit welcher KI-Konfidenz wurde extrahiert, wann ging der Beleg an DATEV. Das ist nicht nur sauber. Das ist bei einer Betriebsprüfung Pflicht, und es schützt Ihren Buchhalter vor falschen Vorwürfen.

Was im Mittelstand nicht funktioniert

Drei Anti-Muster sehen wir immer wieder.

Das erste ist die Voll-Automatisierung ohne Mensch. Manche Anbieter versprechen, dass nie wieder ein Buchhalter einen Beleg ansehen muss. Das stimmt für etwa 70 Prozent der Belege. Die restlichen 30 Prozent zerlegen Ihre Buchhaltung, wenn niemand mit Augen darauf schaut. Planen Sie eine HiTL-Spur ein. HiTL bedeutet Human in the Loop, also ein Mensch, der die Grenzfälle prüft.

Das zweite ist die Universal-Lösung für alles. Eine Pipeline, die gleichzeitig Eingangsrechnungen, Reisekosten, Spesenabrechnungen, Quittungen, Kreditkarten-Abrechnungen und Verträge verarbeiten soll, wird in keiner der Disziplinen wirklich gut. Bauen Sie zuerst die häufigste Belegart sauber. Skalieren Sie danach.

Das dritte ist der reine Tool-Kauf. Wer ein Klippa- oder Candis-Abo kauft und glaubt, damit sei das Thema durch, hat das Pipeline-Denken nicht verstanden. Die Tools sind gut, aber sie ersetzen die Arbeit am Eingangskanal, an der Konfidenz-Schwelle und am DATEV-Export nicht. Diese drei Stellen sind individuell, und genau hier liegt die Zeitersparnis.

Realistisch: Was Sie nach drei Monaten erwarten dürfen

In den Pipelines, die wir bei mittelständischen Kunden produktiv haben, sehen wir nach drei Monaten typische Werte. Auto-Verbuchungs-Quote bei 60 bis 75 Prozent. Manuelle Bearbeitungszeit pro Beleg sinkt von 3 Minuten auf unter 30 Sekunden. Zeitersparnis in der Buchhaltung 8 bis 14 Stunden pro Woche bei einer mittelgroßen GmbH mit 600 Belegen pro Monat.

Wenn Sie eine eigene Pipeline für DATEV oder sevDesk planen, schauen Sie sich vorher unsere Leistungsübersicht an oder lesen Sie, wie wir RAG für Customer Service skalieren. Die Logik ist verwandt, nur das Endprodukt ist ein anderes.

Wenn Sie konkret darüber sprechen wollen, was eine Belegerfassungs-Pipeline für Ihre Buchhaltung bedeuten würde, melden Sie sich. Sie erreichen mich direkt unter +49 40 60 77 89 47 oder über das Kontaktformular. Erstes Gespräch dauert 30 Minuten, kostet nichts und endet mit einer ehrlichen Einschätzung, ob sich der Aufwand lohnt.

Wenn Sie das praktisch umsetzen wollen

Maschine

Alle Insights ansehen

Belege automatisch in DATEV mit OCR-Pipeline

Schritt 1: Belege einsammeln, statt sie zu jagen

Schritt 2: OCR und KI-Extraktion, die wirklich funktionieren

Schritt 3: Validieren, bevor jemand auf „Buchen” klickt

Schritt 4: Sauber nach DATEV und sevDesk

Was im Mittelstand nicht funktioniert

Realistisch: Was Sie nach drei Monaten erwarten dürfen

Wenn Sie das praktisch umsetzen wollen

Blog Machine

Sales Machine

Service Machine

CRM-Sync und Lead-Scoring: Vertrieb im Mittelstand automatisieren

EU-Hosting, Self-Hosted oder Cloud: Sichere Infrastruktur im Mittelstand

Reporting Dashboards im Mittelstand: Automatisiert, sicher, aktuell

Schreiben Sie uns kurz, wo bei Ihnen der Schuh drückt.

Wir rufen Sie persönlich zurück.

Schritt 1: Belege einsammeln, statt sie zu jagen

Schritt 2: OCR und KI-Extraktion, die wirklich funktionieren

Schritt 3: Validieren, bevor jemand auf „Buchen” klickt

Schritt 4: Sauber nach DATEV und sevDesk

Was im Mittelstand nicht funktioniert

Realistisch: Was Sie nach drei Monaten erwarten dürfen

Wenn Sie das praktisch umsetzen wollen

Blog Machine

Sales Machine

Service Machine

Auch interessant

CRM-Sync und Lead-Scoring: Vertrieb im Mittelstand automatisieren

EU-Hosting, Self-Hosted oder Cloud: Sichere Infrastruktur im Mittelstand

Reporting Dashboards im Mittelstand: Automatisiert, sicher, aktuell

Schreiben Sie uns kurz, wo bei Ihnen der Schuh drückt.

Wir rufen Sie persönlich zurück.