E-Mail-Eingang automatisieren: Klassifikation, Routing, Antwort-Entwürfe
Wie der Mittelstand die zentrale info@-Adresse mit KI sortiert, an die richtige Person routet und Antwort-Entwürfe vorbereitet. Pipeline, Tools, Stolpersteine.
Von Learoy Eichholz
Die zentrale info@-Adresse ist die schwierigste Mailbox in jedem Mittelstandsunternehmen. Anfragen vom Vertrieb, Reklamationen, Lieferantenangebote, Bewerbungen, Pressefragen, Spam und manchmal ein bezahltes Rechnungsexemplar fallen dort gemeinsam ein. In den meisten Firmen sortiert eine Mitarbeiterin am Empfang die Mails von Hand, leitet weiter, fragt nach und vergisst irgendwann etwas. Bei 80 bis 150 Mails am Tag kostet das eine halbe Tagesstelle und bleibt trotzdem fehleranfällig.
KI in der Mailbox ist eines der dankbarsten Automatisierungs-Themen im Mittelstand. Die Daten sind strukturiert genug für saubere Pipelines, die Fehler kosten selten Geld und der Nutzen ist innerhalb von Wochen messbar. Wir bauen solche Pipelines bei White Fox regelmäßig. Dieser Artikel zeigt, wie das technisch aussieht, welche Tools sich bewährt haben und wo Sie die typischen Stolpersteine erkennen.
Was eine KI-Mailbox technisch leisten muss
Drei Aufgaben stehen am Anfang. Jede einzelne ist für sich genommen einfach. Erst die saubere Verkettung macht aus einer Idee ein Produktivsystem.
Erstens, die Klassifikation. Jede eingehende Mail muss einer Kategorie zugeordnet werden. Bei einem unserer Maschinenbau-Kunden waren das zwölf Kategorien. Reklamation, Service-Anfrage, Vertriebs-Anfrage, Bewerbung, Lieferantenangebot, Rechnung, Steuerberater, Behörde, interne Weiterleitung, Pressemitteilung, Spam, Sonstiges. Mit einem modernen Sprachmodell und gut gewählten Beispielen liegt die Treffer-Quote bei 92 bis 97 Prozent, bei sauber abgegrenzten Kategorien noch höher.
Zweitens, das Routing. Aus der Kategorie folgt eine Zuständigkeit. Reklamationen gehen zum Service-Team, Bewerbungen zur HR, Rechnungen in den Buchhaltungs-Ordner. In Outlook und Microsoft 365 lässt sich das per Graph-API setzen. Bei IMAP geht es etwas hemdsärmeliger über Move-Operationen. Wichtig: das Routing muss reversibel sein. Die Originalmail bleibt unverändert, und im Audit-Log steht, wer was wann verschoben hat.
Drittens, der Antwort-Entwurf. Das ist der Teil, der wirklich Zeit spart und gleichzeitig der heikelste. Die KI schreibt einen Entwurf, der Mensch kontrolliert ihn und klickt auf Senden. Bei wiederkehrenden Anfragen wie “Wie sind Ihre Lieferzeiten?” oder “Können Sie mir bitte das Datenblatt schicken?” ist der Entwurf in 70 Prozent der Fälle schon versandfertig.
Wie wir die Pipeline konkret bauen
Wir setzen das fast immer auf einer self-hosted n8n-Instanz auf, weil die Mails sensibel sind und nicht durch eine US-Cloud laufen sollen. Die Pipeline hat fünf Stationen.
Station eins ist der Mail-Trigger. n8n pollt die Mailbox alle zwei Minuten oder horcht direkt auf den Webhook von Microsoft Graph. Die Mail wird mit Anhang, Header, Absender und Body ins System gezogen.
Station zwei ist die Vorbereitung. PDF-Anhänge werden in Text konvertiert, Bilder mit OCR durchsucht, Mail-Body wird von Signaturen und Vorgänger-Threads befreit. Das ist die langweiligste Station, aber sie entscheidet über die Qualität aller folgenden Schritte. Wer hier schludert, baut sich Halluzinationen in die nächste Stufe.
Station drei ist der KI-Klassifikator. Wir nutzen je nach Datenschutz-Lage entweder Claude oder ein Open-Source-Modell wie Llama 3.3 oder Mistral, das im EU-Rechenzentrum läuft. Der Prompt enthält die zwölf Kategorien mit jeweils zwei bis drei Beispielen aus echter Post. Das Modell gibt Kategorie, Konfidenz und eine kurze Begründung zurück. Bei Konfidenz unter 80 Prozent landet die Mail im Eskalations-Postfach für die manuelle Sortierung.
Station vier ist das Routing. Aus der Kategorie folgt das Zielpostfach, die zuständige Person und die SLA. Reklamationen bekommen ein Ticket im Helpdesk, Bewerbungen werden im HR-Ordner abgelegt und der HR-Verantwortlichen per Slack signalisiert.
Station fünf ist der Antwort-Entwurf. Hier füttern wir das Sprachmodell mit dem Mail-Inhalt, der Kundenhistorie aus dem CRM und einer kleinen Wissensbasis: Standard-Antworten, Lieferzeiten, Preislisten, FAQ. Der Entwurf landet als Outlook-Draft im Postfach der zuständigen Person. Sie liest, korrigiert und sendet. Kein Auto-Sending, kein direkter Kontakt von KI mit Kunden ohne menschlichen Klick.
Welche Modelle wir in der Praxis nutzen
Für die Klassifikation reicht ein günstiges Modell mit kurzer Latenz. Claude Haiku, GPT-4o-mini oder ein selbst gehostetes Llama-3.3-8B liefern stabile Ergebnisse bei wenigen Cent pro Tausend Mails. Bei strengen Datenschutz-Anforderungen kommt nur das self-hosted Modell in Frage.
Für die Antwort-Entwürfe lohnt sich ein größeres Modell. Claude Sonnet 4.6 oder ein self-hosted Llama-3.3-70B schreiben Entwürfe, die nach einem Mittelstandsbetrieb klingen und nicht nach Chatbot. Den Unterschied merken Sie sofort, wenn ein Bestandskunde antwortet und keine Augenbrauen hochzieht.
Die Wissensbasis für die Entwürfe holt sich das Modell aus einem Vektor-Index, der die wichtigsten internen Dokumente kennt. Bei vorhandener Datenbank dauert der Aufbau zwei bis drei Tage. Wir setzen meistens pgvector ein, weil es in jede vorhandene Postgres-Datenbank passt und sich gut mit den n8n-Knoten verbindet.
Was die Pipeline wirklich einspart
Ein konkretes Beispiel aus diesem Frühjahr. Mittelständischer Großhändler, 70 Mitarbeitende, 120 Mails am Tag auf der zentralen Adresse. Vor der Pipeline brauchte die Empfangs-Mitarbeiterin im Schnitt drei Stunden pro Tag für Sortierung und Vorab-Antworten. Nach drei Wochen Einführung lag der Aufwand bei 45 Minuten pro Tag, der Rest war stichprobenartige Kontrolle der KI-Vorschläge. Reklamationen werden seitdem im Mittel innerhalb von zwei Stunden statt am nächsten Tag beantwortet. Die Mitarbeiterin hat jetzt Zeit für die Aufgaben, die wirklich Empfangs-Kompetenz brauchen.
Die Investition lag bei rund 9.000 Euro für Konzeption, Aufbau, Integration und vier Wochen Begleitung. Der laufende Betrieb kostet 180 Euro im Monat für Server und Modell-Calls. Das amortisiert sich in unter sechs Monaten.
Wo solche Projekte regelmäßig scheitern
Drei Fallen sehen wir wiederkehrend. Die erste: zu viele Kategorien zu früh. Wer mit 30 Kategorien startet, bekommt Konfidenz-Werte um die 60 Prozent und glaubt, die KI funktioniere nicht. Besser sind acht bis zwölf Kategorien für den Start, später kann man verfeinern.
Die zweite Falle: keine echte Eskalations-Route. Die KI darf zugeben, dass sie unsicher ist. Wer die Pipeline darauf trimmt, immer eine Antwort zu liefern, baut sich Falsch-Klassifikationen ein, die niemandem auffallen. Eine ehrliche Konfidenz mit klarer manueller Eskalation ist robuster als jede 99-Prozent-Genauigkeit.
Die dritte Falle: zu schnelles Auto-Sending. KI-Antworten direkt an den Kunden zu schicken ist verlockend, ist aber rechtlich heikel und reputationsmäßig gefährlich. Eine einzige peinliche Antwort an einen langjährigen Kunden ist teurer als zehn Monate manueller Kontroll-Klicks. Wir empfehlen für die ersten sechs Monate ausnahmslos den Entwurfs-Modus. Wenn die Vertrauens-Werte stimmen, kann man später für definierte Standard-Anfragen den Auto-Versand prüfen.
DSGVO und Praxis
Mails enthalten Personendaten, deshalb braucht jede solche Pipeline eine Datenfluss-Analyse und einen Eintrag im Verzeichnis der Verarbeitungstätigkeiten. Wer ein selbst gehostetes Modell nutzt, vereinfacht das deutlich. Bei der Nutzung von Anthropic, OpenAI oder Google muss der AV-Vertrag stimmen, und die Verarbeitung sollte über die EU-Endpoints laufen. Die Einwilligung der Beschäftigten zur Mailbox-Analyse ist meistens schon im Arbeitsvertrag abgedeckt, im Zweifel kurz mit dem Betriebsrat sprechen.
Was wir bei White Fox konkret anbieten
Wir bauen diese Pipeline in vier Wochen und begleiten Sie weitere acht Wochen, bis das System bei Ihnen so läuft wie es laufen soll. Das passt zu vielen Mittelstandsbetrieben mit 30 bis 250 Mitarbeitenden. Wenn Sie sehen wollen, wie wir das im Service-Kontext einsetzen, lohnt sich ein Blick auf die Service Machine. Für vertriebsgetriebene Mailboxen, in denen das Routing in Richtung HubSpot oder Pipedrive geht, ist die Sales Machine der bessere Einstieg.
Wenn Sie konkret werden wollen: ein Erstgespräch dauert dreißig Minuten und ist kostenlos. Wir hören zu, schauen uns Ihre echte Mailbox-Situation an und sagen ehrlich, ob sich das für Sie lohnt. Den Kontakt finden Sie auf der Startseite per Telefon oder über das Formular am Seitenende.
Wenn Sie das praktisch umsetzen wollen
Auch interessant
- 22. Mai 2026 8 Min. Lesezeit
Voice-Agents am Telefon: KI-Anrufe im Mittelstand, die funktionieren.
Weiterlesen - 21. Mai 2026 8 Min. Lesezeit
Angebote automatisch erstellen im B2B-Mittelstand.
Weiterlesen - 20. Mai 2026 7 Min. Lesezeit
Audit-Log für KI-Workflows: Was Ihr Mittelstand protokollieren sollte
Weiterlesen