Skip to main content
White Fox Automations
Wissen 8 Min. Lesezeit

Self-Hosted KI im Mittelstand: Wann lokale Modelle sich rechnen

Eigene LLMs auf eigener Hardware. Wann Self-Hosting im Mittelstand sinnvoll ist, was es kostet, wo Cloud bleiben darf. Mit Praxisbeispielen aus deutschen Unternehmen.

Von Learoy Eichholz

Self-Hosted KI im deutschen Mittelstand, GPU-Server mit lokalem Sprachmodell, White Fox Automations Hamburg
Self-Hosted KI im Mittelstand: Wann lokale Modelle wirtschaftlich tragen und wann die Cloud die bessere Wahl bleibt. Foto: White Fox Automations, Hamburg.

Wenn ich Geschäftsführern im Mittelstand die Frage stelle, was sie an Cloud-KI stört, höre ich meistens zwei Dinge. Erstens: “Meine Daten gehen aus dem Haus.” Zweitens: “Ich weiß nie, was mich der Spaß nächstes Jahr kostet.” Beide Sorgen sind berechtigt. Beide führen früher oder später zur selben Idee: Können wir das Modell nicht einfach selbst betreiben?

Ich baue solche Systeme bei White Fox seit knapp drei Jahren. Manchmal lautet die Antwort klar ja, manchmal genauso klar nein. Dieser Artikel zeigt Ihnen, wie ich die Entscheidung treffe, was Self-Hosting wirklich kostet und an welcher Stelle der Versuch typischerweise scheitert.

Was Self-Hosted KI heute heißt

Vor zwei Jahren war ein lokales Sprachmodell ein Bastel-Projekt. Heute ist es ein Produkt-Stack. Modelle wie Llama 3.3 (70 Milliarden Parameter), Mistral Large oder Qwen 2.5 laufen stabil auf einem einzelnen Server mit zwei modernen GPUs. Sie sprechen Deutsch, sie folgen Anweisungen und sie kommen in Aufgaben wie Dokument-Zusammenfassung, Klassifikation und einfacher Code-Generierung sehr nah an GPT-4 oder Claude Sonnet heran. Bei spezifischem Fachvokabular lassen sie sich mit eigenen Daten nachtrainieren.

Self-Hosted heißt: Das Modell läuft auf Ihrer Hardware, in Ihrem Rechenzentrum oder bei einem deutschen Hoster wie Hetzner, IONOS oder OVH. Die Anfragen verlassen niemals Ihr Netzwerk. Es gibt keinen US-Cloud-Provider, der mitlesen könnte. Logs, Prompts und Antworten gehören Ihnen.

Drei Fragen, bevor Sie investieren

Bevor Sie eine GPU bestellen, beantworten Sie diese drei Fragen ehrlich.

Erstens: Wie viele Anfragen pro Tag erwarten Sie? Bis ungefähr 5.000 Anfragen täglich rechnet sich Self-Hosting selten. Cloud-APIs sind in diesem Bereich schlicht günstiger als eine eigene GPU, die 8.000 Euro pro Jahr an Strom und Hardware-Abschreibung kostet. Ab 20.000 Anfragen pro Tag dreht sich das Bild. Dann amortisiert sich eine eigene Maschine in ungefähr 9 bis 14 Monaten.

Zweitens: Welche Datenklasse fließt durch das Modell? Wenn Sie nur Marketing-Texte generieren, ist Cloud völlig in Ordnung. Wenn aber personenbezogene Kundendaten, Patientenakten, Konstruktionsdaten oder Buchhaltungs-Belege durch das Modell laufen, ändert sich die Rechnung. Dann sparen Sie sich mit Self-Hosting nicht nur den Cloud-Vertrag, sondern auch eine Reihe von Auftragsverarbeitungs-Verträgen, Datenschutz-Folgenabschätzungen und Diskussionen mit dem Betriebsrat.

Drittens: Haben Sie jemanden, der den Server betreut? Ein Self-Hosted LLM ist kein Toaster. Treiber-Updates, Modell-Versionen, Inference-Engine-Konfiguration und Monitoring brauchen Pflege. Realistisch sind 4 bis 8 Stunden pro Monat in einem Produktivbetrieb. Wenn Sie weder einen IT-Dienstleister noch einen eigenen Admin haben, der das übernimmt, lassen Sie es.

Was ein realistisches Setup kostet

Für einen typischen Mittelstandsbetrieb mit 50 bis 200 Mitarbeitenden sieht ein produktives Setup so aus.

Hardware: ein Server mit zwei NVIDIA RTX A6000 oder einer H100, 256 GB RAM, 4 TB NVMe-SSD. Einmalig ungefähr 18.000 bis 35.000 Euro Anschaffung. Alternative ist die Miete bei Hetzner GEX44 oder einem ähnlichen GPU-Anbieter ab 500 Euro im Monat.

Software: vLLM oder TGI als Inference-Engine, Ollama für kleinere Workloads, dazu ein Reverse-Proxy mit Authentifizierung. Alles Open Source, keine Lizenzkosten.

Strom: bei dauerhaftem Betrieb realistisch 150 bis 250 Euro pro Monat im eigenen Rechenzentrum.

Wartung: extern bei 80 Euro Stundensatz und 6 Stunden im Schnitt etwa 5.700 Euro pro Jahr.

Sie landen bei ungefähr 12.000 Euro pro Jahr für ein gemietetes Setup oder bei 18.000 Euro Anschaffung plus 9.000 Euro laufend für ein eigenes. Vergleichen Sie das mit Cloud-Kosten von typischerweise 25.000 bis 60.000 Euro pro Jahr, sobald Sie wirklich nutzungsintensive Workloads fahren.

Wo Self-Hosting bisher gescheitert ist

Drei Fehler sehe ich immer wieder, und alle drei haben nichts mit der Technik zu tun.

Der erste ist das falsche Modell für die Aufgabe. Wer ein 7-Milliarden-Parameter-Modell auf komplexe Vertrags-Analyse loslässt, ist enttäuscht und kommt zu dem Schluss, lokale KI funktioniere nicht. Das stimmt nicht. Es war nur das falsche Werkzeug. Für anspruchsvolle Aufgaben brauchen Sie 70 Milliarden Parameter aufwärts und entsprechende GPU-Power.

Der zweite ist fehlendes Monitoring. Ein lokales Modell, das niemand beobachtet, fällt unauffällig aus. Sie merken es erst, wenn die Mitarbeitenden anfangen, wieder von Hand zu arbeiten. Setzen Sie von Anfang an Prometheus, Grafana und ein simples Alert-System auf. Das ist keine Sechs-Wochen-Aufgabe, sondern ein Wochenende.

Der dritte ist das Versprechen, alles selbst zu trainieren. Fine-Tuning klingt verlockend, ist aber für die meisten Mittelstands-Anwendungen unnötig. Retrieval-Augmented Generation, also das Anbinden Ihrer eigenen Dokumente an ein vorhandenes Modell, liefert in 95 Prozent der Fälle das bessere Ergebnis bei einem Bruchteil des Aufwands.

Eine pragmatische Empfehlung

Wenn Sie das erste Mal über Self-Hosted KI nachdenken, machen Sie es nicht zum Big-Bang-Projekt. Starten Sie mit einem klar abgegrenzten Anwendungsfall: interne Dokumenten-Suche, automatisches Beleg-Routing, eine Wissensdatenbank für den Support. Mieten Sie für drei Monate einen GPU-Server bei einem deutschen Anbieter, betreiben Sie dort Llama 3.3 70B oder Mistral Large, messen Sie Antwortzeit, Qualität und Kosten.

Nach drei Monaten haben Sie eine echte Datenbasis. Erst dann entscheiden Sie, ob Sie eigene Hardware kaufen, weiter mieten oder doch in der Cloud bleiben. Diese Entscheidung trifft sich viel besser auf Basis von echten Zahlen als auf Basis von Marketing-Versprechen.

So sprechen Sie uns an

Wenn Sie überlegen, ob Self-Hosted KI für Ihr Unternehmen wirtschaftlich tragfähig ist, lassen Sie uns rechnen. Wir bauen seit Jahren genau diese Setups für Mittelständler in Deutschland und kennen die Stolperstellen. Rufen Sie uns an unter der Nummer auf der Kontaktseite oder schreiben Sie uns über das Formular auf whitefox-automations.com. Wir machen einen ersten Workshop in 90 Minuten und Sie verstehen am Ende, ob sich der Schritt für Sie rechnet.

Wenn Sie das praktisch umsetzen wollen

Alle Insights ansehen

30 Minuten · kostenlos · unverbindlich

Schreiben Sie uns kurz, wo bei Ihnen der Schuh drückt.

Sie bekommen innerhalb eines Werk­tags eine Antwort. Kein Verkaufs­gespräch, keine E-Mail-Strecke. Florian oder ein Kollege ruft Sie an, hört zu und ordnet ein, ob wir die Richtigen sind.

Florian Wessling Learoy Eichholz Arno Hoffrichter

Persönlicher Rückruf

Wir rufen Sie persönlich zurück.

Sie schreiben hier, jemand aus unserem Hamburger Team meldet sich. Kein Sales-Team, kein Call-Center, keine E-Mail-Strecke. Wir hören zu, ordnen ein und sagen Ihnen ehrlich, ob unsere Lösung zu Ihrer Situation passt.

Das White-Fox-Team · Hamburg

Lieber sofort anrufen?

+49 40 46 89 67 68 0

Oder per E-Mail an

info@collectivebrain.de

Mit dem Absenden stimmen Sie zu, dass wir Ihre Angaben zur Bearbeitung Ihrer Anfrage verwenden. Details in unserem Datenschutz. Datenschutz .

Anrufen Erstgespräch