Local LLMs und DSGVO: Warum deutsche Unternehmen umdenken müssen

Dein Unternehmen will AI einsetzen. Dein Datenschutzbeauftragter sagt Nein. Also passiert nichts.

Das ist die Realität in erschreckend vielen deutschen Unternehmen 2026. Nicht aus Unwillen — sondern weil niemand den Ausweg kennt.

Local LLMs lösen die DSGVO-Frage nicht durch Kompromisse, sondern strukturell: Daten verlassen den Server nicht.

Es gibt einen Weg zwischen "ChatGPT ist verboten" und "wir machen gar nichts mit AI". Dieser Post zeigt ihn.

Was ist ein Local LLM?

Ein Local LLM (Large Language Model) ist ein KI-Sprachmodell, das vollständig auf deiner eigenen Hardware oder deinem eigenen Server läuft — ohne Cloud-Anbindung, ohne Datenübertragung an externe Dienste.

Der Unterschied zu ChatGPT, Claude oder Gemini: Deine Anfragen, Dokumente und Daten verlassen die eigene Infrastruktur nie. Was auf dem Server verarbeitet wird, bleibt auf dem Server.

Tools wie Ollama machen das heute erschreckend einfach: Ein Befehl, Modell herunterladen, lokal starten. Was 2023 noch ein Forschungsprojekt war, ist 2026 ein produktionsreifer Stack.

Warum DSGVO und US-Cloud-KI sich oft beißen

Die Grundfrage ist nicht ob US-KI-Dienste grundsätzlich verboten sind. Sie ist differenzierter.

Was DSGVO tatsächlich sagt:

Personenbezogene Daten dürfen nur mit Rechtsgrundlage verarbeitet werden. Bei Transfers in Drittländer (also außerhalb der EU) braucht es zusätzlich geeignete Garantien — Standard-Vertragsklauseln (SCC), Angemessenheitsbeschlüsse oder Binding Corporate Rules.

OpenAI und Anthropic bieten SCCs an. Das bedeutet: Unter bestimmten Bedingungen ist der Einsatz für Kundendaten möglich.

Wo es trotzdem schwierig wird:

Branchenspezifische Regulierung: Gesundheitsdaten (§ 22 BDSG), Bankgeheimnis, anwaltliche Verschwiegenheit — hier reichen SCCs oft nicht aus
Interne Compliance-Richtlinien die über die gesetzliche Mindestanforderung hinausgehen
Datenschutzbehörden in einzelnen Bundesländern die strenger auslegen als andere
Unternehmensrichtlinien die globale Cloud-Dienste für sensible Daten verbieten

Das Ergebnis: Viele Unternehmen stecken in einem Graubereich fest. Rechtlich vielleicht möglich — politisch intern nicht durchsetzbar.

Local LLMs machen diese Diskussion überflüssig.

Was Local LLMs heute leisten können

Hier ist wichtig, ehrlich zu sein. Local LLMs sind nicht ChatGPT 4o auf deinem Laptop.

Was heute gut funktioniert:

Für viele Business-Anwendungsfälle ist die Lücke zu den großen Cloud-Modellen kleiner als gedacht.

Dokumentenanalyse und -extraktion — Rechnungen lesen, Verträge strukturieren, Formulare auslesen. Llama 3.3 70B oder Qwen2.5 72B liefern hier solide Ergebnisse. Bei strukturierten Dokumenten oft auf Niveau der Cloud-Modelle.

Interne Chatbots und Wissensbasen — RAG-Systeme (Retrieval-Augmented Generation) die auf interne Dokumentation zugreifen. Das Modell muss nicht alles wissen — es muss die richtigen Dokumente finden und gut zusammenfassen.

Code-Assistenz für Entwickler — DeepSeek Coder, Qwen2.5-Coder oder Code Llama laufen lokal und sind produktiv einsetzbar. Für interne Tools, DSGVO-konformes Pair Programming.

Klassifikation und Routing — Ticket-Kategorisierung, Dokumentenklassifizierung, Priorisierung. Selbst kleinere Modelle (7B–13B) liefern hier oft 90%+ Genauigkeit.

Wo die Grenzen liegen:

Komplexe Mehrschritt-Reasoning-Aufgaben, hochkreative Texte, nuancierter strategischer Kontext — da sind GPT-4o und Claude 3.5 noch deutlich stärker. Für 80% der Business-Anwendungsfälle ist das nicht relevant.

Der Stack der heute funktioniert

Ich nenne konkrete Tools — nicht weil es die einzigen sind, sondern weil ich damit arbeite.

Ollama — Der einfachste Einstieg. Läuft auf Linux, Mac, Windows. Modell mit einem Befehl laden, REST-API sofort verfügbar. Kein Setup-Aufwand.

ollama run llama3.3

Open WebUI — Browser-Interface für Ollama. Sieht aus wie ChatGPT, läuft komplett lokal. Mitarbeiter brauchen kein Training.

LangChain / LlamaIndex — Wenn RAG gebaut werden soll: Dokumente chunken, in Vektordatenbank laden, Retrieval-Pipeline bauen. Beide Frameworks funktionieren mit lokalen Modellen.

Weaviate, Qdrant oder pgvector — Vektordatenbanken für RAG, alle self-hostbar, alle DSGVO-kompatibel.

Die Hardware-Frage:

Hetzner dedicated mit A100/H100 — Cloud, aber europäisch, DSGVO-freundlich, teuer
Hetzner GPU Instanzen — Flexibler Einstieg, 4090/3090, deutlich günstiger
Eigene Hardware — Wenn dauerhafter Betrieb geplant ist: eine RTX 4090 (ca. 1.500 EUR) läuft Llama 70B quantisiert produktiv
Apple Silicon (M4 Pro/Max) — Überraschend gut für lokale Entwicklung, unified memory erlaubt große Modelle

Für einen ersten Pilot in einem mittelständischen Unternehmen: Hetzner GPU-Instanz, Ollama, Open WebUI. Läuft in einem Tag.

Wann Local LLM, wann Cloud?

Die Entscheidung ist keine Weltanschauung. Es ist eine Use-Case-Frage.

Kriterium	Local LLM	Cloud LLM
Sensible Kundendaten	✅ Klar besser	⚠️ Nur mit Rechtsprüfung
Maximale Modellqualität	⚠️ Aufholend	✅ Besser (noch)
Laufende Kosten (hohe Volumen)	✅ Niedriger	⚠️ Token-Kosten summieren sich
Setup-Aufwand	⚠️ Höher	✅ Minimal
Interne Dokumente / RAG	✅ Gut geeignet	✅ Gut geeignet
Offline / Air-gapped Betrieb	✅ Möglich	❌ Nicht möglich

Hybride Ansätze sind realistisch: Kundendaten und interne Dokumente laufen lokal. Nicht-personenbezogene Aufgaben (Marketing-Texte, externe Recherche) können in die Cloud.

Was ich in der Praxis sehe

Ich baue gerade mit deepmemo.io eine RAG-basierte Wissensmanagement-Plattform. Die Wahl des LLM-Backends war eine echte Entscheidung: Cloudflare Workers AI (extern) für die schnellen, nicht-sensitiven Queries — lokale Modelle für Deployments bei Kunden mit strengen Compliance-Anforderungen.

Das ist kein theoretisches Konstrukt. Es ist die Architektur die ich heute ausliefere.

Was ich dabei gelernt habe: Die technische Hürde ist niedriger als erwartet. Die organisatorische Hürde — wer entscheidet das, wer betreibt das, wer ist verantwortlich — ist oft die eigentliche Herausforderung.

Mehr zu Architekturentscheidungen für Solo-Devs findest du in Cloudflare Workers vs. Hetzner für Solo-Projekte — kommt nächste Woche. Wer AI-Agents und DSGVO im Mittelstand vertiefen will: AI Agents im Mittelstand: Was funktioniert und was nicht.

Der nächste Schritt

Local LLMs sind kein Nischen-Thema mehr. Sie sind eine reife, produktionsfähige Alternative für alle Unternehmen, die AI wollen — aber auf eigenen Datenhoheitsregeln bestehen.

Die Technologie ist bereit. Die Hardware ist erschwinglich. Die Tools sind da.

Was fehlt, ist meist das Wissen wie man anfängt. Und jemand der das Setup einmal aufbaut und dokumentiert, sodass ein Team es selbst betreiben kann.

Das ist der Punkt wo ich einspringe.

Häufige Fragen

Darf mein Unternehmen ChatGPT überhaupt mit Kundendaten nutzen?

Das kommt auf den konkreten Use Case und die Art der Daten an. OpenAI und Anthropic bieten Datenverarbeitungsverträge (DPA) und Standard-Vertragsklauseln (SCC) an — unter bestimmten Bedingungen ist der Einsatz für personenbezogene Daten möglich. In regulierten Branchen (Gesundheit, Finanzen, Recht) gelten strengere Anforderungen. Local LLMs lösen die Frage strukturell: Daten verlassen den eigenen Server nie.

Was kostet es, ein lokales LLM aufzusetzen?

Ein erster Pilot mit Ollama, Open WebUI und einer RAG-Pipeline lässt sich auf einer Hetzner GPU-Instanz (ca. 200–400 EUR/Monat) in einem bis zwei Tagen aufsetzen. Für dauerhaften Betrieb mit hohem Volumen lohnt sich eigene Hardware: Eine RTX 4090 (ca. 1.500 EUR einmalig) läuft Modelle bis 70 Milliarden Parameter produktiv. Die Betriebskosten sind danach minimal.

Welche Modelle eignen sich für den Unternehmenseinsatz?

Für allgemeine Aufgaben (Dokumentenanalyse, Chatbots, Zusammenfassungen): Llama 3.3 70B oder Qwen2.5 72B. Für Code-Assistenz: DeepSeek Coder V2, Qwen2.5-Coder. Für ressourcenbeschränkte Hardware (kleinere Server, kein dediziertes GPU): Mistral 7B oder Llama 3.2 8B. Alle Modelle sind open-weight und kostenlos nutzbar.

Sind Local LLMs so gut wie ChatGPT oder Claude?

Für viele Business-Anwendungsfälle ist die Lücke kleiner als gedacht. Dokumentenextraktion, Klassifizierung, interne Wissensbasen — hier sind aktuelle lokale Modelle oft auf Augenhöhe. Bei komplexem Reasoning, nuanciertem strategischem Denken oder hochkreativen Texten haben Cloud-Modelle noch einen Vorsprung. Für 80% der typischen Enterprise-Use-Cases ist das nicht entscheidend.

Wie skaliert ein lokales LLM bei hohem Nutzungsvolumen?

Lokale LLMs skalieren über mehrere GPUs (multi-GPU-Setups) oder mehrere Instanzen mit Load Balancing. Tools wie vLLM oder Text Generation Inference von Hugging Face bieten hochperformante Inference-Server die horizontale Skalierung unterstützen. Bei sehr hohem Volumen (Millionen Anfragen täglich) wird die Kapex-Investition in Hardware relevant — dann lohnt die Kalkulation gegen Cloud-Token-Kosten.