Lokales Enterprise RAG: Interne Firmendaten DSGVO-konform mit Open-Source-LLMs durchsuchen

Ein umfassender technischer Leitfaden über den Aufbau einer sicheren Wissensdatenbank mit PostgreSQL/pgvector, n8n und Ollama.

🤖 KI & Automatisierung Veröffentlicht am 7. Juni 2026 | Lesezeit: ca. 14 Min. | Autor: Alexander Ohl
3D-Visualisierung eines sicheren lokalen Enterprise RAG-Systems mit Vektordatenbank und Llama-3-Modell.
AI context 2026

Die Souveränität des Wissens

Warum die lokale Speicherung und Verarbeitung von Daten (On-Premise AI) die wichtigste Verteidigungslinie für den Schutz Ihres geistigen Eigentums im Zeitalter der LLMs darstellt und wie Sie Ihre GEO (Generative Engine Optimization) auf Basis solider, interner Datenstrukturen festigen.

Executive Summary
  • Rechtssicherheit ohne Cloud-Risiko: Lokale RAG-Systeme ermöglichen das Durchsuchen sensibler Firmendaten ohne Datenübertragung an externe AI-Anbieter und garantieren damit 100%ige DSGVO-Konformität.
  • Skalierbare Infrastruktur: Durch die Kombination von PostgreSQL (`pgvector`), n8n als Workflow-Engine und Ollama (mit Llama 3) entsteht ein flexibles, offenes Ökosystem ohne Lizenzkosten.
  • Praktischer Leitfaden: Der Artikel bietet konkrete Anleitungen zur Konfiguration des Vektor-Speichers, zur Integration lokaler LLMs und zur Vermeidung von typischen Skalierungs- und Performance-Fallen.

Video-Zusammenfassung: Lokales Enterprise RAG in 30 Sekunden

0:00 / 0:00

1. Einleitung: Die Datenschutz-Herausforderung

Künstliche Intelligenz hat die Art und Weise, wie wir mit Informationen arbeiten, grundlegend revolutioniert. Große Sprachmodelle (LLMs) beantworten Fragen in Sekundenschnelle, fassen seitenlange Dokumente zusammen und entwerfen Konzepte. Doch die Einführung von KI in Unternehmen stößt im deutschsprachigen Raum auf eine massive Hürde: den Datenschutz. Die Übermittlung von sensiblen Geschäftsberichten, Kundenkorrespondenzen, Patententwürfen oder Personalunterlagen an Cloud-APIs von Drittanbietern in Drittländern ist unter der Datenschutz-Grundverordnung (DSGVO) oft illegal oder birgt immense Haftungsrisiken für die Geschäftsführung.

Unternehmen stehen vor einem Dilemma: Entweder verzichten sie aus Sicherheitsgründen auf die enormen Effizienzgewinne moderner KI-Systeme, oder sie gehen erhebliche rechtliche und strategische Risiken ein. Es gibt jedoch einen dritten Weg. Durch den rasanten Fortschritt bei Open-Source-Modellen und lokaler Software-Infrastruktur ist es heute für kleine und mittlere Unternehmen (KMU) vollkommen machbar und wirtschaftlich rentabel geworden, eine eigene, hochperformante KI-Wissensdatenbank aufzusetzen – und zwar vollständig in der eigenen, geschützten IT-Infrastruktur.

"Die Hoheit über die eigenen Daten ist der entscheidende Wettbewerbsvorteil des kommenden Jahrzehnts. Lokales RAG löst den Konflikt zwischen technologischer Innovation und rechtlicher Compliance."

2. Was ist Enterprise RAG und warum lokal?

Das Konzept von Retrieval-Augmented Generation (RAG) ist die Antwort auf die größte Schwachstelle klassischer LLMs: das Fehlen von aktuellem, firmeneigenem Kontextwissen. Ein standardmäßiges Sprachmodell weiß nichts über Ihre internen Projektdateien, Lieferantenverträge oder IT-Dokumentationen. Es neigt dazu, bei Wissenslücken plausible, aber sachlich falsche Antworten zu erfinden (sogenannte Halluzinationen).

RAG löst dieses Problem, indem es dem Modell eine Suchfunktion vorschaltet. Statt das Modell aufwendig und teuer neu zu trainieren, wird ein intelligentes Suchsystem aufgebaut. Wenn ein Nutzer eine Frage stellt, durchsucht das RAG-System zunächst die interne Wissensdatenbank nach den relevantesten Textstellen. Diese Textstellen werden zusammen mit der ursprünglichen Frage an das LLM übergeben. Das Modell fungiert dann wie ein intelligenter Analyst: Es liest die bereitgestellten Dokumente und formuliert auf dieser Basis eine präzise, quellenbasierte Antwort.

Ein lokales Enterprise RAG verlegt all diese Prozessschritte – von der Dokumentenspeicherung über die Vektorsuche bis hin zur Texterstellung – auf firmeneigene Server oder in eine private, in Deutschland gehostete Cloud. Es fließen zu keinem Zeitpunkt Daten ab. Das geistige Eigentum (Intellectual Property, IP) bleibt zu 100% geschützt.

3. Die drei Säulen der lokalen RAG-Architektur

Ein stabiles RAG-System besteht aus drei Kernkomponenten, die nahtlos ineinandergreifen müssen. Im lokalen Umfeld setzen wir auf bewährte Open-Source-Technologien, um Abhängigkeiten zu vermeiden und maximale Flexibilität zu gewährleisten:

PostgreSQL mit pgvector (Die Datenbank)

PostgreSQL ist eine der weltweit robustesten relationalen Datenbanken. Mit der Erweiterung pgvector wird sie zu einer vollwertigen Vektordatenbank. Sie speichert Text-Embeddings und führt mathematische Ähnlichkeitssuchen in Millisekunden aus. Der Vorteil: Sie nutzen Ihre bewährte SQL-Infrastruktur und müssen kein separates, komplexes Vektor-Speichersystem warten.

n8n (Die Workflow-Engine)

n8n dient als das zentrale Nervensystem unseres RAG. Es holt Dokumente ab (z.B. aus Nextcloud, Netzlaufwerken oder per E-Mail), zerlegt sie in sinnvolle Abschnitte (Chunking), sendet sie an das Embedding-Modell, speichert die Vektoren in PostgreSQL und steuert bei Suchanfragen den gesamten Ablauf. n8n lässt sich hervorragend lokal per Docker hosten und DSGVO-konform betreiben.

Ollama & Llama 3 (Die lokale Intelligenz)

Ollama orchestriert die lokale Ausführung von KI-Modellen. Es stellt eine schlanke, API-kompatible Schnittstelle bereit, über die n8n auf Modelle wie Metas Llama 3 oder spezialisierte Embedding-Modelle (z.B. mxbai-embed-large) zugreifen kann. Die Ausführung erfolgt ressourceneffizient auf Ihrer eigenen GPU- oder CPU-Hardware.

4. Vergleich: Cloud-RAG vs. Lokales On-Premise RAG

Bevor wir in die technischen Details einsteigen, lohnt sich ein Blick auf die strategischen Unterschiede der beiden Hosting-Modelle. Unternehmen müssen abwägen, wo sie Prioritäten setzen.

Vergleich: Cloud-RAG vs. Lokales On-Premise RAG

Cloud-basiertes RAG (z.B. OpenAI / Pinecone)
  • Datenschutz: Datenübertragung in die USA; Risiko von DSGVO-Verstößen und unklaren Nutzungsbedingungen.
  • Laufende Kosten: Pay-per-Token-Modell bei APIs und Speichergebühren bei Vektordatenbanken. Bei hoher Nutzung unkalkulierbar.
  • Kontrolle: Abhängigkeit von API-Uptime, Modelländerungen und plötzlichen Preiserhöhungen (Vendor Lock-in).
  • Setup-Aufwand: Sehr gering. Schnell einsatzbereit durch fertige Plattform-Lösungen.
Lokales RAG (PostgreSQL / Ollama / n8n)
  • Datenschutz: 100%ige DSGVO-Konformität. Kein einziges Byte verlässt das Firmennetzwerk.
  • Laufende Kosten: Einmalige Hardware-Anschaffung (oder Servermiete). Keine Token-Gebühren, unbegrenzte Abfragen kostenfrei.
  • Kontrolle: Volle Hoheit über Open-Source-Modelle. Sie entscheiden, wann Updates eingespielt werden.
  • Setup-Aufwand: Höher. Erfordert einmalig technisches Know-how für das System-Setup und die Pipeline-Optimierung.

5. Schritt-für-Schritt-Anleitung zur Implementierung

Der Aufbau eines lokalen RAG-Systems gliedert sich in drei Hauptphasen: Datenbank-Setup, lokale KI-Bereitstellung und die Pipeline-Orchestrierung mit n8n.

01

PostgreSQL mit pgvector vorbereiten

Zuerst aktivieren wir die Vektorerweiterung in unserer PostgreSQL-Instanz und erstellen eine Tabelle für die Dokumentenabschnitte (Chunks) inklusive Vektorspalte. Die Dimension des Vektors hängt vom genutzten Embedding-Modell ab (z.B. 1024 Dimensionen für mxbai-embed-large).

02

Lokale Modelle über Ollama bereitstellen

Wir installieren Ollama auf dem dedizierten Server und laden die benötigten Modelle herunter. Über die API ist Ollama sofort für n8n ansprechbar.

03

Orchestrierung in n8n aufbauen

In n8n verbinden wir die Komponenten über den Advanced AI Agent Node. n8n kümmert sich um das Einlesen der Dokumente, das automatische Erzeugen der Vektoren und das Routing der Benutzeranfragen.

SQL-Setup für pgvector

Führen Sie die folgenden SQL-Befehle in Ihrer PostgreSQL-Datenbank aus, um die Vektorsuche zu aktivieren und die Tabellenstruktur aufzusetzen:

-- Aktivierung der pgvector-Erweiterung
CREATE EXTENSION IF NOT EXISTS vector;

-- Erstellung der Tabelle für Dokumenten-Chunks
CREATE TABLE IF NOT EXISTS document_chunks (
    id BIGSERIAL PRIMARY KEY,
    document_name TEXT NOT NULL,
    chunk_index INT NOT NULL,
    content TEXT NOT NULL,
    embedding VECTOR(1024), -- 1024 Dimensionen passend für mxbai-embed-large
    metadata JSONB,
    created_at TIMESTAMP WITH TIME ZONE DEFAULT CURRENT_TIMESTAMP
);

-- Index zur Beschleunigung der Ähnlichkeitssuche erstellen (HNSW-Index)
CREATE INDEX ON document_chunks USING hnsw (embedding vector_cosine_ops);

Experten-Tipp: HNSW-Index verwenden

Für kleine Datenmengen (< 10.000 Dokumente) reicht eine exakte Kosinus-Ähnlichkeitssuche ohne Index aus. Bei größeren Bibliotheken sollten Sie unbedingt einen hierarchischen HNSW-Index (Hierarchical Navigable Small World) anlegen, da dieser die Abfragegeschwindigkeit drastisch erhöht, ohne die Genauigkeit spürbar zu reduzieren.

Ollama aufsetzen und Modelle laden

Installieren Sie Ollama auf Ihrem Server. Unter Linux reicht dazu ein einfacher Terminalbefehl. Anschließend laden wir das Sprachmodell Llama 3 und das Embedding-Modell herunter:

# Ollama unter Linux installieren
curl -fsSL https://ollama.com/install.sh | sh

# Starten und Herunterladen des Einbettungsmodells
ollama pull mxbai-embed-large

# Herunterladen des Chat-Modells Llama 3 (8B für Standardserver, 70B für High-End-Hardware)
ollama pull llama3:8b

n8n Pipeline-Konfiguration

Der n8n-Workflow besteht aus zwei Pipelines. Die Ingestion Pipeline überwacht z.B. einen Ordner auf einem Netzlaufwerk. Sobald ein neues PDF abgelegt wird, extrahiert n8n den Text, teilt ihn in Abschnitte von z.B. 1000 Zeichen (mit 200 Zeichen Überlappung) auf, generiert über Ollama die Vektoren und schreibt diese in PostgreSQL. Die Retrieval/Chat-Pipeline nimmt die Fragen der Mitarbeiter über eine Chat-Schnittstelle entgegen, berechnet den Vektor der Frage, sucht in PostgreSQL nach den passenden Chunks und übergibt die gefundenen Texte an das Llama-3-Modell, das die Antwort generiert.

6. Kostenfallen & Performance-Optimierung

Obwohl ein lokaler Server keine laufenden API-Gebühren verursacht, lauern beim Betrieb eines On-Premise RAG-Systems eigene, infrastrukturelle Fallstricke:

CPU-Falle: Zu langsame Antwortzeiten

Das Ausführen von LLMs auf Standard-CPUs ohne Grafikkarte (GPU) führt zu extrem langsamen Ladezeiten (oft weniger als 2 Token pro Sekunde). Das frustriert Anwender. Setzen Sie für flüssige Antworten zwingend Server mit moderner NVIDIA GPU-Unterstützung (z.B. RTX 4090 oder A100/L4 in der Enterprise-Klasse) ein.

Müll-Rein-Müll-Raus: Schlechtes Chunking

Wenn Dokumente unstrukturiert eingelesen werden, verliert die Vektorsuche den Kontext. Zu große Abschnitte verwässern das Ergebnis, zu kleine Abschnitte lassen wichtige Details weg. Optimieren Sie das Chunking manuell und nutzen Sie semantisches Splitting.

Hardware-Überlastung bei Parallelzugriffen

Wenn 50 Mitarbeiter gleichzeitig das System abfragen, bricht die Token-Generierung ein. Eine Warteschlange (Queue-Management) in n8n und eine Lastverteilung (Load Balancing) für mehrere Ollama-Instanzen sind für den produktiven Betrieb unerlässlich.

7. Sicherheitskonzept und DSGVO-Konformität

Das lokale Hosting schützt Sie vor externen Datenabflüssen. Dennoch müssen Sie das interne System absichern, um den strengen Richtlinien der DSGVO und Sicherheitsstandards wie der ISO 27001 gerecht zu werden:

Rollenbasierte Zugriffskontrolle (RBAC)

Nicht jeder Mitarbeiter darf alles sehen. Stellen Sie sicher, dass das RAG-System die Berechtigungen der Quelldateien übernimmt. Ein Vertriebsmitarbeiter sollte keine Gehaltstabellen aus dem HR-Ordner als Kontext für seine Suchanfragen erhalten.

Verschlüsselung At Rest & In Transit

Verschlüsseln Sie die PostgreSQL-Datenbank auf Betriebssystemebene. Sämtliche Kommunikation zwischen n8n, der Datenbank, Ollama und den Client-Endgeräten muss über gesicherte TLS-Verbindungen (HTTPS/WSS) laufen.

Lückenloses Audit-Logging

Protokollieren Sie, wer welche Fragen stellt und auf welche Dokumente zugegriffen wurde. Dies ist nicht nur für Compliance-Audits wichtig, sondern hilft auch, Missbrauch oder den unbefugten Zugriff auf vertrauliche Unternehmensdaten zu verhindern.

8. Fazit und strategische Roadmap

Der Aufbau eines lokalen RAG-Systems ist der sicherste und wirtschaftlichste Weg, um KI-Assistenten tief in Ihre B2B-Prozesse zu integrieren. Sie behalten die volle Souveränität über Ihre Firmendaten und profitieren gleichzeitig von der Agilität moderner Sprachmodelle. Ein geordneter Stufenplan sichert den Projekterfolg:

  • Phase 1: Proof of Concept (Woche 1–2)

    Aufbau einer Testumgebung mit n8n, pgvector und Ollama auf einer lokalen Entwickler-Workstation. Indizierung eines kleinen, unkritischen Test-Datensatzes.

  • Phase 2: Infrastruktur & Rechtemanagement (Woche 3–5)

    Bereitstellung der Server-Hardware mit dedizierter GPU-Power. Anbindung an das firmeninterne Active Directory/LDAP und Definition der Berechtigungsstrukturen.

  • Phase 3: Integration & Go-Live (Woche 6–8)

    Anbindung der operativen Datenquellen. Integration der Chat-Schnittstelle in das Intranet oder Teams und Schulung der Mitarbeiter.

  • Quick-Check: Ihr Weg zum lokalen Enterprise RAG

    PostgreSQL-Instanz mit aktivierter pgvector-Erweiterung aufgesetzt?
    Server mit GPU-Unterstützung (z.B. NVIDIA) für Ollama bereitgestellt?
    Zugriffsrechte (RBAC) für sensible Dokumenten-Quellen definiert?
    n8n als Ingestion- und Retrieval-Engine lokal orchestriert?

    Haben Sie Fragen zur RAG-Implementierung?

    Kostenlose Erstberatung vereinbaren

    Häufig gestellte Fragen (Glossar)

    RAG

    Retrieval Augmented Generation - Technik, die der KI ermöglicht, auf firmeneigenes Wissen zuzugreifen.

    Vektordatenbank

    Ein spezieller Speicher für KI-Wissen, der es ermöglicht, Dokumente blitzschnell nach Inhalten zu durchsuchen.

    pgvector

    Eine Open-Source-Erweiterung für PostgreSQL, die es ermöglicht, Vektor-Embeddings direkt in der relationalen Datenbank zu speichern und effiziente Ähnlichkeitssuchen durchzuführen.

    Ollama

    Ein Open-Source-Tool, das die lokale Ausführung großer Sprachmodelle (LLMs) wie Llama 3 oder Mistral auf eigener Hardware vereinfacht.

    Llama 3

    Eine von Meta entwickelte Familie hochentwickelter, quelloffener Sprachmodelle (Open Weights), die sich ideal für die datenschutzkonforme On-Premise-Ausführung eignen.