Maximale Datenhoheit · Lokales LLM

Cubicle Sovereign.
Ihre eigene Kanzlei-KI.

Dedizierter GPU-Server im deutschen Rechenzentrum, lokales Llama-3.1-Modell, Zugriff auf Cubicle's kuratierten Rechts-Korpus (116k+ deutsche Gesetze, Urteile, BMF-Schreiben). Mandanten-Daten bleiben isoliert auf Ihrem Server — kein externer LLM-Aufruf, keine US-Cloud.

0
externe LLM-Calls
70B
Parameter lokal
116k+
Rechtsquellen via Cubicle-RAG
DE
Deutsches Rechenzentrum
1 · Mandanten-Akte
Strafanzeige Schmidt vs. Müller
Lokal auf Ihrem Server (DE)
↓ generische Rechtsfrage (keine Mandanten-Daten)
2 · Cubicle Knowledge-API
116k+ Gesetze / Urteile / BMF
Snippets + Quellen zurück
↓ LLM kombiniert lokal Akte + Knowledge
3 · LLM-Inference (lokal)
Llama-3.1-70B (lokal)
Kein externer LLM-Aufruf
↓ Antwort bleibt im RZ
4 · Antwort
Strukturiert + Quellen-Zitation
Über sichere VPN-Verbindung

Was Ihre Kanzlei damit macht.

Der Alltag einer Kanzlei ist kein Chatbot-Spielzeug. Cubicle Sovereign arbeitet mit Ihren echten Mandate-Daten — lokal, durchsuchbar, vergleichbar.

Mandanten-Daten verstehen

Ihre Akten, E-Mails und Dokumente werden durchsuchbar. Fragen Sie in natürlicher Sprache statt Ordner zu durchwühlen.

↳ Beispiel-Fragen:
„Was war der letzte Fall von Mandant Schmidt?"
„Welche Spesenabrechnungen sind noch offen?"
„Vergleiche die letzten 3 Mietverträge von Weber GmbH"
„Extrahiere alle Fristen aus der Akte Müller"

Verträge bearbeiten

Vom Risiko-Check bis zur Neu-Erstellung — Vertragsarbeit in Minuten statt Stunden, mit Quellen belegt.

↳ Funktionen:
Analyse — Klauseln, Risiken, Fristen markiert
Erstellung — Verträge aus Vorlagen generieren
Check — AVV, DSGVO, Berufsrecht prüfen
Vergleich — Versionen gegenüberstellen

Rechtsrecherche

Zugriff auf Cubicle's kuratierten Korpus von 116.000+ deutschen Rechtsquellen — täglich aktualisiert, mit Stellen-genauer Zitation.

↳ Quellen:
Gesetze (BGB, StGB, HGB, AO, ZPO …)
Höchstrichterliche Urteile (BGH, BAG, BFH)
BMF-Schreiben · Tarifverträge · EU-Recht
Recherche-Fragen gehen anonym zur Cubicle-API

Wichtig: Mandanten-Daten-Arbeit (Punkt 1 + 2) passiert vollständig lokal auf Ihrem Server — das lokale Llama-Modell verarbeitet Ihre Akten. Nur für die Rechtsrecherche (Punkt 3) wird Cubicle's Knowledge-API kontaktiert — mit generischen Rechtsfragen, ohne Mandanten-Daten.

Cloud, Inhouse, Sovereign — wann was?

Drei Stufen Datenhoheit, drei Preispunkte. Für 90% der Kanzleien reicht Cloud oder Inhouse. Sovereign ist für die 10% mit absoluter Daten-Abgeschiedenheit-Anforderung.

Standard

Cubicle AI

ab 249 € / Monat
Mandanten-Akte
↓ PII-Anonymisierung
externes LLM (EU-Endpunkt)
↓ Antwort
  • Hosting in deutschen RZ
  • AVV nach Art. 28 DSGVO
  • Anonymisierte Auszüge gehen extern
Datenhoheit App + Storage

Cubicle Inhouse

1.900 € Setup + 449 €/Mo
Mandanten-Akte
auf Kanzlei-Server
↓ PII-Anonymisierung
externes LLM (EU-Endpunkt)
↓ Antwort
  • Mandanten-Akten in Kanzlei-Infrastruktur
  • Eigene Domain + Branding
  • LLM weiterhin extern (anonymisiert)
Eigener Server + lokales LLM

Cubicle Sovereign

ab 2.900 € Setup + 299 €/Mo
Mandanten-Akte
dedizierter Server (DE-RZ)
lokales LLM auf GPU
Cubicle-RAG (nur Rechtsfragen)
↓ Antwort
  • Mandanten-Daten nur auf Kanzlei-Server
  • Llama-3.1 lokal, kein externer LLM
  • Cubicle-Knowledge-API für Recht
  • Eigene Domain + Branding
  • Monatlich kündbar (Server-Miete)

Wann Sovereign tatsächlich nötig ist.

Nicht jede Kanzlei braucht lokale Inferenz. Diese vier Konstellationen rechtfertigen den Aufpreis.

Strafverteidigung

§ 160a StPO bietet Schutz vor Beschlagnahme — der nur greift wenn Daten nachweisbar nicht außerhalb der Kanzlei waren. Sovereign macht den Nachweis trivial: kein API-Call nach außen, der protokolliert werden könnte.

Konzern-Mandate mit Tool-Stack-Vorgaben

Großmandanten verlangen oft, dass sämtliche eingesetzten Tools in der Kanzlei-Infrastruktur laufen und im Audit-Scope der Kanzlei (nicht eines externen Sub-Auftragsverarbeiters) sind. Sovereign erfüllt das ohne Kompromiss.

Wirtschaftsprüfer mit Insider-Informationen

Bei börsennotierten Mandanten gelten besondere Sorgfaltspflichten für kurspreisrelevante Daten. WPK empfiehlt 2025 explizit On-Premise inkl. lokaler KI-Inferenz für Mandate mit Insider-Risiko.

Mandanten mit AVV-Ausschluss von US-LLMs

Manche internationale Mandanten verbieten in ihrem AVV explizit jegliche Übermittlung an US-Tech-Konzerne — auch anonymisiert. Sovereign nutzt ausschließlich Open-Source-Modelle (Llama) auf Kanzlei-Hardware, kein US-API-Call.

Dedizierter Server in Deutschland.

Sie erhalten einen dedizierten GPU-Server in einem zertifizierten deutschen Rechenzentrum (ISO 27001). Wir installieren den kompletten Cubicle-Stack inkl. lokalem LLM. Für rechtliches Wissen ruft Ihr Server die Cubicle Knowledge-API auf — generische Rechtsfragen, keine Mandanten-Daten.

Dedizierter GPU-Server (DE)

HostingZertifiziertes deutsches RZ
ZertifizierungISO 27001
Lite-TierRTX 4000 Ada 20 GB · 64 GB RAM
Standard-TierRTX-Profi-GPU · 64 GB RAM
Pro-TierRTX PRO 6000 Blackwell 96 GB
Modell auf LiteLlama-3.1-8B / Mistral-7B
Modell auf ProLlama-3.1-70B AWQ-4bit
Strom + RZin Server-Miete inkl.
Hardware-Investition0 € (gemietet)

Software-Stack (von uns installiert)

BetriebssystemUbuntu 24.04 LTS
Container-RuntimeDocker + NVIDIA-Toolkit
LLM-Inferencelokale Inferenz-Engine
SprachmodellLlama-3.1 (8B / 70B)
Modell-FormatAWQ-quantisiert (4bit)
Mandate-DBPostgreSQL (lokal, verschlüsselt)
Knowledge-SourceCubicle RAG-API (zentral)
App-LayerCubicle-Frontend + Workspaces
Audit-LogPostgreSQL + 10-Jahre-Retention

🔐 Datenfluss bei Sovereign — was wo bleibt

Auf Ihrem Server (DE):
  • Alle Mandanten-Akten + Dokumente
  • Chat-Verläufe + Memory pro Workspace
  • Lokales Llama-Modell (kein API-Call)
  • Audit-Log über alle Zugriffe
Bei Cubicle (Frankfurt):
  • Knowledge-Base (116k+ Rechtsquellen)
  • Verfügbar via REST-API
  • Erhält nur generische Rechtsfragen
  • Nie Mandanten-Daten

Sovereign-Tarif.

Einmaliges Setup + Monats-Pauschale. Hardware kauft die Kanzlei separat (wir empfehlen Lieferanten).

Lite

Llama-8B · Einstiegs-GPU

Einstieg für kleine Kanzleien (1-3 Anwälte).

2.900 €Setup
+ 299 €/Mo

Cubicle-Pauschale (Llama-Pflege + Knowledge-API + Maintenance)
+ Server-Miete im DE-RZ (~250 €/Mo, separat)
Total ~549 €/Mo

  • Cubicle-Stack vorinstalliert
  • 3.000 Knowledge-Queries/Mo
  • Lokale LLM-Tokens unbegrenzt
  • E-Mail-Support 1 Werktag
Beratung
Standard · Empfohlen

Llama-70B · Profi-GPU

Beste Qualität für deutsche Rechtsaufgaben (5-15 Anwälte).

4.900 €Setup
+ 499 €/Mo

Cubicle-Pauschale (Llama-70B-Pflege + Knowledge-API + Maintenance)
+ Server-Miete im DE-RZ (~900 €/Mo, separat)
Total ~1.399 €/Mo

  • Cubicle-Stack + Llama-3.1-70B AWQ
  • 15.000 Knowledge-Queries/Mo
  • Lokale LLM-Tokens unbegrenzt
  • Eigene Domain + Branding
  • Audit-Log + ISAE-3402-Template
  • Quartalsweise Modell-Updates
Beratung anfragen
Pro

Hochverfügbar + Fine-Tuning

Große Kanzleien (20+ Anwälte), 24/7-Anforderungen.

7.900 €Setup
+ 890 €/Mo

Cubicle-Pauschale (alles + 24/7-Support + Fine-Tuning)
+ Server-Miete im DE-RZ (~900 €/Mo, ggf. 2× redundant)
Total ~1.790 €/Mo

  • Alles aus Standard
  • 50.000 Knowledge-Queries/Mo
  • Fine-Tuning auf eigene Texte
  • Redundante GPU optional
  • 24/7-Support + Account-Manager
Beratung

Was die Cubicle-Pauschale enthält

Llama-Modell-Pflege:
Wir installieren, testen, signen und aktualisieren das Sprachmodell quartalsweise.
Knowledge-API-Zugriff:
Volltext-Suche in 116k+ deutschen Rechtsquellen, täglich aktualisiert.
Cubicle-Stack-Maintenance:
Updates, Security-Patches, Docker-Pflege via SSH (mit AVV).
Support + Compliance-Hilfe:
E-Mail-Support, AVV-Mustertexte, ISAE-3402-Templates, Berufsrechts-Beratung.

Den Server stellen wir in einem zertifizierten deutschen Rechenzentrum bereit (ISO 27001). Monatlich kündbar, keine Hardware-Investition.
Add-on: +5.000 Knowledge-Queries = 39 €/Mo · 24/7-Support (Standard-Tier) = +199 €/Mo

Häufige Fragen.

Llama-3.1-70B von Meta ist Open-Source, hat die mit Abstand beste deutsche Sprachqualität unter den Open-Source-LLMs (auf Augenhöhe mit GPT-4 in vielen juristischen Aufgaben) und läuft auf einer einzigen A100-GPU. Alternativen wie Aleph Alpha Pharia oder Mistral-Large können bei Bedarf installiert werden — das ist Teil der Konfigurations-Beratung im Setup-Prozess.
Ja. Fine-Tuning auf Ihrer eigenen Mandantenkommunikation (z.B. Schriftsatz-Stil, kanzleispezifische Formulierungen) ist möglich — als Add-on im ersten Setup oder später. Kosten je nach Datenmenge typischerweise 3.500-8.000 € einmalig. Wichtig: Wir empfehlen das erst nach 6 Monaten Produktiv-Nutzung, weil die Standard-Llama-Qualität für die meisten Use-Cases schon ausreicht.
Das Rechenzentrum garantiert 99,9% Verfügbarkeit (redundante Stromversorgung, USV, Klimatisierung). Bei Hardware-Defekt erfolgt der Austausch i.d.R. innerhalb 4 Stunden. Für Pro-Tier können Sie einen zweiten Server als Failover bereitstellen — Cubicle synchronisiert dann beide. Alternativ: optionaler Cloud-LLM-Fallback (mit PII-Anonymisierung wie bei Inhouse) bei längeren Ausfällen.
Nein. Wir stellen den Server bereit, installieren und warten alles via SSH. Die Kanzlei muss nichts physisch tun — keine Server-Aufstellung, kein Rack, keine Hardware-Pflege. Bei größeren Kanzleien (>20 Berater) empfehlen wir einen technischen Ansprechpartner für Wartungs-Koordination.
Nein. Mandanten-Daten bleiben ausschließlich auf Ihrem Server. Cubicle wird nur für generische Rechtsfragen kontaktiert — z.B. „Was sagt § 280 BGB zu Schadensersatz?". Diese Fragen enthalten keine Mandanten-Information. Cubicle liefert Snippets aus 116k+ kuratierten Rechtsquellen zurück, das lokale LLM kombiniert sie mit Ihren Akten-Daten. Audit-Log auf Ihrem Server protokolliert jede Knowledge-API-Anfrage transparent.
Ja, für die Maintenance-Tätigkeit (Updates, Patches, Konfiguration via SSH). Unser AVV ist nach Berufsrechts-Standard formuliert (mit Bezug auf § 203 StGB / § 57 StBerG / § 43 WPO) und wird vor Vertragsabschluss vorgelegt. Im Unterschied zu Cloud/Inhouse fließen aber bei der Mandanten-Bearbeitung KEINE Daten zu uns — der AVV deckt nur die Maintenance ab.
Typisch 3-5 Werktage: Tag 1 stellen wir den Server bereit, Tag 1-2 installieren wir den Cubicle-Stack inkl. Llama-Modell via SSH (4-6h), Tag 3 RAG-Indexing Ihrer Mandate-Bestände, Tag 4-5 Schulung + Go-Live. Bei kleinerem Lite-Tier sogar in 1-2 Werktagen möglich.

Sprechen wir über Ihre Konfiguration.

Wir antworten innerhalb von einem Werktag mit Terminvorschlägen für ein 30-Min-Beratungsgespräch. Im Gespräch klären wir Hardware-Anforderungen, Zeitplan und individuelles Angebot.

Danke! Ihre Anfrage ist eingegangen. Wir melden uns innerhalb von einem Werktag mit Terminvorschlägen.
Es gab ein Problem. Bitte versuchen Sie es nochmal oder schreiben Sie uns direkt an inhouse@cubicle.legal.

Mit dem Absenden willigen Sie ein, dass wir Ihre Daten zur Bearbeitung Ihrer Anfrage speichern. Details siehe Datenschutzerklärung.