Maximale Datenhoheit · Lokales LLM

Cubicle Sovereign.
Ihre eigene Kanzlei-KI.

Dedizierter GPU-Server im deutschen Rechenzentrum, lokales Llama-3.1-Modell, Zugriff auf Cubicle's kuratierten Rechts-Korpus (116k+ deutsche Gesetze, Urteile, BMF-Schreiben). Mandanten-Daten bleiben isoliert auf Ihrem Server — kein externer LLM-Aufruf, keine US-Cloud.

Beratung anfragen Im Vergleich

externe LLM-Calls

70B

Parameter lokal

116k+

Rechtsquellen via Cubicle-RAG

Deutsches Rechenzentrum

1 · Mandanten-Akte

Strafanzeige Schmidt vs. Müller

Lokal auf Ihrem Server (DE)

↓ generische Rechtsfrage (keine Mandanten-Daten)

2 · Cubicle Knowledge-API

116k+ Gesetze / Urteile / BMF

Snippets + Quellen zurück

↓ LLM kombiniert lokal Akte + Knowledge

3 · LLM-Inference (lokal)

Llama-3.1-70B (lokal)

Kein externer LLM-Aufruf

↓ Antwort bleibt im RZ

4 · Antwort

Strukturiert + Quellen-Zitation

Über sichere VPN-Verbindung

Funktionen

Was Ihre Kanzlei damit macht.

Der Alltag einer Kanzlei ist kein Chatbot-Spielzeug. Cubicle Sovereign arbeitet mit Ihren echten Mandate-Daten — lokal, durchsuchbar, vergleichbar.

Mandanten-Daten verstehen

Ihre Akten, E-Mails und Dokumente werden durchsuchbar. Fragen Sie in natürlicher Sprache statt Ordner zu durchwühlen.

↳ Beispiel-Fragen:

„Was war der letzte Fall von Mandant Schmidt?"
„Welche Spesenabrechnungen sind noch offen?"
„Vergleiche die letzten 3 Mietverträge von Weber GmbH"
„Extrahiere alle Fristen aus der Akte Müller"

Verträge bearbeiten

Vom Risiko-Check bis zur Neu-Erstellung — Vertragsarbeit in Minuten statt Stunden, mit Quellen belegt.

↳ Funktionen:

Analyse — Klauseln, Risiken, Fristen markiert
Erstellung — Verträge aus Vorlagen generieren
Check — AVV, DSGVO, Berufsrecht prüfen
Vergleich — Versionen gegenüberstellen

Rechtsrecherche

Zugriff auf Cubicle's kuratierten Korpus von 116.000+ deutschen Rechtsquellen — täglich aktualisiert, mit Stellen-genauer Zitation.

↳ Quellen:

Gesetze (BGB, StGB, HGB, AO, ZPO …)
Höchstrichterliche Urteile (BGH, BAG, BFH)
BMF-Schreiben · Tarifverträge · EU-Recht
Recherche-Fragen gehen anonym zur Cubicle-API

Wichtig: Mandanten-Daten-Arbeit (Punkt 1 + 2) passiert vollständig lokal auf Ihrem Server — das lokale Llama-Modell verarbeitet Ihre Akten. Nur für die Rechtsrecherche (Punkt 3) wird Cubicle's Knowledge-API kontaktiert — mit generischen Rechtsfragen, ohne Mandanten-Daten.

Im Vergleich

Cloud, Inhouse, Sovereign — wann was?

Drei Stufen Datenhoheit, drei Preispunkte. Für 90% der Kanzleien reicht Cloud oder Inhouse. Sovereign ist für die 10% mit absoluter Daten-Abgeschiedenheit-Anforderung.

Standard

Cubicle AI

ab 249 € / Monat

Mandanten-Akte
↓ PII-Anonymisierung
↓ externes LLM (EU-Endpunkt)
↓ Antwort

✓ Hosting in deutschen RZ
✓ AVV nach Art. 28 DSGVO
○ Anonymisierte Auszüge gehen extern

Datenhoheit App + Storage

Cubicle Inhouse

1.900 € Setup + 449 €/Mo

Mandanten-Akte
↓ auf Kanzlei-Server
↓ PII-Anonymisierung
↓ externes LLM (EU-Endpunkt)
↓ Antwort

✓ Mandanten-Akten in Kanzlei-Infrastruktur
✓ Eigene Domain + Branding
○ LLM weiterhin extern (anonymisiert)

Eigener Server + lokales LLM
Cubicle Sovereignab 2.900 € Setup + 299 €/Mo

          Mandanten-Akte

          ↓ dedizierter Server (DE-RZ)

          ↓ lokales LLM auf GPU

          ↓ Cubicle-RAG (nur Rechtsfragen)

          ↓ Antwort
        
✓ Mandanten-Daten nur auf Kanzlei-Server
✓ Llama-3.1 lokal, kein externer LLM
✓ Cubicle-Knowledge-API für Recht
✓ Eigene Domain + Branding
✓ Monatlich kündbar (Server-Miete)

Anwendungsfälle

Wann Sovereign tatsächlich nötig ist.

Nicht jede Kanzlei braucht lokale Inferenz. Diese vier Konstellationen rechtfertigen den Aufpreis.

Strafverteidigung

§ 160a StPO bietet Schutz vor Beschlagnahme — der nur greift wenn Daten nachweisbar nicht außerhalb der Kanzlei waren. Sovereign macht den Nachweis trivial: kein API-Call nach außen, der protokolliert werden könnte.

Konzern-Mandate mit Tool-Stack-Vorgaben

Großmandanten verlangen oft, dass sämtliche eingesetzten Tools in der Kanzlei-Infrastruktur laufen und im Audit-Scope der Kanzlei (nicht eines externen Sub-Auftragsverarbeiters) sind. Sovereign erfüllt das ohne Kompromiss.

Wirtschaftsprüfer mit Insider-Informationen

Bei börsennotierten Mandanten gelten besondere Sorgfaltspflichten für kurspreisrelevante Daten. WPK empfiehlt 2025 explizit On-Premise inkl. lokaler KI-Inferenz für Mandate mit Insider-Risiko.

Mandanten mit AVV-Ausschluss von US-LLMs

Manche internationale Mandanten verbieten in ihrem AVV explizit jegliche Übermittlung an US-Tech-Konzerne — auch anonymisiert. Sovereign nutzt ausschließlich Open-Source-Modelle (Llama) auf Kanzlei-Hardware, kein US-API-Call.

Technischer Stack

Dedizierter Server in Deutschland.

Sie erhalten einen dedizierten GPU-Server in einem zertifizierten deutschen Rechenzentrum (ISO 27001). Wir installieren den kompletten Cubicle-Stack inkl. lokalem LLM. Für rechtliches Wissen ruft Ihr Server die Cubicle Knowledge-API auf — generische Rechtsfragen, keine Mandanten-Daten.

Dedizierter GPU-Server (DE)

HostingZertifiziertes deutsches RZ

ZertifizierungISO 27001

Lite-TierRTX 4000 Ada 20 GB · 64 GB RAM

Standard-TierRTX-Profi-GPU · 64 GB RAM

Pro-TierRTX PRO 6000 Blackwell 96 GB

Modell auf LiteLlama-3.1-8B / Mistral-7B

Modell auf ProLlama-3.1-70B AWQ-4bit

Strom + RZin Server-Miete inkl.

Hardware-Investition0 € (gemietet)

Software-Stack (von uns installiert)

BetriebssystemUbuntu 24.04 LTS

Container-RuntimeDocker + NVIDIA-Toolkit

LLM-Inferencelokale Inferenz-Engine

SprachmodellLlama-3.1 (8B / 70B)

Modell-FormatAWQ-quantisiert (4bit)

Mandate-DBPostgreSQL (lokal, verschlüsselt)

Knowledge-SourceCubicle RAG-API (zentral)

App-LayerCubicle-Frontend + Workspaces

Audit-LogPostgreSQL + 10-Jahre-Retention

🔐 Datenfluss bei Sovereign — was wo bleibt

Auf Ihrem Server (DE):

Alle Mandanten-Akten + Dokumente
Chat-Verläufe + Memory pro Workspace
Lokales Llama-Modell (kein API-Call)
Audit-Log über alle Zugriffe

Bei Cubicle (Frankfurt):

Knowledge-Base (116k+ Rechtsquellen)
Verfügbar via REST-API
Erhält nur generische Rechtsfragen
Nie Mandanten-Daten

Preise

Sovereign-Tarif.

Einmaliges Setup + Monats-Pauschale. Hardware kauft die Kanzlei separat (wir empfehlen Lieferanten).

Lite

Llama-8B · Einstiegs-GPU

Einstieg für kleine Kanzleien (1-3 Anwälte).

2.900 €Setup

+ 299 €/Mo

Cubicle-Pauschale (Llama-Pflege + Knowledge-API + Maintenance)
+ Server-Miete im DE-RZ (~250 €/Mo, separat)
Total ~549 €/Mo

Cubicle-Stack vorinstalliert
3.000 Knowledge-Queries/Mo
Lokale LLM-Tokens unbegrenzt
E-Mail-Support 1 Werktag

Beratung

Standard · Empfohlen

Llama-70B · Profi-GPU

Beste Qualität für deutsche Rechtsaufgaben (5-15 Anwälte).

4.900 €Setup

+ 499 €/Mo

Cubicle-Pauschale (Llama-70B-Pflege + Knowledge-API + Maintenance)
+ Server-Miete im DE-RZ (~900 €/Mo, separat)
Total ~1.399 €/Mo

Cubicle-Stack + Llama-3.1-70B AWQ
15.000 Knowledge-Queries/Mo
Lokale LLM-Tokens unbegrenzt
Eigene Domain + Branding
Audit-Log + ISAE-3402-Template
Quartalsweise Modell-Updates

Beratung anfragen

Pro

Hochverfügbar + Fine-Tuning

Große Kanzleien (20+ Anwälte), 24/7-Anforderungen.

7.900 €Setup

+ 890 €/Mo

Cubicle-Pauschale (alles + 24/7-Support + Fine-Tuning)
+ Server-Miete im DE-RZ (~900 €/Mo, ggf. 2× redundant)
Total ~1.790 €/Mo

Alles aus Standard
50.000 Knowledge-Queries/Mo
Fine-Tuning auf eigene Texte
Redundante GPU optional
24/7-Support + Account-Manager

Beratung

Was die Cubicle-Pauschale enthält

Llama-Modell-Pflege:
Wir installieren, testen, signen und aktualisieren das Sprachmodell quartalsweise.

Knowledge-API-Zugriff:
Volltext-Suche in 116k+ deutschen Rechtsquellen, täglich aktualisiert.

Cubicle-Stack-Maintenance:
Updates, Security-Patches, Docker-Pflege via SSH (mit AVV).

Support + Compliance-Hilfe:
E-Mail-Support, AVV-Mustertexte, ISAE-3402-Templates, Berufsrechts-Beratung.

Den Server stellen wir in einem zertifizierten deutschen Rechenzentrum bereit (ISO 27001). Monatlich kündbar, keine Hardware-Investition.
Add-on: +5.000 Knowledge-Queries = 39 €/Mo · 24/7-Support (Standard-Tier) = +199 €/Mo

FAQ

Häufige Fragen.

Llama-3.1-70B von Meta ist Open-Source, hat die mit Abstand beste deutsche Sprachqualität unter den Open-Source-LLMs (auf Augenhöhe mit GPT-4 in vielen juristischen Aufgaben) und läuft auf einer einzigen A100-GPU. Alternativen wie Aleph Alpha Pharia oder Mistral-Large können bei Bedarf installiert werden — das ist Teil der Konfigurations-Beratung im Setup-Prozess.

Ja. Fine-Tuning auf Ihrer eigenen Mandantenkommunikation (z.B. Schriftsatz-Stil, kanzleispezifische Formulierungen) ist möglich — als Add-on im ersten Setup oder später. Kosten je nach Datenmenge typischerweise 3.500-8.000 € einmalig. Wichtig: Wir empfehlen das erst nach 6 Monaten Produktiv-Nutzung, weil die Standard-Llama-Qualität für die meisten Use-Cases schon ausreicht.

Das Rechenzentrum garantiert 99,9% Verfügbarkeit (redundante Stromversorgung, USV, Klimatisierung). Bei Hardware-Defekt erfolgt der Austausch i.d.R. innerhalb 4 Stunden. Für Pro-Tier können Sie einen zweiten Server als Failover bereitstellen — Cubicle synchronisiert dann beide. Alternativ: optionaler Cloud-LLM-Fallback (mit PII-Anonymisierung wie bei Inhouse) bei längeren Ausfällen.

Nein. Wir stellen den Server bereit, installieren und warten alles via SSH. Die Kanzlei muss nichts physisch tun — keine Server-Aufstellung, kein Rack, keine Hardware-Pflege. Bei größeren Kanzleien (>20 Berater) empfehlen wir einen technischen Ansprechpartner für Wartungs-Koordination.

Nein. Mandanten-Daten bleiben ausschließlich auf Ihrem Server. Cubicle wird nur für generische Rechtsfragen kontaktiert — z.B. „Was sagt § 280 BGB zu Schadensersatz?". Diese Fragen enthalten keine Mandanten-Information. Cubicle liefert Snippets aus 116k+ kuratierten Rechtsquellen zurück, das lokale LLM kombiniert sie mit Ihren Akten-Daten. Audit-Log auf Ihrem Server protokolliert jede Knowledge-API-Anfrage transparent.

Ja, für die Maintenance-Tätigkeit (Updates, Patches, Konfiguration via SSH). Unser AVV ist nach Berufsrechts-Standard formuliert (mit Bezug auf § 203 StGB / § 57 StBerG / § 43 WPO) und wird vor Vertragsabschluss vorgelegt. Im Unterschied zu Cloud/Inhouse fließen aber bei der Mandanten-Bearbeitung KEINE Daten zu uns — der AVV deckt nur die Maintenance ab.

Typisch 3-5 Werktage: Tag 1 stellen wir den Server bereit, Tag 1-2 installieren wir den Cubicle-Stack inkl. Llama-Modell via SSH (4-6h), Tag 3 RAG-Indexing Ihrer Mandate-Bestände, Tag 4-5 Schulung + Go-Live. Bei kleinerem Lite-Tier sogar in 1-2 Werktagen möglich.

Anfragen

Sprechen wir über Ihre Konfiguration.

Wir antworten innerhalb von einem Werktag mit Terminvorschlägen für ein 30-Min-Beratungsgespräch. Im Gespräch klären wir Hardware-Anforderungen, Zeitplan und individuelles Angebot.

Danke! Ihre Anfrage ist eingegangen. Wir melden uns innerhalb von einem Werktag mit Terminvorschlägen.

Es gab ein Problem. Bitte versuchen Sie es nochmal oder schreiben Sie uns direkt an inhouse@cubicle.legal.

Name *

Kanzlei *

E-Mail *

Telefon

Anzahl Berater

Zeitlicher Rahmen

Mandate-Kontext / spezielle Anforderungen

Mit dem Absenden willigen Sie ein, dass wir Ihre Daten zur Bearbeitung Ihrer Anfrage speichern. Details siehe Datenschutzerklärung.