Die richtige Chunk-Größe und Strategie entscheidet über die RAG-Qualität. Praktische Tipps für verschiedene Dokumenttypen.

CLOUD RAG | Verdacloud

Was ist Chunking und warum ist es wichtig?

Chunking ist der Prozess, große Dokumente in kleinere, sinnvolle Abschnitte zu zerlegen. Diese Chunks werden einzeln in die Vektordatenbank eingebettet. Die Qualität des Chunkings bestimmt maßgeblich die Qualität der RAG-Antworten.

Feste vs. semantische Chunks

Feste Chunks (z.B. alle 500 Token) sind einfach zu implementieren, zerschneiden aber oft Sinnzusammenhänge. Semantische Chunks orientieren sich an Absätzen, Überschriften oder Themenblöcken und bewahren den Kontext besser. Für Unternehmens-RAG empfehlen wir semantisches Chunking.

Optimale Chunk-Größen nach Dokumenttyp

Verträge und Rechtsdokumente: 300-500 Token (präzise Klauseln). Technische Handbücher: 500-800 Token (Abschnitte mit Kontext). Berichte und Präsentationen: 400-600 Token (Folien/Abschnitte). E-Mails: Gesamte E-Mail als ein Chunk. FAQ-Dokumente: Frage-Antwort-Paare als einzelne Chunks.

Overlap: Der unterschätzte Faktor

Ein Overlap von 10-20% zwischen aufeinanderfolgenden Chunks stellt sicher, dass Informationen an Chunk-Grenzen nicht verloren gehen. Beispiel: Bei 500 Token Chunks und 100 Token Overlap enthält Chunk 2 die letzten 100 Token von Chunk 1.

Metadaten-Anreicherung

Jeder Chunk sollte mit Metadaten angereichert werden: Quelldokument, Abschnitt/Kapitel, Erstelldatum, Autor, Dokumenttyp. Diese Metadaten ermöglichen gezielte Filterung bei der Suche und verbessern die Antwortqualität erheblich.

Interesse geweckt?

Lassen Sie uns gemeinsam herausfinden, wie wir Ihnen helfen können.

Jetzt Beratung anfragen