In der one.intelligence Platform können Wissensspeicher erstellt und Sprachmodelle mit diesen verknüpft werden, um präzise und kontextbezogene Antworten zu erhalten. Dieser Artikel beschreibt den Prozess des Dokumentenuploads, der Verarbeitung und wie die Modelle auf diese Daten zugreifen.
Für die Verarbeitung durch unsere Sprachmodelle ist grundsätzlich das Markdown-Format erforderlich. Es können einerseits Markdown-Dateien direkt in einen Wissensspeicher hochgeladen werden. Zusätzlich unterstützen wir eine Vielzahl proprietärer Dateiformate, um maximale Flexibilität zu bieten:
Diese Formate werden automatisch für die weitere Verarbeitung umgewandelt.
2. Verarbeitungspipeline (RAG)
Damit die Inhalte der Dokumente für die Sprachmodelle verständlich und nutzbar sind, durchlaufen sie eine standardisierte Verarbeitungspipeline, die auch als Retrieval-Augmented Generation (RAG) bekannt ist. Dieser gesamte Prozess findet aus Datenschutzgründen sicher und datenschutzkonform innerhalb de one.intelligence platform und somit auf unserem eigenen Server statt.
Segmentierung und Konvertierung:
Dokumente, die neben reinem Text auch komplexe Formatierungen, Bilder oder Grafiken enthalten, werden in einzelne Segmente aufgeteilt.
Text:
Reine Textinhalte werden direkt in das Markdown-Format umgewandelt.
Bilder und Grafiken:
Visuelle Elemente wie Bilder und Grafiken werden mithilfe einer OCR-Engine (Optical Character Recognition) von Mistral analysiert. Der erkannte Text wird extrahiert und ebenfalls in Markdown umgewandelt
Vektorisierung:
Die resultierende Markdown-Datei wird durch ein sogenanntes Embedding-Modell verarbeitet. Dieses Modell wandelt den Text in einen numerischen Vektor (Binärcode) um.
Speicherung:
Diese Vektoren werden in einer Vektor-Datenbank gespeichert, wo sie für schnelle und effiziente Abfragen durch die Sprachmodelle bereitstehen.
3. Datenabruf durch Sprachmodelle (Retrieval)
Wenn Sie eine Anfrage (Prompt) an ein Sprachmodell stellen, das mit einem Wissensspeicher verknüpft ist, greift das Modell auf die Vektor-Datenbank zu, um die relevantesten Wissenselemente für die Beantwortung Ihrer Frage zu finden. Hierbei gibt es zwei Methoden:
Segmented Retrieval (Standardeinstellung):
Das Modell verwendet nur die relevantesten Auszüge oder Segmente aus den Dokumenten, um die Antwort zu generieren. Dies ist die effizienteste und schnellste Methode.
Ganzes Dokument:
Das Modell berücksichtigt den gesamten Inhalt eines Dokuments für die Antwort. Dies kann zu detaillierteren Ergebnissen führen, benötigt jedoch mehr Verarbeitungszeit und ist durch das Kontextfenster (Input-Token-Limit) des jeweiligen Modells begrenzt.
Sie können diese Einstellung individuell in den Modelleinstellungen anpassen.
Wenn Sie ein Dokument direkt über das Chatfenster hochladen, wird für die Beantwortung Ihrer Fragen standardmäßig immer das gesamte Dokument berücksichtigt (nicht Segmented Retrieval).
Der beschriebene Prozess wird im Rahmen der nachfolgenden Grafik visualisiert:
4. Token-Limits der verfügbaren Sprachmodelle
Input‑ und Output‑Tokens sind grundlegende Bausteine dafür, wie moderne KI‑Modelle Sprache verarbeiten. Ein Token ist dabei die kleinste Verarbeitungseinheit – das kann ein ganzes Wort sein, ein Wortteil, ein Satzzeichen oder sogar ein einzelner Buchstabe, abhängig vom Modell und seiner Tokenisierungsmethode.
- Input‑Tokens sind die Tokens, die man dem Modell zur Verfügung stellt, also der gesamte Text, der als Prompt eingegeben wird: Fragen, Anweisungen, Beispieldaten oder ganze Dokumente. Das Input‑Tokenlimit legt fest, wie groß der Kontext sein darf, den ein Modell auf einmal verarbeiten kann. Je größer dieses Limit ist, desto umfangreicher dürfen die Eingaben ausfallen – was wichtig ist, wenn man lange Texte analysieren, komplexe Aufgaben formulieren oder große Dokumente verarbeiten möchte.
- Output‑Tokens hingegen sind die Tokens, die das Modell als Antwort generiert. Das Output‑Limit begrenzt somit die maximale Länge der KI‑Antwort. Ein höheres Output‑Limit ermöglicht ausführlichere Erklärungen, längere Zusammenfassungen, umfangreiche Berichte oder detaillierte Ausgaben.
Für die Arbeit mit KI sind beide Werte entscheidend: Das Input‑Limit bestimmt, wie viel Kontext ein Modell berücksichtigen kann, während das Output‑Limit festlegt, wie umfangreich die resultierende Antwort ausfallen darf. Modelle mit besonders hohen Grenzen eignen sich vor allem für anspruchsvolle Szenarien, in denen große Mengen an Text verarbeitet und detaillierte Ergebnisse benötigt werden. Die folgende Visualisierung gibt einen Überblick über die Limits der in der Plattform verfügbaren Modelle.

Open-Source-Modelle, welche wir auf unserem eigenen Server hosten, haben technisch kein vordefiniertes Output-Limit.