Zusammenfassung
Rüsten auch Sie Ihre Mitarbeiter mit Fleet aus.
Konzentrieren Sie sich auf Ihr Wachstum – Die All-in-One-Lösung von Fleet unterstützt Sie dabei.
Implementierungsansätze für KI-Wissenssysteme
Bei der Integration von internem Wissen in KI-Anwendungen stechen drei Hauptansätze hervor:
- Prompt-Kontext – Sämtliche relevante Informationen werden in das Kontextfenster geladen und mittels Prompt-Caching genutzt.
- Retrieval-Augmented Generation (RAG) – Durch Texteinbettungen werden bei jeder Anfrage nur die relevantesten Informationen abgerufen.
- Fine-Tuning – Ein Foundation-Modell wird darauf trainiert, besser auf spezifische Anforderungen abzustimmen.
Jeder Ansatz hat eigene Stärken und Kompromisse:
- Prompt-Kontext ist am einfachsten umzusetzen, benötigt keine zusätzliche Infrastruktur und profitiert von immer größeren Kontextfenstern (mittlerweile Hunderttausende von Token). Allerdings kann es mit großen Eingaben teuer werden und unter Kontextüberlauf leiden.
- RAG reduziert den Tokenbedarf, da nur relevante Ausschnitte abgerufen werden – besonders effizient für große Wissensbasen. Es erfordert jedoch die Verwaltung einer Embedding-Datenbank und das Feintuning der Suchmechanismen.
- Fine-Tuning ermöglicht die beste Anpassung, verbessert die Antwortqualität und Effizienz. Allerdings erfordert es beträchtliche Ressourcen, Zeit und stetige Modell-Updates.
Warum wir Prompt-Kontext gewählt haben
Für unsere aktuellen Anforderungen war der Prompt-Kontext die praktischste Wahl:
- Er erlaubt einen schnellen Entwicklungszyklus ohne zusätzliche Infrastruktur.
- Große Kontextfenster (100k+ Token) reichen für unsere kleine Wissensbasis völlig aus.
- Prompt-Caching hilft, Latenzzeiten und Kosten zu reduzieren.
Prompt-Caching: Den Prompt für Effizienz strukturieren
Eine wichtige Erkenntnis war, dass ohne richtiges Prompt-Caching die Auswirkungen erheblich sind:
- Kosteneffekt: Jede Anfrage würde das gesamte Kontextfenster (potenziell Zehntausende oder Hunderttausende Tokens) an den KI-Anbieter schicken und so die API-Kosten drastisch erhöhen. Für Anwendungen mit hohem Anfragevolumen kann das schnell unerschwinglich werden.
- Latenzprobleme: Große Prompts bei jedem Request komplett neu zu verarbeiten, führt zu spürbaren Verzögerungen – oft mehrere Sekunden pro Anfrage – und damit zu einer schlechten Nutzererfahrung.
Fast jeder KI-Anbieter bietet eine Möglichkeit zum Caching von Prompts, aber wir mussten lernen, den Prompt richtig zu strukturieren. OpenAI dokumentiert es treffend:
„Cache-Treffer sind nur für exakte Präfix-Übereinstimmungen innerhalb eines Prompts möglich. Um vom Caching zu profitieren, platzieren Sie statische Inhalte wie Anweisungen und Beispiele am Anfang Ihres Prompts und veränderliche Inhalte, beispielsweise benutzerspezifische Informationen, am Ende. Das gilt auch für Bilder und Tools, die zwischen Anfragen identisch sein müssen.“
Das bedeutete, dass wir alles Dynamische – wie Benutzeranfragen oder sitzungsabhängige Daten – ans Ende des Prompts legen mussten, während statische Anweisungen und Beispiele an den Anfang kamen. Andernfalls würden selbst kleine Änderungen das Caching verhindern – was zu unnötigen Neuberechnungen und Mehrkosten führen würde.
Gerade für kontextstarke Anwendungen wie unsere war effektives Prompt-Caching nicht nur Optimierung, sondern entscheidend für die wirtschaftliche und technische Machbarkeit der Lösung.
Riesige Kontextfenster: Ein Game-Changer
Ein weiterer Grund, warum wir beim Prompt-Kontext geblieben sind, ist die stetig wachsende Größe der Kontextfenster. Die neuesten Modelle von OpenAI unterstützen inzwischen über 128.000 Token – mehr als wir für unsere gesamte Wissensbasis benötigen. Googles Gemini-Modelle gehen sogar noch weiter und erreichen bis zu 2 Millionen Token – das reicht, um mehrere Bücher in einem einzigen Prompt unterzubringen.
Mit diesen Verbesserungen wird das Hauptproblem des Prompt-Kontexts – Platzmangel – zunehmend irrelevant.
Ausblick: Ein hybrider Ansatz
Obwohl der Prompt-Kontext für uns aktuell sehr gut funktioniert, wissen wir, dass er nicht ewig skalieren wird. Sobald unsere Wissensbasis wächst, werden wir voraussichtlich RAG zur Effizienzsteigerung und Fine-Tuning für spezialisiertere Antworten kombinieren. Aber für den Moment ist die Einfachheit der richtige Weg.