LLMs können nur mit begrenzter Komplexität umgehen
LLMs können nur eine bestimmte Menge an Daten (sogenannte Token) empfangen und zurückgeben. Token sind Texteinheiten, die Wörter, Phrasen oder andere Textteile darstellen. Token-Limits beziehen sich auf die maximale Anzahl von Tokens, die das Modell gleichzeitig verarbeiten kann.
Die an ein Modell gesendete Datenmenge wirkt sich auf seine Leistung aus. Daher berechnen APIs für den Zugriff auf LLMS normalerweise eine Gebühr basierend auf der Anzahl der an die API gesendeten Token.
Beispiele für Token-Limits bekannter LLMs sind:
- GPT-3.5 Turbo: 4096 tokens
- GPT-4: 8192 tokens
- GPT-4 32k: 32,768 tokens
Bei komplexen Gesprächen kann es notwendig sein, das Gespräch in mehrere Teilgespräche zu unterteilen.
Ein gutes Beispiel wäre ein touristischer Empfehlungschat. Im ersten Teil des Gesprächs müsste der Chat-Assistent herausfinden, wohin eine Person reisen möchte und wann die Person reisen möchte. Sobald diese Informationen vorliegen, können die richtigen Ereignisse geladen und an die nächste Konversation weitergeleitet werden, um Aktivitäten zu empfehlen. Die Verwendung eines solchen Ansatzes kann dazu beitragen, weniger Token an das Modell zu senden und somit Rechenzeit und Kosten zu sparen.