Photo of space ship in a theme park
Einführung große prachmodelle (Large Language Models - LLMs)

Wie LLMs funktionieren

Große Sprachmodelle sind eine Art KI-System (künstliche Intelligenz), das mit Sprache arbeitet und speziell für die Bearbeitung sprachbezogener Aufgaben entwickelt wurde. LLMs sind eine Teilmenge der generativen KI und konzentrieren sich auf die Generierung und Verarbeitung textbasierter Inhalte.

Dabei handelt es sich um statistische Anwendungen, die den Ausgabetext basierend auf dem Eingabetext vorhersagen.

Graphic showing the input and output of a large language model

Diese Anwendungen sind mittlerweile so leistungsfähig, dass sich die Antworten auf Texteingaben wie ein echtes Gespräch anfühlen.

Wenn man nicht mehr sagen kann, ob man mit einem Menschen oder einer Software spricht, dann gilt die Anwendung als intelligent (Turing test).

Wie LLMs erstellt werden

KI-Anwendungen wie ChatGPT werden als große Sprachmodelle (Large Language Models - LLMs) bezeichnet, da sie auf einer riesigen Datenmenge trainiert werden und Millionen oder sogar Milliarden von Parametern enthalten.

Stellen Sie sich ein LLM als eine Software vor, die „sprechen“ kann (grammatikalisch korrekte Sätze erstellen, die mit hoher Wahrscheinlichkeit einen Sinn ergeben).

Natürlich kann es nur über das sprechen, was es „weiß“ (womit es trainiert wurde).

Graphic that shows how you train Large Language Models

LLMs sind auf die Trainingsdaten beschränkt

LLMs können nur über Daten sprechen, auf denen sie trainiert wurden.

Dies kann umgangen werden, indem die Daten, über die Sie sprechen möchten, vor dem Gespräch an den LLM übergeben werden (In-Context-Lernen).

Das nennt man Pre-Promting. Durch die Gestaltung und Optimierung von Textaufforderungen, die dem LLM vor dem Gespräch gegeben werden, wird sichergestellt, dass die Antworten den gewünschten Kriterien für das Gespräch entsprechen. Dieser als Prompt Engineering bezeichnete Prozess ist die gebräuchlichste Methode zur Maximierung des Nutzens von LLMs.

Normalerweise übergeben Sie Anweisungen (wie der LLM reagieren soll) und Daten (worüber der LLM sprechen soll) als Vorab-Eingabeaufforderung.

Graphic illustrating how a Large Language Model is pre-promted with Instructions and Data

LLMs können nur mit begrenzter Komplexität umgehen

LLMs können nur eine bestimmte Menge an Daten (sogenannte Token) empfangen und zurückgeben. Token sind Texteinheiten, die Wörter, Phrasen oder andere Textteile darstellen. Token-Limits beziehen sich auf die maximale Anzahl von Tokens, die das Modell gleichzeitig verarbeiten kann.

Die an ein Modell gesendete Datenmenge wirkt sich auf seine Leistung aus. Daher berechnen APIs für den Zugriff auf LLMS normalerweise eine Gebühr basierend auf der Anzahl der an die API gesendeten Token.

Beispiele für Token-Limits bekannter LLMs sind:

  • GPT-3.5 Turbo: 4096 tokens
  • GPT-4: 8192 tokens
  • GPT-4 32k: 32,768 tokens

Bei komplexen Gesprächen kann es notwendig sein, das Gespräch in mehrere Teilgespräche zu unterteilen.

Ein gutes Beispiel wäre ein touristischer Empfehlungschat. Im ersten Teil des Gesprächs müsste der Chat-Assistent herausfinden, wohin eine Person reisen möchte und wann die Person reisen möchte. Sobald diese Informationen vorliegen, können die richtigen Ereignisse geladen und an die nächste Konversation weitergeleitet werden, um Aktivitäten zu empfehlen. Die Verwendung eines solchen Ansatzes kann dazu beitragen, weniger Token an das Modell zu senden und somit Rechenzeit und Kosten zu sparen.

Graphic showing how multiple LLMs can be chainded