top of page
AutorenbildDr.-Ing. Simonas Cerniauskas

Zwischen Chaos und Kontrolle: Qualitätsmanagement für LLM-gestützte Prozesse


Zwischen Chaos und Kontrolle: Qualitätsmanagement für LLM-gestützte Prozesse


Immer mehr Unternehmen integrieren KI, insbesondere Large Language Models (LLMs), in ihre geschäftlichen Prozesse. Doch die Frage, wo und wie LLMs sinnvoll eingesetzt werden und wie ihre Qualität und Leistung zuverlässig bewertet wird stellt Führungskräfte vor eine komplexe Herausforderung. In diesem Artikel beleuchte ich die wichtigsten Punkte, um fundierte Entscheidungen über den Einsatz von LLMs zu treffen und deren Qualität mithilfe von Qualitätsmanagement für LLM zu bewerten.


Woher weiß ich, wo LLMs eingesetzt werden sollten?


Für den im Rahmen der strategischen Überprüfung ermittelten Prozess ist es entscheidend eine technische Strategie zu entwickeln, die sowohl Kompromisse bewertet als auch den besten Weg für die notwendige Umgestaltung ermittelt.


  1. Zunächst ist der Prozess detailliert zu analysieren, um festzustellen, welche Schritte regelbasiert sind und welche Mehrdeutigkeiten und Subjektivität mit sich bringen.  

  2. Darauf folgend werden Erkenntnisse aus der Fachabteilung über die relevanten Regeln eingeholt, und der Fokus auf Standard-NLP, REGEX und andere regelbasierte Ansätze gelegt, welche die leicht zu überprüfenden Schritte des Prozesses abdecken.

  3. Abschließend wird der Grad der Mehrdeutigkeit und der verfügbaren Daten bewertet, um festzustellen, ob ein LLM oder möglicherweise ein kleineres Modell zur Lösung des Problems ausreichen.


Wie bewerte ich ein LLM?


Versucht man einen hochgradig mehrdeutigen und subjektiven Schritt in einem Prozess mit einem LLM zu lösen, stellt sich die Frage: Wie lässt sich die Leistung bewerten? Eine Möglichkeit besteht darin, im Anschluss an den 2. Schritt einen Domänen-Experten zu bitten, Hunderte von Outpus zu verifizieren. Eine effizientere Alternative ist es jedoch einen LLM zu verwenden. Das LLM wird selbst zur Bewertungsinstanz – ein Ansatz, den wir als „LLM-as-a-Judge“ bezeichnen. Die Verwendung des LLM in dieser Funktion ist eine ziemlich intuitive und zukunftssichere Funktion, die eine Vielzahl von Aufgaben bewältigen kann. Die Verwendung von Bewertungsskalen in Kombination mit dem LLM sorgt für mehr Konsistenz und ermöglicht es dem LLM, ein breiteres Spektrum an Beurteilungsszenarien abzudecken.


LLM-as-a-Judge kann auf drei Arten verwendet werden:


  • paarweiser Vergleich,

  • Bewertung von Einzelantworten (Scoring)

  • oder referenzgeführte Bewertung.


Im ersten Fall, dem paarweisen Vergleich, geben wir dem LLM zwei Ergebnisse, die wir vergleichen wollen, und fragen, welches besser ist. Bei der Bewertung von Einzelantworten, dem Scoring, zeigen wir nur ein Beispiel und fragen nach einer Bewertung. Im letzten Fall, der referenzgeführten Bewertung, geben wir ein Referenzbeispiel vor und bitten das LLM, die Antwort auszuwählen, die dem Beispiel am nächsten kommt.


Voreingenommenheit von LLMs: Kann ein LLM sich selbst fair bewerten?


Natürlich könnte man jetzt einwenden, dass wir das Problem nur verlagern, da jetzt der Bewertungs-LLM selbst bewertet und kalibriert werden muss! Dies ist tatsächlich eine Herausforderung, die nicht unbeachtet bleiben darf. Und noch ein weiteres Problem mit LLM-Judges gilt es zu thematisieren: LLMs neigen dazu, von ihnen generierte Inhalte zu bevorzugen. Das ist besonders oft der Fall, wenn es um domänspezifische Aufgabenstellungen geht, die eine spezielle Struktur bzw. Sprache benötigen, die LLMs nicht kennen und daher eher durchschnittliche Antworten anderer LLMs bevorzugen.


Best Practices für die Bewertung von LLMs


Um die zuvor genannten Herausforderungen zu lösen, haben wir eine Reihe Best Practices für die subjektive Bewertung von LLMs entwickelt:


  • Verwende mehrere unterschiedliche Bewertungs-LLM

  • Randomisiere die Positionen der Modellantworten

  • Biete mehrere informative Beispiele an, um die Bewertung eines LLM-as-a-Judge besser zu kalibrieren

  • Sammle Expertendaten zum Finetuning des Bewertungs-LLM für fachspezifische Aufgaben

  • Verwende Personas, um unterschiedliche Nutzerpräferenzen zu berücksichtigen

  • Nutze ELO-Scores, um paarweise Vergleiche der Modelle objektiv zu bewerten

  • Teste mehrere Ausgaben derselben Datenpipeline, um die langfristige Stabilität des Ergebnisses sicherzustellen

 

Nach meiner Erfahrung tragen diese Best Practices wesentlich dazu bei, die Leistung und Objektivität der Bewertungsinstanz zu optimieren und verlässliche Prozesse zu gewährleisten.


Du möchtest erfahren, wie du die Bewertung von LLMs gezielt in dein KI-Projekt integrieren kannst, um nachhaltig bessere Ergebnisse zu erzielen? Dann buche einen kostenlosen Beratungstermin.





Comments


bottom of page