de.wedoany.com-Bericht: Microsoft hat kürzlich ein Open-Source-KI-Bewertungsframework veröffentlicht, das darauf abzielt, Anforderungen in natürlicher Sprache in ausführbare Tests umzuwandeln, um die Fähigkeiten von Unternehmen im Bereich der Künstlichen Intelligenz-Governance zu stärken. Das Framework mit dem Namen ASSERT (Adaptive Specification-Driven Scoring for Evaluation and Regression Testing) kann automatisch Bewertungsszenarien, Datensätze, Metriken und Scorecards auf der Grundlage schriftlicher Spezifikationen, Produktanforderungen und Governance-Dokumente generieren. In einem Blogbeitrag zur Veröffentlichung des Frameworks erklärte Microsoft, dass viele Organisationen Schwierigkeiten haben, das Verhalten ihrer Agenten vor der Produktionseinführung systematisch zu validieren.

Agenten können auf schwer erkennbare Weise versagen, beispielsweise durch Abweichungen von festgelegten Richtlinien, unsichere Ausgaben in Grenzfällen oder Unterschiede im Verhalten zwischen Test- und Produktionsumgebung. Allgemeine Benchmarks können diese Fehler nicht erfassen, da sie nicht um spezifische Richtlinien, Agenten oder Anwendungsfälle herum aufgebaut sind. ASSERT erfordert keine manuelle Erstellung von Bewertungssuiten durch Entwickler, sondern wandelt schriftliche Absichten in wiederverwendbare Tests um, die in den KI-Entwicklungsprozess integriert werden können.
Mit ASSERT betritt Microsoft einen zunehmend wettbewerbsintensiven Markt für KI-Bewertungen. Auf diesem Markt sind bereits Plattformen wie LangSmith von LangChain, Braintrust, Patronus AI, Galileo, Phoenix von Arize AI und Promptfoo vertreten, die Unternehmen bei der Bewertung, Überwachung und Validierung von Large Language Model-Anwendungen unterstützen. Die Veröffentlichung erfolgt zu einem Zeitpunkt, an dem Unternehmen die Bereitstellung von KI-Agenten beschleunigen, formelle Bewertungspraktiken jedoch noch die Ausnahme und nicht die Regel sind. Gartner Senior Director Analyst Anushree Verma wies darauf hin, dass derzeit 99 % der Organisationen keine KI-Agenten vor der Produktion bewerten. Der nächste Wettbewerbsvorteil in der Branche wird weniger von Fortschritten bei Inferenzmodellen abhängen, sondern vielmehr von der Effektivität, mit der Organisationen KI-Agenten vor der Bereitstellung simulieren und stresstesten können. Gartner schätzt, dass bis 2029 in regulierten Branchen mehr als 75 % der domänenspezifischen Agenten, die nicht für die Agentensimulation ausgelegt sind, keinen Wert liefern werden.
Forrester ist der Ansicht, dass Unternehmen sich hin zur Verhaltensbewertung bewegen, die meisten Organisationen diese jedoch noch nicht als formelle Produktionsanforderung betrachten. Forrester Principal Analyst Biswajeet Mahapatra erklärte, dass Verhaltensbewertungen inkonsistent angewendet werden und nicht als formelles Produktions-Gate angesehen werden. Laut Forrester setzen bereits über 45 % der Organisationen KI-Agenten ein, weitere 25 % befinden sich in der Pilotphase, aber viele haben aufgrund unreifer Governance und begrenzter operativer Strenge Schwierigkeiten bei der Skalierung.
Microsoft gab an, dass ASSERT Large Language Models als Juroren verwendet. In internen Validierungen des Unternehmens stimmten die vom Modell generierten Bewertungen zu 80 % bis 90 % mit menschlichen Prüfern überein. Forrester Principal Analyst Biswajeet Mahapatra merkte an, dass diese Übereinstimmungsrate hilft, einen Großteil der KI-Tests zu automatisieren, aber als unabhängige Kontrollmaßnahme für Governance oder Compliance nicht ausreicht. Unternehmen sollten eine abgestufte Aufsicht einführen, bei der KI die KI in großem Maßstab bewertet, während Menschen die Aufsichtsverantwortung für risikoreiche, regulierte oder mehrdeutige Szenarien behalten. Käufer sollten auch auf Verzerrungen, Konsistenzprobleme und die übermäßige Abhängigkeit von einem einzigen Modell achten, das sowohl als Generator als auch als Evaluator fungiert.
Microsoft hat ASSERT unter der MIT Open-Source-Lizenz veröffentlicht, sodass Organisationen das Framework überprüfen, modifizieren und in ihre bestehenden KI-Entwicklungsprozesse integrieren können. Forrester Principal Analyst Biswajeet Mahapatra erklärte, dass Open Source das Risiko einer Anbieterbindung verringert und eine breite Interoperabilität über Modellökosysteme hinweg ermöglicht, aber Vertrauens- oder Interessenkonflikte nicht vollständig beseitigen kann, da der ursprüngliche Anbieter weiterhin Einfluss darauf hat, wie Bewertungskriterien, Bewertungslogik und Definitionen akzeptablen Verhaltens codiert werden. Unternehmen sollten sich nicht auf ein einziges Bewertungsframework verlassen, sondern KI-Systeme anhand mehrerer Bewertungsmethoden validieren und die Kontrolle über ihre internen Bewertungsstrategien behalten.
Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.
E-Mail: news@wedoany.com









