de.wedoany.com-Bericht: Microsoft hat am Dienstag das Open-Source-Framework ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing) veröffentlicht, das darauf abzielt, die Test- und Bewertungsprozesse für KI-Anwendungsverhalten zu vereinfachen.
Das Framework nutzt Künstliche Intelligenz-Technologie, um hochrangige, in natürlicher Sprache formulierte Beschreibungen von Zielen, Strategien oder erwartetem Verhalten in ausführbare und bewertbare Testfälle umzuwandeln. ASSERT nimmt umgangssprachliche Beschreibungen des erwarteten Verhaltens und der Strategien von KI-Modellen entgegen, wandelt sie in eine strukturierte Menge akzeptabler und inakzeptabler Verhaltensweisen um, generiert Problemszenarien und Testfälle, führt diese auf dem Zielsystem aus und bewertet die Ergebnisse. Das Framework kann zudem die von KI-Systemen eingeschlagenen Pfade aufzeichnen, einschließlich Zwischenschritten und Tool-Aufrufen, sodass Entwickler die Fehlerstellen überprüfen können.
Entwickler können zusätzlich Systemkontext, Tools und Randbedingungen bereitstellen, um den Bewertungsumfang anzupassen. Beispielsweise kann ein Entwickler festlegen, dass ein Dokumenten-Recherche-KI-Agent keine E-Mails an externe Personen des Unternehmens senden, vertrauliche Informationen auf die oberste Führungsebene (C-Level) beschränken und unter Berücksichtigung des vorherigen Kontexts präzise Zusammenfassungen erstellen soll. ASSERT wird anhand dieser Regeln Testfälle generieren und kontinuierlich prüfen, ob das System diese Regeln einhält.

Microsoft erklärte, dass ASSERT eine Lücke schließt, die breitere, allgemeine Bewertungen nicht abdecken können, wenn das Verhalten von KI-Modellen an den Kontext, die Richtlinien und die Tools einer Anwendung oder eines Produkts angepasst werden muss. „Eine Sache, die wir gelernt haben, ist, dass Bewertungen für fundierte Entscheidungen absolut entscheidend sind“, sagte Sarah Bird, Chief Product Officer für verantwortungsvolle KI bei Microsoft. „Denn ohne das Verhalten des KI-Systems zu kennen, ist es schwierig zu wissen, ob es den Standards der Organisation entspricht … Wir haben festgestellt, dass man, wenn man wirklich ein vertrauenswürdiges System haben möchte, mehr anwendungsspezifische Dimensionen bewerten sollte.“ Bird erklärte, dass ASSERT während der Systemerstellung, nach der Bereitstellung und sogar bei der kontinuierlichen Überwachung für Bewertungen eingesetzt werden kann.
Diese Veröffentlichung erfolgt zu einem Zeitpunkt, an dem die Bewertungsfähigkeiten der KI-Branche schrittweise verbessert werden. Mit zunehmender Modellleistungsfähigkeit konzentrieren sich Forscher auf wiederholbare Tests und Regressionsprüfungen. Institutionen wie HELM der Stanford University, AILuminate von MLCommons und das Bewertungsteam METR haben Benchmarks eingeführt, um das Verhalten von Modellen unter verschiedenen Bedingungen zu messen.
Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.
E-Mail: news@wedoany.com









