GitHub veröffentlicht mehrsprachigen Repository-Datensatz mit über 40 Millionen Repositories_Weltnachrichten

GitHub veröffentlicht mehrsprachigen Repository-Datensatz mit über 40 Millionen Repositories

2026-06-16 09:38

Merken

de.wedoany.com-Bericht: GitHub hat den GitHub Multilingual Repositories Dataset (mehrsprachigen Repository-Datensatz) veröffentlicht. Dieser Repository-Metadatensatz soll Forschern und Entwicklern helfen, öffentliche GitHub-Repositories mit nicht-englischen natürlichen Sprachinhalten zu entdecken. Bei der Erstellung des Datensatzes zeigte sich, dass die Verteilung verschiedener Sprachen in READMEs, Issues und Pull Requests unterschiedlich ist: Koreanisch ist die häufigste nicht-englische Sprache in Issue-Texten, belegt jedoch in READMEs nur den fünften Platz; Portugiesisch führt bei nicht-englischen READMEs mit über 3 Millionen betroffenen Repositories. Da KI bei der Softwareentwicklung eine immer wichtigere Rolle spielt, sind mehrsprachige Entwicklerinhalte wichtiger denn je. Der Datensatz ist nun unter der CC0-1.0-Lizenz auf GitHub verfügbar und erfüllt damit das Versprechen von GitHub aus dem Jahr 2025 im Rahmen der Microsoft European Digital Commitments, mehrsprachige Daten leichter zugänglich zu machen, auch für Open-Source-KI-Entwickler.

Der Datensatz ist kein Dump von Repository-Inhalten, sondern ein Metadatensatz mit über 80 Millionen klassifizierten Einträgen aus über 40 Millionen Repositories. Für jedes öffentliche Repository werden folgende Informationen bereitgestellt: Sprachklassifikationen für README, das meistkommentierte Issue und den meistkommentierten Pull Request, jeweils basierend auf den ersten 150 Zeichen als Eingabeprobe, wobei Texte mit weniger als 20 Zeichen ausgeschlossen wurden; Klassifikationsergebnisse von fastText, gcld3 und lingua-py für jede Textquelle, jeweils mit Konfidenzwerten, wobei der Datensatz nur Klassifikationen mit einer Konfidenz größer als 0,5 enthält; Repository-Metadaten wie Erstellungszeitstempel, Speichernutzung, Sternanzahl, Fork-Anzahl, primäre Programmiersprache, SPDX-Lizenz, Issue- und Pull-Request-Zählungen sowie Snapshot-Datum. GitHub hat bewusst darauf verzichtet, die drei Klassifikatoren zu einem einzigen Label zusammenzuführen, da sich die Klassifikatoren in Abdeckung und Konfidenzkalibrierung unterscheiden, insbesondere bei ressourcenarmen Sprachen. Durch die Offenlegung aller drei Klassifikationsergebnisse können Nutzer selbst über den erforderlichen Strengegrad entscheiden.

Der Datensatz kann verwendet werden, um Repositories zu finden, die möglicherweise Entwicklerdokumentation oder Zusammenarbeit in bestimmten Sprachen enthalten, die Nutzung von Issues, Pull Requests und READMEs durch nicht-englische Entwickler-Communities zu untersuchen, Evaluierungssets für KI-Codierungstools, Dokumentationsgeneratoren oder Review-Assistenten zu erstellen (die in mehreren Sprachen gut funktionieren müssen), Entscheidungsträger zu ermutigen, Daten zur mehrsprachigen Vielfalt von Entwicklern zu nutzen, um Argumente für eine größere Sprachabdeckung zu untermauern, und die Repräsentation europäischer und anderer unterrepräsentierter Sprachen in Open Source zu messen. Die Spracherkennung in Software-Repositories ist schwierig, da Repository-Texte oft kurz sind und Abzeichen, Vorlagen, Installationsbefehle, Codefragmente, Benutzernamen oder gemischte Sprachinhalte enthalten können; eine Stichprobe von 150 Zeichen repräsentiert möglicherweise nicht das gesamte Repository. Daher sollte der Datensatz nicht als Ground-Truth-Benchmark für Spracherkennung betrachtet werden, sondern als transparentes Entdeckungswerkzeug. Der Datensatz sollte auch nicht verwendet werden, um sensible Attribute von Repository-Besitzern, Mitwirkenden oder Communities abzuleiten; diese Signale sind Repository-Metadaten, keine personenbezogenen Attribute.

Viele europäische Sprachen sind in Online-Texten, die zum Aufbau und zur Bewertung von KI-Systemen verwendet werden, weiterhin unterrepräsentiert, was dazu führen kann, dass KI-Tools für bestimmte Entwickler, Sprachen und Communities gut funktionieren, während andere zurückgelassen werden. Offene Daten helfen, diese Lücke zu schließen. Der Datensatz wurde erstellt, weil Entwicklerinhalte sich von allgemeinen Webtexten unterscheiden; READMEs, Issues und Pull Requests enthalten die Sprache der Softwarezusammenarbeit, wie Installationsanleitungen, Fehlerberichte, Funktionsanfragen, Überprüfungskommentare und Community-Richtlinien. Diese Kontexte helfen beim Aufbau von KI-Systemen, die besser verstehen, wie Entwickler tatsächlich arbeiten. Indem mehrsprachige Entwicklerinhalte leichter auffindbar und analysierbar gemacht werden, bietet der Datensatz Forschern, Open-Source-Entwicklern und Modellbauern Werkzeuge zur Untersuchung der Sprachrepräsentation in der Softwareentwicklung, hilft, Lücken zu identifizieren, unterstützt bessere Evaluierungen und schafft inklusivere KI-Tools für Entwickler in Europa und darüber hinaus.

GitHub wird am 16. Juni im Open Innovation Dialogue Hub in Straßburg über diesen Datensatz und die breitere Bedeutung offener Daten für mehrsprachige KI diskutieren. Die Veranstaltung, die vom Microsoft Open Innovation Center, dem Council of Europe und GitHub gemeinsam organisiert wird, bringt politische Entscheidungsträger, Forscher, Kultureinrichtungen und Open-Innovation-Führungskräfte zusammen, um KI, Sprachvielfalt, kulturelles Erbe und offene Daten zu erörtern.

Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.