Russisches AIRI-Institut entwickelt neuronales Netzwerk Genatator zur Genannotation
2026-07-05 16:24
Merken

de.wedoany.com-Bericht: Wissenschaftler des AIRI-Instituts haben ein neuronales Netzwerk namens Genatator entwickelt, das anhand von DNA-Sequenzen Genkarten erstellen und Genome annotieren kann, für die keine detaillierten biologischen Daten vorliegen. Das Modell empfängt DNA-Sequenzen, bestimmt Gen-Grenzen, identifiziert Transkripttypen und rekonstruiert Strukturen, wobei es zwischen Genen, Exons, Introns und anderen Regionen unterscheidet.

Die Suche nach Genen in der DNA ist schwierig, da Gene keine universellen Start- und Stoppsignale besitzen. Ihre Grenzen hängen von der Kombination kurzer Motive ab, deren Bedeutung durch den Kontext bestimmt wird. Gene können sich überlappen und auf verschiedenen DNA-Strängen liegen.

Das neuronale Netzwerk Genatator arbeitet in mehreren Phasen. Zunächst sucht das Modell nach möglichen Transkriptionsstart- und -stoppstellen auf beiden DNA-Strängen. Anschließend prüft ein weiteres Modell, ob die Region einem Gen ähnelt. Nachdem ein Klassifikator den Transkripttyp bestimmt hat, verfeinert ein Segmentierungsmodell die Genstruktur und identifiziert Exons und Introns. Abschließend entfernt der Algorithmus fragwürdige Vorhersagen und erstellt die endgültige Annotation.

Diese Methode unterscheidet sich von herkömmlichen Werkzeugen dadurch, dass das Modell nicht nur auf vorgegebenen Regeln basiert. Herkömmliche Werkzeuge nutzen Merkmale proteinkodierender Gene wie Startcodons, Stoppcodons und Spleißsignale, schneiden jedoch bei untranslatierten Regionen und langen nichtkodierenden RNAs schlechter ab. Das neue Modell wurde auf großen Genomdatensätzen trainiert und sucht direkt nach Mustern in der DNA.

Diese Methode ist besonders für Nicht-Modellorganismen wichtig. Mensch und Maus verfügen nach jahrzehntelanger Forschung über detaillierte Annotationen, doch die meisten Organismen besitzen nur nicht annotierte Genomassemblierungen. Eine Analyse zeigt, dass von 4582 Säugetiergenomassemblierungen in der NCBI-Datenbank nur 166 annotiert sind. Genome ohne Annotation sind für die Forschung kaum nutzbar.

Das System kann zwei Genklassen identifizieren: proteinkodierende Gene und lange nichtkodierende RNA-Gene. Für beide Klassen bestimmt das System Exons und Introns; bei proteinkodierenden Genen werden zusätzlich die CDS-Region sowie die 5'-UTR- und 3'-UTR-Regionen annotiert.

Genatator wurde an Genen von Menschen und 38 Säugetierarten, darunter Walross und Elefant, trainiert. Das Modell funktioniert auch bei anderen Organismen, die nicht am Training beteiligt waren, darunter die Fruchtfliege Drosophila melanogaster, die Ackerschmalwand Arabidopsis thaliana und die Bierhefe Saccharomyces cerevisiae.

Das Modell entdeckte zudem seltene Regionen, sogenannte „Gift-Exons", deren Einbau zum RNA-Abbau führen kann. Selbst in hochwertigen Annotationen kommen solche Elemente selten vor. Die Entwickler legten besonderen Wert auf die Genauigkeit der Gen-Grenzen, da ein einziger Nukleotidfehler zu einer Leserasterverschiebung führen und die Proteinvorhersage verfälschen kann.

Dr. Veniamin Fishman, Biologe, leitender Forscher am AIRI-Institut und am Institut für Zytologie und Genetik der Sibirischen Abteilung der Russischen Akademie der Wissenschaften (ICiG SO RAN), wies darauf hin, dass die Assemblierung neuer Genome schneller voranschreitet als deren Annotation. Solche Modelle könnten als erster Analyseschritt dienen, um schneller Kandidaten-Genkarten für die Validierung zu erhalten.

Zur Qualitätsbewertung erstellte das Team eine öffentliche Rangliste, in der das Modell mit anderen Ansätzen verglichen wurde. In mehreren Metriken schnitt das Modell am besten ab. Die Trainingsdatensätze wurden von Wissenschaftlern der Wissenschaftlich-Technologischen Universität „Sirius" und des Instituts für Zytologie und Genetik der Sibirischen Abteilung der Russischen Akademie der Wissenschaften (ICiG SO RAN) vorbereitet.

Diese Kurznachricht stammt aus der Übersetzung und Weiterverbreitung von Informationen aus dem globalen Internet und von strategischen Partnern. Sie dient lediglich dem Austausch mit den Lesern. Bei Urheberrechtsverletzungen oder anderen Problemen bitten wir um rechtzeitige Mitteilung, und wir werden die notwendigen Änderungen oder Löschungen vornehmen. Die Weitergabe dieses Artikels ist ausdrücklich ohne formelle Genehmigung verboten.E-Mail: news@wedoany.com