Chinas JD.com veröffentlicht Open-Source-Framework JoyAI-Echo für lange Audio-Video-Generierung_Weltnachrichten

Chinas JD.com veröffentlicht Open-Source-Framework JoyAI-Echo für lange Audio-Video-Generierung

2026-06-04 09:30

Merken

de.wedoany.com-Bericht: Am 3. Juni hat JD.com das Framework JoyAI-Echo für die Generierung langer Audio-Video-Inhalte vorgestellt, dessen Code und Gewichte vollständig als Open Source veröffentlicht wurden. Das Framework richtet sich an Szenarien der Generierung langer Audio-Video-Inhalte, führt einen intelligenten „Regieassistenten“ (Director Agent) ein und ist mit einem crossmodalen Audio-Video-Speicher ausgestattet. Dieser dient dazu, während des Generierungsprozesses mehrerer Einstellungen kontinuierlich die Erscheinungsmerkmale der Figuren und die Stimmfarbe des Sprechers zu speichern und abzurufen.

JoyAI-Echo adressiert das langjährige Stabilitätsproblem bei der Generierung langer Videos. Aktuelle Videogenerierungsmodelle zeigen bereits starke Leistungen in Szenarien mit kurzen Clips, einzelnen Einstellungen und einzelnen Figuren. Sobald jedoch narrative Mehrfacheinstellungen, kontinuierliches Auftreten von Figuren, Dialoge und die Generierung langer Inhalte ins Spiel kommen, treten häufig Probleme wie das Abdriften des Figurenaussehens, inkonsistente Stimmfarben, logisch brüchige Einstellungsübergänge und zu langsame Generierungsgeschwindigkeiten auf. JoyAI-Echo zeichnet über den crossmodalen Audio-Video-Speicher die Identität der Figuren, das visuelle Erscheinungsbild und den Audio-Kontext auf, sodass nachfolgende Einstellungen die vorherigen Informationen weiterverwenden können. Der Director Agent übernimmt die Zerlegung von Drehbuch, Figuren und Einstellungen, sodass Nutzer über natürliche Sprache kreative und ändernde Anforderungen stellen können, was die Kosten für wiederholtes vollständiges Neugenerieren des gesamten Inhalts bei langen Videoproduktionen reduziert.

Laut dem Open-Source-Repository von JD.com unterstützt JoyAI-Echo die minutenlange Audio-Video-Generierung mit mehreren Einstellungen, kann über ein Prompt-JSON eine zusammenhängende Geschichte generieren und nutzt das DMD-Destillationsschema mit wenigen Schritten, um die Generierungsgeschwindigkeit zu erhöhen.

Die Bedeutung dieses Frameworks liegt darin, die Generierung langer Audio-Video-Inhalte von einem „einmaligen Generierungsergebnis“ zu einem „nachhaltig editierbaren kreativen Workflow“ weiterzuentwickeln. In Szenarien wie der Vorvisualisierung von Film- und Fernsehproduktionen, Markenmarketing-Videos, digitalen Menschen-Inhalten, virtuellen Geschichtenerzählungen und Live-Streaming-Kurzfilmen benötigen Kreative nicht nur die Generierung eines Bildes, sondern auch die Aufrechterhaltung eines einheitlichen Erscheinungsbildes, einer einheitlichen Stimme und eines einheitlichen narrativen Stils der Figuren über mehrere Handlungsstränge hinweg. JoyAI-Echo integriert Audio, Video, Figurengedächtnis, Einstellungsplanung und dialogbasierte Bearbeitung in einem einzigen Framework, was dazu beiträgt, die technische Hürde für die Produktion langer Inhalte zu senken. Da Code und Gewichte vollständig als Open Source veröffentlicht wurden, können Entwickler auf Basis dieses Frameworks Sekundärentwicklungen, Modellevaluierungen und vertikale Szenarioanpassungen durchführen, was die Erweiterung des Ökosystems für die Generierung langer Audio-Video-Inhalte in China weiter vorantreibt.

Die nachfolgenden Variablen konzentrieren sich auf die Anpassungsfähigkeit der Open-Source-Community, die tatsächlichen Bereitstellungskosten, die Konsistenzleistung bei langen Videos, die interaktive Bearbeitungserfahrung und die Geschwindigkeit der Umsetzung in kommerziellen Szenarien. Mit dem Übergang der KI-Videogenerierung von kurzen Clip-Demonstrationen zu komplexeren Inhaltsproduktionsschritten werden Figurengedächtnis, Stimmkonsistenz, Einstellungskontinuität und Editierbarkeit zu wichtigen Indikatoren für den Wettbewerb von Modell-Frameworks. Die Open-Source-Veröffentlichung von JoyAI-Echo bietet dem Bereich der Generierung langer Audio-Video-Inhalte einen reproduzierbaren und erweiterbaren technischen Einstiegspunkt.

Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.

E-Mail: news@wedoany.com

China

Diese Kurznachricht stammt aus der Übersetzung und Weiterverbreitung von Informationen aus dem globalen Internet und von strategischen Partnern. Sie dient lediglich dem Austausch mit den Lesern. Bei Urheberrechtsverletzungen oder anderen Problemen bitten wir um rechtzeitige Mitteilung, und wir werden die notwendigen Änderungen oder Löschungen vornehmen. Die Weitergabe dieses Artikels ist ausdrücklich ohne formelle Genehmigung verboten.E-Mail: news@wedoany.com