de.wedoany.com-Bericht: Am 3. Juli stellte ShengShu Technology auf der Global Digital Economy Conference 2026 das nächste Generation des Video-Basismodells Vidu S1 vor, das eine Echtzeit-Interaktionsvideogenerierung ermöglicht und KI-Videos von der Erzeugung einzelner Clips zur Unterstützung kontinuierlicher Echtzeit-Interaktionen weiterentwickelt.

Vidu S1 unterstützt Echtzeit-Videodialoge mit Charaktersteuerung durch Sprachführung. Benutzer können KI-Avatare auf natürliche Weise per Spracheingabe steuern und unbegrenzte, kontinuierliche Interaktionen durchführen. Das Modell bietet eine Auflösung von 540P (960x540) bei 25 FPS (maximal 42 FPS) und ermöglicht es Benutzern, aus einem einzelnen Bild (echte Personen, Anime-Charaktere oder sogar Haustiere) sofort personalisierte interaktive Charaktere mit anpassbaren Stimmen zu erstellen. Das gesamte System kann auf handelsüblichen GPUs laufen, was die Hardware-Hürde für die Echtzeit-Interaktionsvideogenerierung erheblich senkt.
Die meisten bestehenden Videogenerierungsmodelle verwenden einen Offline-Workflow: Benutzer geben einen Prompt ein und warten auf die Videogenerierung, wobei der Inhalt nach der Erstellung feststeht. Vidu S1 führt ein Echtzeit-Interaktionsvideogenerierungs-Framework ein, das es Benutzern ermöglicht, während des Echtzeit-Videodialogs kontinuierlich Spracheingaben zu liefern. Das Modell verarbeitet die Spracheingabe zusammen mit dem Dialogkontext und dem aktuellen visuellen Kontext, sodass nachfolgende Videoinhalte in Echtzeit generiert und aktualisiert werden können. Das Modell ist nicht auf audio-gesteuerte Lippenbewegungen oder vordefinierte Animationsbibliotheken angewiesen, sondern versteht die Semantik, Absicht und den emotionalen Kontext der Spracheingabe und generiert in Echtzeit synchronisierte Lippenbewegungen, Gesichtsausdrücke, Augenbewegungen, Gesten, Körperhaltungen und Ganzkörperbewegungen.
Vidu S1 verwendet eine autoregressive Diffusionsarchitektur (AR+Diffusion). Anstatt das gesamte Video im Voraus zu generieren, prognostiziert und generiert es kontinuierlich nachfolgende Videoinhalte basierend auf bereits generierten Frames, aktuellen Sprachbefehlen und dem Dialogkontext. Wenn Benutzer neue Anweisungen geben, aktualisiert das Modell in Echtzeit die Mimik, Bewegungen und das nachfolgende Verhalten des Charakters, sodass die Interaktion während des Dialogs kontinuierlich weiterentwickelt wird. Dieses Modell ist führend bei der unbegrenzten Echtzeit-Videogenerierung und ermöglicht Echtzeit-Reaktionen in langen Dialogen, während die Identitätskonsistenz des Charakters, natürliche und flüssige Bewegungen sowie die kontinuierliche Verarbeitung von Benutzereingaben erhalten bleiben.
Um eine Echtzeit-Interaktionsvideogenerierung mit 540P (960x540) Auflösung und 25 FPS (maximal 42 FPS) zu erreichen, setzt ShengShu Technology auf Modellebene Inferenzbeschleunigungstechniken ein, darunter TurboDiffusion, Low-Bit-SageAttention, die Sparse-Attention-Methode SLA und SpargeAttention. Diese reduzieren die Rechenkosten pro Frame durch wenige Generierungsschritte, Modellquantisierung und optimierte Inferenzkerne. Auf Systemebene plant die Inferenz-Service-Engine TurboServe die Inferenz-Workloads effizient und weist Rechenressourcen dynamisch basierend auf dem Interaktionsstatus zu. Diese Optimierungen ermöglichen es Vidu S1, Echtzeit-Interaktionsgenerierung auf handelsüblichen GPUs auszuführen und bieten eine technische Grundlage für Anwendungen wie Echtzeit-Videodialoge, interaktive Live-Streams, KI-Begleiter, interaktive Spiele und XR-Erlebnisse.
Bei der Charaktererstellung führt Vidu S1 einen vollständig generativen Workflow ein. Benutzer müssen nur ein Bild hochladen, und das Modell erfasst die Identität, das Aussehen und den visuellen Stil des Charakters, um in Echtzeit synchronisierte Lippenbewegungen, Gesichtsausdrücke, Gesten und Ganzkörperbewegungen zu generieren – ohne dass eine modellspezifische Modellierung oder Schulung erforderlich ist. Ob auf Basis einer echten Person, eines Anime-Charakters oder eines Haustiers: Ein einzelnes Bild wird in einen Echtzeit-Interaktionscharakter mit anpassbarer Stimme verwandelt.
Vidu S1 ist jetzt öffentlich verfügbar. Benutzer können in Echtzeit KI-Avatare aus ihren eigenen benutzerdefinierten Bildern erstellen und mit ihnen interagieren. Die API-Plattform steht Entwicklern und Geschäftspartnern zur Verfügung, um Echtzeit-Interaktionsanwendungen zu erstellen.










