Google integriert Gerätesteuerungsfunktion in Gemini 3.5 Flash
2026-06-29 10:56
Merken

de.wedoany.com-Bericht: Google hat die Gerätesteuerungsfähigkeit direkt in das Gemini 3.5 Flash-Modell integriert. Das Unternehmen hat kürzlich die Funktion „Computer Use“ für sein KI-Modell Gemini 3.5 Flash eingeführt, die es dem Modell ermöglicht, physische Geräte der Benutzer direkt zu steuern und Aktionen in deren Namen auszuführen. Zuvor hatte Google bereits über Gemini Spark eine KI-Agentenfunktion für Verbraucher bereitgestellt, die die Steuerung von entfernten virtuellen Computern und Browsern ermöglichte. Die neue Computer Use-Funktion erweitert den Steuerungsbereich jedoch auf die physischen Geräte vor dem Benutzer. Google hatte zuvor ein separates Gemini 2.5 Computer Use-Modell für die Gerätesteuerung angeboten und integriert es nun direkt in Gemini 3.5 Flash. Entwickler können so auf derselben Plattform auf verschiedene Fähigkeiten wie Gerätesteuerung, Suche und Karten zugreifen, ohne zu einem speziellen Modell wechseln zu müssen.

Ein Smartphone zeigt auf dunklem Hintergrund das leuchtende Google Gemini-Logo.

Das bisherige separate Modell Gemini 2.5 Computer Use war hauptsächlich für die browserbasierte Steuerung optimiert und wies gewisse Einschränkungen auf. Google gibt an, dass das Upgrade für „langfristige und unternehmensweite Automatisierungsaufgaben“ eine reaktionsschnellere Ausführung bringen wird. Angesichts der Sicherheitsbedenken, die eine vollständige KI-Steuerung von Geräten mit sich bringen könnte, hat Google mehrere Maßnahmen eingeführt. Die Funktion ist derzeit nur für Entwickler und Unternehmensumgebungen zugänglich und wird für die automatisierte Testung von Benutzeroberflächen, die Recherche über verschiedene Websites hinweg oder die automatische Dateneingabe in ältere Software verwendet. Der Zugriff erfolgt über die Gemini API oder die Gemini Enterprise Agent-Plattform; die Verbraucherversion der Gemini-App kann diese Funktion nicht auslösen.

Ein Screenshot einer Smartphone-App-Oberfläche, die aktiv vom KI-Agenten Google Gemini 3.5 gesteuert wird.

Auf der Sicherheitsebene übernimmt Gemini 3.5 Flash das bisherige Mensch-Maschine-Kooperationsprotokoll des Gemini 2.5 Computer Use-Modells, um sicherzustellen, dass „sensible Operationen“ wie Finanztransaktionen einer menschlichen Autorisierung bedürfen. Das Update fügt zwei neue Sicherheitsfunktionen hinzu. Die erste ist die automatische Erkennung von Angriffsvektoren, wie z. B. „indirekte Prompt-Injektion“. Wenn versteckte bösartige Textaufforderungen auf einer Webseite erkannt werden, wird die Ausführung gestoppt. Die zweite ist die Anforderung einer expliziten Benutzerbestätigung vor der Ausführung sensibler oder irreversibler Aktionen. Google weist darauf hin, dass diese wichtigen Sicherheitsmaßnahmen optionale Konfigurationen sind; es liegt in der Verantwortung der Entwickler, sie zu verwenden, und sie müssen alle Risiken tragen, die bei der Ausführung auftreten.

Als Teil des nativen Gemini 3.5 Flash-Modells ist die Aktivierung der Computer Use-Funktion kostenlos. Der Preis des neuen Modells beträgt 1,50 US-Dollar pro Million Eingabe-Token, etwas höher als die 1,25 US-Dollar des Gemini 2.5-Modells. Die vom neuen Modell bereitgestellte Kontext-Cache-Funktion kann jedoch die Gesamtkosten erheblich senken. Für Entwickler, die viele sich wiederholende Aufgaben verarbeiten müssen, wird der daraus resultierende Nutzen den leichten Anstieg des Preises pro Token wahrscheinlich aufwiegen.

Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.

E-Mail: news@wedoany.com