de.wedoany.com-Bericht: Google hat eine Reihe von KI-Modellen zur Bildgenerierung und -bearbeitung namens Nano Banana vorgestellt, die auf der Gemini 3-Architektur basieren. Nano Banana ist kein eigenständiges Text-zu-Bild-Tool, sondern ein visuelles Ausführungssystem, das mit dem zugrunde liegenden kognitiven System von Gemini zusammenarbeitet und dichte Datensätze, Brand-Kits und komplexe Layouts in pixelgenaue Ausgaben umwandelt.
Die Produktlinie umfasst derzeit drei Modelle:
Modell | Offizieller Name | Geschwindigkeit | Beste Verwendung |
| Nano Banana | Gemini 2.5 Flash Image | Schnell | Tägliche Bearbeitung, grundlegende Generierung |
| Nano Banana Pro | Gemini 3 Pro Image | Langsamer | Markenarbeit, Druck, präzise Ausgabe |
| Nano Banana 2 | Gemini 3.1 Flash Image | Am schnellsten (3× Pro) | Schnelle Iterationen, Social-Media-Inhalte, Modelle |
Nano Banana 2 ist keine abgespeckte Version von Pro, sondern ein anderes Werkzeug für andere Aufgaben – Geschwindigkeit und Menge vs. Raffinesse und Präzision.
Nutzer können über folgende Plattformen auf diese Modelle zugreifen:
Plattform | Verfügbare Funktionen |
| Gemini App (iOS/Android/Web) | Vollständiger Zugriff, inklusive kostenloser Stufe – der einfachste Einstieg |
| Google Suche (KI-Modus) | Schnelle Generierung in den Suchergebnissen |
| Google Lens | Bilderstellung über die Lens Create-Funktion |
| Google AI Studio | Entwicklertests und Prompt-Experimente |
| Gemini API / Vertex AI | Produktionsbereitstellung, Batch-Workflows, Governance-Kontrollen |
| Google Slides („Helfen Sie mir zu visualisieren") | Inline-Visualisierung in Folien |
Sowohl Nano Banana 2 als auch Nano Banana Pro sind über die Gemini-App kostenlos nutzbar, jedoch hat Pro ein Generierungslimit. Wird dieses erreicht, fällt die App automatisch auf das Basismodell zurück.
Zu den Kern-Spezifikationen: Nano Banana 2 (Gemini 3.1 Flash Image) generiert jedes Bild in 2 bis 5 Sekunden, mit einer maximalen Auflösung von 4K (4096×4096), nativen Optionen für 512px, 1K und 2K, unterstützt 15 Seitenverhältnisse (einschließlich extremer Formate wie 8:1 und 1:8), bis zu 4 Charaktere in einer Serie, bis zu 14 Objektreferenzen in einem einzelnen Prompt, ein Eingabe-Token-Limit von 131.072, ein Ausgabe-Token-Limit von 32.768, eine Textwiedergabegenauigkeit von etwa 87 %, Echtzeit-Websuche und ist pro Bild etwa 75 % günstiger als Pro. Nano Banana Pro (Gemini 3 Pro Image) generiert jedes Bild in etwa 10 bis 15 Sekunden, mit nativer 4K-Auflösung, Standard-Seitenverhältnissen (1:1, 16:9, 9:16, 4:3, 3:4, 21:9 usw.), bis zu 5 Charakteren, bis zu 14 Objektreferenzen, einem Eingabe-Token-Limit von 65.536, einem Ausgabe-Token-Limit von 32.768, einer Textwiedergabegenauigkeit von etwa 64 %, ebenfalls mit Echtzeit-Websuche und Stil-Sperrfunktion. Beide Modelle teilen sich C2PA Content Credentials, SynthID unsichtbare digitale Wasserzeichen, mehrsprachige Textgenerierung (über 10 Sprachen), Wissensstand Januar 2025, ergänzt durch Echtzeitsuche.
Google bietet fünf Prompt-Frameworks für optimale Ergebnisse. Erstens: Text-zu-Bild (ohne Referenz), Formel = Subjekt + Aktion + Ort/Hintergrund + Komposition + Stil. Beispiel-Prompt: „Ein müder Softwareentwickler Ende 30 mit Augenringen, der an einem unordentlichen Schreibtisch sitzt, umgeben von leeren Kaffeetassen. Sie starrt auf einen schwach grün leuchtenden Monitor. Halbtotale aus niedriger Perspektive. Filmische Farbgebung, sanfte Blaugrün-Töne, dokumentarische Beleuchtung."
Zweitens: Multimodale Generierung (mit Referenzbildern), Formel = Referenzbild + Beziehungsangabe + neue Szene. Beispiel-Prompt: „Verwenden Sie das beigefügte Produktfoto als Objekt und das beigefügte Moodboard als Stilreferenz. Platzieren Sie das Produkt in einer sonnenüberfluteten Strandcafé-Umgebung. Behalten Sie die genauen Proportionen des Produkts bei. Lifestyle-Foto in redaktioneller Qualität."
Drittens: Bildbearbeitung (dialogbasiert), fünf grundlegende Bearbeitungsverben: Hinzufügen (Add), Entfernen (Remove), Ersetzen (Replace), Ändern (Change), Erstellen (Make). Profi-Tipp: Sagen Sie dem Modell immer, was es behalten und was es ändern soll. Das Hinzufügen von „Behalten Sie das Gesicht und die Kleidung der Person vollständig unverändert" reduziert Ausgabedrift.
Viertens: Echtzeit-Datenvisualisierung, Nano Banana 2 kann Echtzeitinformationen aus dem Web abrufen und visualisieren. Beispiel-Prompt: „Suchen Sie den heutigen Luftqualitätsindex für London. Stellen Sie die Daten als sauber illustriertes Dashboard in einem Smartphone-UI-Mockup dar. Verwenden Sie ein einfaches Symbolsystem – Grün für gut, Bernstein für mittel, Rot für schlecht. Fügen Sie Bezirksnamen und einen Zeitstempel hinzu."
Die Echtzeit-Datenfunktion ist vielversprechend, aber nicht narrensicher. Bekannte Daten und Statistiken können veraltet sein; vor der Veröffentlichung sollte eine Gegenprüfung erfolgen.
Fünftens: Prompts wie ein Creative Director schreiben. Sie können Beleuchtungsoptionen (weiches Fülllicht, dramatisch, natürlich warm, produktrein), Kamera- und Objektivsprache (z. B. „Aufgenommen mit einer Fujifilm X100V, natürliche Farbwissenschaft"), Farbkorrektur-Kürzel (nostalgisch, emotional filmisch, clean kommerziell), Material- und Texturhinweise (z. B. „übergroße Vintage-Jeansjacke, vorgewaschenes Indigo, Spannungsmarken an den Nähten") angeben.
In Bezug auf die Textwiedergabe hat Nano Banana 2 derzeit eine der besten Textgenauigkeiten aller KI-Bildmodelle. Für maximale Wirkung: Setzen Sie den wiederzugebenden Text immer in Anführungszeichen; geben Sie die Schriftart an oder beschreiben Sie sie; spezifizieren Sie Farb- und Größenverhältnisse; verwenden Sie den Text-zuerst-Trick – lassen Sie Gemini zuerst eine Textkopie generieren und fordern Sie dann ein Bild an, das diese Kopie enthält; geben Sie die Zielsprache direkt für die Lokalisierung an; es wird nicht empfohlen, sich darauf zu verlassen, um lange Textblöcke zu generieren.
Kurzreferenz für Seitenverhältnisse: 1:1 für Instagram-Beiträge, Profilbilder; 16:9 für YouTube-Thumbnails, Präsentationen; 9:16 für Reels, TikTok, Stories, Mobile-Anzeigen; 4:5 für Instagram-Feed (bestes Interaktionsformat); 21:9 für Film-Breitbild, Website-Hero-Banner; 8:1 (nur Nano Banana 2) für extrabreite Website-Header, E-Mail-Banner; 1:8 (nur NB2) für vertikale Mobile-App-Assets, Seitenleisten-Grafiken; 3:2 für Druckfotografie-Standard; 4:3 für Präsentationsfolien.
Leitfaden zur Modellauswahl: Verwenden Sie Nano Banana 2 für – schnelle Iterationen, soziale Medien, Webgrafiken, wenn lesbarer Text benötigt wird (seine Textgenauigkeit ist höher als bei Pro), kostenbewusste Projekte (75 % günstiger), extreme Seitenverhältnisse, Batch-Erstellung; Verwenden Sie Nano Banana Pro für – Druck oder großformatige Anzeigen, komplexe Szenen mit mehreren Subjekten, die maximale Wiedergabetreue erfordern, wenn Markenkonsistenz bei einer großen Anzahl von Bildern wichtig ist, hochwertige Produktfotografie, lange und hochspezifische Prompts.
Häufige Fehler und Lösungen: Verschmolzene oder verzerrte Gesichter (Referenz-Prompt unklar, fügen Sie „jede Person visuell einzigartig halten" hinzu); zu viele Finger (erneut generieren oder Bild zuschneiden); Stildrift (konsistente Stilphrase in den Prompt aufnehmen oder auf vorherige Ausgabe verweisen); verstümmelter Text (Anführungszeichen verwenden, Schriftart angeben, Text kurz halten); veraltete Echtzeitdaten (manuell überprüfen); Ausgabe ignoriert Teile des Prompts (in sequenzielle Prompts aufteilen); unscharfes Bild („scharfer Fokus, hohe Schärfe" hinzufügen); Seitenverhältnis fällt auf Standard zurück (Verhältnis am Anfang des Prompts angeben).
Wasserzeichen und KI-Erkennung: Jedes mit Nano Banana generierte Bild trägt zwei Schichten: SynthID – ein unsichtbares, pixelbasiertes digitales Wasserzeichen, das für das menschliche Auge nicht wahrnehmbar, aber von Erkennungstools lesbar ist. Die SynthID-Verifizierungsfunktion in der Gemini-App wurde bereits über 20 Millionen Mal genutzt; C2PA Content Credentials – ein Metadatenstandard, der aufzeichnet, wie ein Bild erstellt wurde, einschließlich KI-Beteiligung. Die Verifizierungsfunktion wird in der Gemini-App eingeführt. Das bedeutet, dass KI-generierte Bilder bei Verwendung der richtigen Tools technisch identifizierbar sind, die Wasserzeichen jedoch beim beiläufigen Durchblättern sozialer Medien unsichtbar sind.
Kurzreferenz für Prompt-Starter umfassen: Produkt-Mockup-Prompts, Social-Media-Grafiken mit Text, Infografik-Folien, Serien mit konsistenten Charakteren, Fotorestaurierung, lokalisierte Marketing-Assets und mehr.
Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.
E-Mail: news@wedoany.com









