Wenn Sie Imagen in Vertex AI verwenden möchten, müssen Sie eine Textbeschreibung der Inhalte angeben, die Sie generieren oder bearbeiten möchten. Diese Beschreibungen werden als Prompts bezeichnet. Diese Aufforderungen sind die primäre Methode zur Kommunikation mit generativer KI in Vertex AI.
In dieser Anleitung erfahren Sie, wie Sie durch Ändern von Teilen einer Text-zu-Bild-Eingabeaufforderung unterschiedliche Ergebnisse erzielen können. Außerdem finden Sie Beispiele für Bilder, die Sie erstellen können. Außerdem erfahren Sie in dieser Anleitung, wie Sie Bilder mithilfe von Texteingabeaufforderungen und Iterationen bearbeiten können.
Produktnutzung
Informationen zu den Nutzungsstandards und Inhaltsbeschränkungen für Imagen in Vertex AI finden Sie in den Nutzungsrichtlinien.
Inhaltsfilterung – Eingabetext, hochgeladene Bilder und generierte Bilder
Generierte Bilder werden nach unerwünschten oder schädlichen Inhalten gefiltert. Ebenso werden alle Eingaben, die Imagen in Vertex AI erhält, auf anstößige Inhalte geprüft. Dazu gehören der Eingabetext-Prompt und bei der Bildbearbeitung auch hochgeladene Fotos. Weitere Informationen finden Sie unter Verantwortungsbewusste KI und Nutzungsrichtlinien für Imagen.
Sie können mutmaßlichen Missbrauch von Imagen in Vertex AI oder jede erzeugte Ausgabe, die unangemessenes Material oder ungenaue Informationen enthält, auch über das Formular Einen mutmaßlichen Missbrauch inGoogle Cloud melden melden.
Grundlagen zum Schreiben von Eingabeaufforderungen (Motiv, Kontext und Stil)
Es gibt zwar nicht die eine Art, gute Eingabeaufforderungen zu schreiben, aber wenn Sie einige Keywords und Modifikationen verwenden, können Sie Ihrem Ziel näher kommen. Eingabeaufforderungen müssen nicht lang oder komplex sein. Die meisten guten Eingabeaufforderungen sind jedoch aussagekräftig und klar.
Ein guter Ausgangspunkt ist die Verwendung von Motiv, Kontext und Stil.
Thema: Das Erste, woran Sie bei jeder Eingabeaufforderung denken müssen, ist das Motiv. Das Objekt, eine Person, ein Tier oder eine Landschaft, von der Sie ein Bild möchten.
Kontext und Hintergrund: Ebenso wichtig ist der Hintergrund oder Kontext, in dem das Motiv platziert wird. Platzieren Sie das Motiv vor verschiedenen Hintergründen. Zum Beispiel ein Studio mit weißem Hintergrund, im Freien oder in Gebäuden.
Stil: Fügen Sie abschließend den Stil des gewünschten Bildes hinzu. Stile können allgemein (Malerei, Fotografie, Skizzen) oder sehr spezifisch sein (Pastel, Kohlezeichnung, isometrische 3D-Perspektive).
Nachdem Sie eine erste Version Ihres Prompts geschrieben haben, können Sie ihn verfeinern, indem Sie weitere Details hinzufügen, bis Sie das gewünschte Bild erhalten. Iteration ist wichtig. Beginnen Sie mit Ihrer Kernidee und verfeinern und erweitern Sie diese dann, bis das generierte Bild Ihrer Vision entspricht.
|
|
|
Schreiben von Prompts für Imagen 3
Modellkarte für Imagen für die Generierung ansehen
Mit Imagen 3 können Sie Ihre Ideen in detaillierte Bilder umwandeln, unabhängig davon, ob Ihre Prompts kurz oder lang und detailliert sind. Verfeinern Sie Ihre Vision durch iterative Prompts und fügen Sie Details hinzu, bis Sie das perfekte Ergebnis erzielen.
|
Mit kurzen Prompts können Sie schnell ein Bild generieren.
|
Mit längeren Prompts können Sie spezifische Details hinzufügen und Ihr Bild erstellen.
|
Zusätzliche Hinweise zum Verfassen von Prompts für Imagen 3:
- Beschreibende Sprache verwenden: Verwenden Sie detaillierte Adjektive und Adverbien, um Imagen 3 ein klares Bild zu vermitteln.
- Kontext angeben: Fügen Sie bei Bedarf Hintergrundinformationen hinzu, damit die KI den Prompt besser versteht.
- Auf bestimmte Künstler oder Stile verweisen: Wenn Sie eine bestimmte Ästhetik im Sinn haben, kann es hilfreich sein, auf bestimmte Künstler oder Kunstrichtungen zu verweisen.
- Tools für Prompt Engineering verwenden: Sie können Tools oder Ressourcen für Prompt Engineering nutzen, um Ihre Prompts zu optimieren und optimale Ergebnisse zu erzielen.
- Gesichtsdetails auf Ihren persönlichen Fotos und Gruppenfotos optimieren:
- Geben Sie Gesichtsdetails als Fokus des Fotos an (verwenden Sie z. B. das Wort „Porträt“ im Prompt).
- Wenn Sie mehr Details benötigen, sollten Sie ein größeres Modell wie Imagen 3 anstelle von Imagen 3 Fast verwenden.
Text in Bildern generieren
Mit Imagen 3 können Sie Text in Ihre Bilder einfügen und so kreative Bilder erstellen. Mit den folgenden Tipps können Sie diese Funktion optimal nutzen:
- Sicher iterieren: Möglicherweise müssen Sie Bilder neu generieren, bis Sie das gewünschte Ergebnis erhalten. Die Textintegration von Imagen wird ständig weiterentwickelt. Manchmal sind mehrere Versuche erforderlich, um die besten Ergebnisse zu erzielen.
- Kurz fassen: Der Text sollte maximal 25 Zeichen umfassen, damit er optimal generiert werden kann.
Mehrere Formulierungen: Testen Sie zwei oder drei unterschiedliche Formulierungen, um zusätzliche Informationen bereitzustellen. Verwenden Sie nicht mehr als drei Begriffe, um die Komposition zu optimieren.
Prompt: Ein Poster mit dem Text „Summerland“ in fetter Schrift als Titel. Darunter befindet sich der Slogan „Summer never felt so good“. Platzierung von Anleitungen: Imagen kann versuchen, Text wie angegeben zu positionieren, aber es kann zu gelegentlichen Abweichungen kommen. Diese Funktion wird kontinuierlich verbessert.
Schriftstil: Geben Sie einen allgemeinen Schriftstil an, um die Auswahl von Imagen subtil zu beeinflussen. Verlassen Sie sich nicht auf eine genaue Schriftartreplikation, sondern rechnen Sie mit kreativen Interpretationen.
Schriftgröße: Geben Sie eine Schriftgröße oder eine allgemeine Größenangabe (z. B. klein, mittel, groß) an, um die Generierung der Schriftgröße zu beeinflussen.
Prompt-Parametrisierung
Um die Ausgaberesultate besser zu steuern, kann es hilfreich sein, die Eingaben für Imagen zu parametrisieren, wenn Sie mit der Imagen API oder dem Vertex AI SDK für Python arbeiten. Angenommen, Sie möchten, dass Ihre Kunden Logos für ihr Unternehmen generieren können, und Sie möchten sicherstellen, dass Logos immer auf einem einfarbigen Hintergrund generiert werden. Außerdem möchten Sie die Optionen einschränken, die der Kunde in einem Menü auswählen kann.
In diesem Beispiel können Sie einen parametrisierten Prompt ähnlich dem folgenden erstellen:
A {logo_style} logo for a {company_area} company on a solid color background. Include the text {company_name}.In Ihrer benutzerdefinierten Benutzeroberfläche kann der Kunde die Parameter über ein Menü eingeben. Der ausgewählte Wert wird in den Prompt eingefügt, den Imagen erhält.
Beispiel:
Prompt:
A minimalist logo for a health care company on a solid color background. Include the text Journey.
Prompt:
A modern logo for a software company on a solid color background. Include the text Silo.
Prompt:
A traditional logo for a baking company on a solid color background. Include the text Seed.
Stil: Fotografie
- Eingabeaufforderung enthält: „Ein Foto von...”
Um diesen Stil zu verwenden, beginnen Sie mit der Verwendung von Keywords, die Imagen in Vertex AI klar mitteilen, dass Sie nach einem Foto suchen. Starten Sie die Eingabeaufforderungen mit „Ein Foto von. . .”. Beispiel:
|
|
|
Bildquelle: Jedes Bild wurde mit dem Imagen 3-Modell über den entsprechenden Text-Prompt generiert.
Stil: Illustration und Kunst
- Eingabeaufforderung enthält: „Eine painting von...”, „Eine sketch von...”
Die Stile variieren von monochromen Stilen wie Bleistift bis hin zu hyperrealistischer digitaler Kunst. Die folgenden Bilder verwenden beispielsweise dieselbe Eingabeaufforderung mit unterschiedlichen Stilen:
„Eine [art style or creation technique] einer kantigen elektrischen Limousine mit Wolkenkratzern im Hintergrund“
|
|
|
|
|
|
Bildquelle: Jedes Bild wurde mit dem Imagen 2-Modell über den entsprechenden Text-Prompt generiert.
Erweiterte Techniken zum Schreiben von Eingabeaufforderungen
Anhand der folgenden Beispiele können Sie anhand der Attribute spezifischere Aufforderungen erstellen: Bilddeskriptoren, Formen und Materialien, historische Kunstbewegungen und Bildqualitätsmodifikatoren.
Fotografische Modifikatotionen
In den folgenden Beispielen sehen Sie mehrere fotospezifische Modifikatoren und Parameter.
Kameranähe: aus der Nähe, von weit weg
Eingabeaufforderung: Ein Foto von Kaffeebohnen aus der Nähe
Eingabeaufforderung: Ein herausgezoomtes Foto eines kleinen Beutels mit
Kaffeebohnen in einer unaufgeräumten KücheKameraposition: Luftaufnahme, von unten
Eingabeaufforderung: Luftaufnahme einer Stadt mit Wolkenkratzern
Eingabeaufforderung: Ein Foto eines Waldstamms mit blauem Himmel von unten Beleuchtung: natürlich, dramatisch, warm, kalt
Eingabeaufforderung: Studiofoto eines modernen Sessels, natürliche Beleuchtung
Eingabeaufforderung: Studiofoto eines modernen Sessels, dramatische Beleuchtung Kameraeinstellungen: Bewegungsunschärfe, Weichzeichnung, Bokeh, Hochformat
Eingabeaufforderung: Foto einer Stadt mit Wolkenkratzern aus dem Inneren eines Autos mit Bewegungsunschärfe
Eingabeaufforderung: Weichzeichnung eines Fotos einer Brücke in einer Stadt bei Nacht Objektive: 35 mm, 50 mm, Fischauge, Weitwinkel, Makro
Eingabeaufforderung: Foto eines Blattes, Makroobjektiv
Eingabeaufforderung: Straßenansicht, New York City, Fischaugenobjektiv Filmtypen: Schwarz-Weiß, Polaroid
Eingabeaufforderung: Ein Polaroid-Hochformatbild eines Hundes mit Sonnenbrille
Eingabeaufforderung: Schwarz-Weiß-Foto eines Hundes mit Sonnenbrille
Bildquelle: Jedes Bild wurde mit dem Imagen 3-Modell über den entsprechenden Text-Prompt generiert.
Formen und Materialien
- Eingabeaufforderung: „...aus...”, „...in Form von...”
Eine der Stärken dieser Technologie ist, dass Sie Bilder erstellen können, die andernfalls schwer oder unmöglich wären. Sie können beispielsweise Ihr Firmenlogo in verschiedenen Materialien und Texturen neu erstellen.
|
|
|
Bildquelle: Jedes Bild wurde mit dem Imagen 3-Modell über den entsprechenden Text-Prompt generiert.
Bezüge auf historische Kunst
- Eingabeaufforderung: „...im Stil von...”
Bestimmte Stile haben sich im Laufe der Jahre zu einem Mythos entwickelt. Im Folgenden finden Sie einige Ideen für historische Gemälde oder Kunststile, die Sie ausprobieren können.
„Erstelle ein Bild im Stil von [art period or movement]: ein Windpark“
|
|
|
Bildquelle: Jedes Bild wurde mit dem Imagen 3-Modell über den entsprechenden Text-Prompt generiert.
Modifikatoren für die Bildqualität
Bestimmte Keywords können dem Modell mitteilen, dass Sie nach einem qualitativ hochwertigen Bild suchen. Beispiele für Qualitätsmodifikatoren:
- Allgemeine Modifikatoren: hohe Qualität, ansprechend, stilisiert
- Fotos: 4K, HDR, Studiofoto
- Kunst, Illustration: von einem Profi, detailliert
Im Folgenden finden Sie einige Beispiele für Eingabeaufforderungen ohne Qualitätsmodifikatoren und die gleiche Aufforderung mit Qualitätsmodifikatoren.
|
Foto eines Getreidehalms von einem Profi-Fotografen aufgenommen |
Bildquelle: Jedes Bild wurde mit dem Imagen 3-Modell über den entsprechenden Text-Prompt generiert.
Seitenverhältnisse
Mit der Imagen 3-Bildgenerierung können Sie fünf verschiedene Bild-Seitenverhältnisse festlegen.
- Quadrat (1:1, Standard) - Ein quadratisches Standardfoto. Typische Anwendungsfälle für dieses Seitenverhältnis sind Beiträge in sozialen Medien.
Vollbild (4:3) - Dieses Seitenverhältnis wird häufig in Medien oder in Filmen verwendet. Es bezeichnet auch die Abmessungen der meisten alten (Nicht-Breitbild-)Fernseher und Mittelformatkameras. Es erfasst horizontal mehr von der Szene (im Vergleich zu 1:1), dadurch gehört es zu den bevorzugten Seitenverhältnissen für die Fotografie.
Prompt: Nahaufnahme der Finger eines Musikers, der Klavier spielt, Schwarz-Weiß-Film, Vintage (Seitenverhältnis 4:3)
Prompt: Ein professionelles Studiofoto von Pommes Frites für ein High-End-Restaurant im Stil einer Lebensmittelzeitschrift (Seitenverhältnis 4:3). Vollbild-Vollbild (3:4) – Dies ist das um 90 Grad gedrehte Vollbild-Seitenverhältnis. So kann vertikal im Vergleich zum Seitenverhältnis 1:1 mehr von der Szene erfasst werden.
Prompt: Eine Frau wandert, Nahaufnahme ihrer Stiefel, die sich in einer Pfütze spiegeln, große Berge im Hintergrund, im Stil einer Werbung, dramatische Blickwinkel (Seitenverhältnis 3:4)
Prompt: Luftaufnahme eines Flusses, der in einem mystischen Tal fließt (Seitenverhältnis 3:4) Breitbild (16:9): Dieses Seitenverhältnis hat 4:3 ersetzt und ist heute das gängigste Seitenverhältnis für Fernseher, Monitore und Bildschirme von Smartphones (Querformat). Verwenden Sie dieses Seitenverhältnis, wenn Sie mehr vom Hintergrund erfassen möchten (z. B. malerische Landschaften).
Prompt: Ein Mann ganz in weißer Kleidung, der am Strand sitzt, Nahaufnahme, Lichtverhältnisse einer goldenen Stunde (Seitenverhältnis 16:9) Hochformat (9:16): Dieses Seitenverhältnis entspricht dem Breitbild, aber gedreht. Dabei handelt es sich um ein relativ neues Seitenverhältnis, das in Kurzvideo-Apps beliebt ist (z. B. YouTube Shorts). Verwenden Sie es für hohe Objekte mit stark vertikalen Ausrichtungen wie Gebäude, Bäume, Wasserfälle oder ähnliche Objekte.
Prompt: ein digitales Rendering eines riesigen Wolkenkratzers, modern, groß, monumental, mit einem schönen Sonnenuntergang im Hintergrund (Seitenverhältnis 9:16)
Negative Prompts
Die vorherigen Beispiele konzentrieren sich auf das Schreiben von Eingabeaufforderungen für das Erstellen von Bildern. Sie können aber auch eine negative Eingabeaufforderung zusammen mit der ursprünglichen Eingabeaufforderung angeben, um dem Produkt zu helfen, Bilder zu generieren oder zu bearbeiten. Diese negativen Prompts können ein leistungsstarkes Tool sein, mit dem Sie angeben können, welche Elemente aus dem Bild weggelassen werden sollen. Beschreiben Sie einfach, was nicht gewünscht ist.
Empfohlen — Beschreiben Sie schlicht, was Sie nicht sehen möchten. Beispiel: „Wand, Rahmen”.
Nicht empfohlen: Vermeiden Sie Formulierungen oder Wörter wie „keine“ oder „Nicht“. Vermeiden Sie beispielsweise Formulierungen wie „keine Wände” oder „nicht Wändeanzeigen“.
|
Negative Eingabeaufforderung: Grün, Pflanzen, Wald, Bäume |
|
Negative Eingabeaufforderung: Schnee, Frost |
Fotorealistische Bilder
Verschiedene Versionen des Modells zur Bilderstellung können eine Mischung aus künstlerischer und fotorealistischer Ausgabe bieten. Verwenden Sie die folgende Formulierung in Prompts, um je nach dem zu generierenden Thema eine fotorealistischere Ausgabe zu generieren.
| Anwendungsfall | Linsentyp | Brennweiten | Weitere Informationen |
|---|---|---|---|
| Personen (Hochformat) | Prime, Zoom | 24-35mm | Schwarz-Weiß-Film, Film Noir, Tiefenschärfe, Duotone (erwähnt zwei Farben) |
| Essen, Insekten, Pflanzen (Objekte, Stilleben) | Makro | 60-105mm | Hohe Details, präzise Fokussierung, kontrollierte Beleuchtung |
| Sport, Tiere (Bewegung) | Telefotozoom | 100-400mm | Schnelle Belichtungszeit, Aktions- oder Bewegungsverfolgung |
| Astronomisch, Landschaft (Weitwinkel) | Weitwinkel | 10-24mm | Langzeitbelichtung, scharfe Fokussierung, Langzeitbelichtung, glattes Wasser oder Wolken |
Porträts
| Anwendungsfall | Linsentyp | Brennweiten | Weitere Informationen |
|---|---|---|---|
| Personen (Hochformat) | Prime, Zoom | 24-35mm | Schwarz-Weiß-Film, Film Noir, Tiefenschärfe, Duotone (erwähnt zwei Farben) |
Mit mehreren Suchbegriffen aus der Tabelle kann Imagen die folgenden Porträts generieren.
|
|
|
|
Eingabeaufforderung: Eine Frau, 35 mm Hochformat, blaue und graue Duotones
Modell: Imagen 3 (imagen-3.0-generate-002)
|
|
|
|
Eingabeaufforderung: Eine Frau, 35 mm Hochformat, Film Noir
Modell: Imagen 3 (imagen-3.0-generate-002)
Objekte
| Anwendungsfall | Linsentyp | Brennweiten | Weitere Informationen |
|---|---|---|---|
| Essen, Insekten, Pflanzen (Objekte, Stilleben) | Makro | 60-105mm | Hohe Details, präzise Fokussierung, kontrollierte Beleuchtung |
Mit mehreren Suchbegriffen aus der Tabelle kann Imagen die folgenden Objektbilder generieren.
|
|
|
|
Eingabeaufforderung: Blatt einer Gebetspflanze, Makroobjektiv, 60 mm
Modell: Imagen 3 (imagen-3.0-generate-002)
|
|
|
|
Eingabeaufforderung: Eine Nudelplatte, 100-mm-Makroobjektiv
Modell: Imagen 3 (imagen-3.0-generate-002)
Bewegung
| Anwendungsfall | Linsentyp | Brennweiten | Weitere Informationen |
|---|---|---|---|
| Sport, Tiere (Bewegung) | Telefotozoom | 100-400mm | Schnelle Belichtungszeit, Aktions- oder Bewegungsverfolgung |
Mit mehreren Suchbegriffen aus der Tabelle kann Imagen die folgenden Bewegungsbilder generieren.
|
|
|
|
Eingabeaufforderung: Erfolgreicher Touchdown, schnelle Belichtungszeit, Bewegungsverfolgung
Modell: Imagen 3 (imagen-3.0-generate-002)
|
|
|
|
Eingabeaufforderung: Ein Reh läuft im Wald, schnelle Belichtungszeit, Bewegungsverfolgung
Modell: Imagen 3 (imagen-3.0-generate-002)
Weitwinkel
| Anwendungsfall | Linsentyp | Brennweiten | Weitere Informationen |
|---|---|---|---|
| Astronomisch, Landschaft (Weitwinkel) | Weitwinkel | 10-24mm | Langzeitbelichtung, scharfe Fokussierung, Langzeitbelichtung, glattes Wasser oder Wolken |
Mit mehreren Suchbegriffen aus der Tabelle kann Imagen die folgenden Weitwinkelbilder generieren.
|
|
|
|
Eingabeaufforderung: Großer Bergbereich, Querwinkel 10 mm
Modell: Imagen 3 (imagen-3.0-generate-002)
|
|
|
|
Prompt: ein Foto des Mondes, Astrofotografie, Weitwinkel 10 mm
Modell: Imagen 3 (imagen-3.0-generate-002)
Nächste Schritte
Artikel zu Imagen und anderen Produkten für generative KI in Vertex AI:
- Leitfaden für Entwickler zum Einstieg in Imagen 3 in Vertex AI
- Neue generative Medienmodelle und ‑tools, die von und für Creator entwickelt wurden
- Neu in Gemini: Benutzerdefinierte Gems und verbesserte Bildgenerierung mit Imagen 3
- Google DeepMind: Imagen 3 – unser bisher bestes Text-zu-Bild-Modell