Mit Imagen können Sie Bilder in Sekundenschnelle bearbeiten. Dazu verwenden Sie Text-Prompts, Masken und vorhandene Bilder als Anleitung für die Änderungen.
Modellkarte für Imagen for Editing and Customization ansehen
Unterstützte Modellversionen
Die Imagen API unterstützt die folgenden Modelle:
imagen-3.0-capability-001
Weitere Informationen zu den vom Modell unterstützten Funktionen finden Sie unter Imagen-Modelle.
HTTP-Anfrage
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagen-3.0-capability-001:predict \
-d '{
"instances": [
{
"referenceImages": [
{
"referenceType": "REFERENCE_TYPE_RAW",
"referenceId": 1,
"referenceImage": {
"bytesBase64Encoded": string
}
},
{
"referenceType": "REFERENCE_TYPE_MASK",
"referenceId": 2,
"referenceImage": {
"bytesBase64Encoded": string
},
"maskImageConfig": {
"maskMode": "MASK_MODE_USER_PROVIDED"
}
}
],
"prompt": string
}
],
"parameters": {
"addWatermark": boolean,
"baseSteps": integer,
"editMode": string,
"guidanceScale": integer,
"includeRaiReason": boolean,
"includeSafetyAttributes": boolean,
"language": string,
"negativePrompt": string,
"outputOptions": {
"mimeType": string,
"compressionQuality": integer
},
"personGeneration": string,
"safetySetting": string,
"sampleCount": integer,
"seed": integer,
"storageUri": string
}
}'
Instanzen
| Instanzen | |
|---|---|
prompt |
Optional. Der Text-Prompt für das Bild. Wenn kein |
referenceImages |
Liste mit
Erforderlich. Für die Maskenbearbeitung müssen genau zwei Referenzbilder angegeben werden, eines mit |
Objekt referenceImages
Das referenceImages-Objekt beschreibt die Bild-Assets, die mit Imagen bearbeitet werden sollen.
| Parameter | |
|---|---|
referenceType |
Erforderlich. Der Typ des Referenzbildes. Eines der folgenden Betriebssysteme:
|
referenceId |
Erforderlich. Eine eindeutige Kennung für das Referenzbild. Wird nicht für die Bearbeitung mit Masken verwendet. |
referenceImage.bytesBase64Encoded |
Erforderlich. Base64-codierte Bilddaten. Es werden PNG-, JPEG-, GIF- und BMP-Dateien akzeptiert. Die maximale Größe beträgt 20 MB nach der Transcodierung in PNG. Wenn Sie ein Maskenbild bereitstellen, muss es dieselben Abmessungen wie das Basisbild haben. |
maskImageConfig.maskMode |
Erforderlich, wenn
|
maskImageConfig.dilation |
Optional. Bereich: [0, 1]. Der Prozentsatz der Bildbreite, um die Maske zu erweitern. So können Sie ungenaue Masken ausgleichen.
Für optimale Ergebnisse empfehlen wir die folgenden
|
maskImageConfig.maskClasses |
Optional. Maskenklassen für den Modus |
Parameter
| Parameter | |
|---|---|
addWatermark |
Optional. Fügen Sie den generierten Bildern ein unsichtbares Wasserzeichen hinzu.
Der Standardwert ist |
baseSteps |
Optional. Die Anzahl der Stichprobenschritte. Ein höherer Wert führt zu einer besseren Bildqualität, ein niedrigerer Wert zu einer geringeren Latenz. Die Standardeinstellung ist
Bei kleineren Maskenbereichen oder im Modus „Entfernen“ oder „Einfügen“ können Sie die Schritte |
editMode
|
Für die Maskenbearbeitung erforderlich. Ein Enum mit einem der folgenden Werte:
|
guidanceScale |
Optional. Steuert, wie sehr sich das Modell an den Text-Prompt hält. Große Werte erhöhen die Ausrichtung der Ausgabe am Prompt, können jedoch die Bildqualität beeinträchtigen.
Akzeptierter Bereich:
Standard: |
includeRaiReason |
Optional. Gibt an, ob in der Antwort ein Sicherheitsgrund für gefilterte Bilder angegeben werden soll. Der Standardwert ist |
includeSafetyAttributes |
Optional. Gibt an, ob die Sicherheitsbewertungen der einzelnen Bilder in der Antwort gemeldet werden sollen. Der Standardwert ist |
language |
Optional. Der Sprachcode, der der Sprache Ihres Text-Prompts entspricht. Folgende Werte werden unterstützt:
|
negativePrompt |
Optional. Eine Beschreibung dessen, was in den generierten Bildern verhindert werden sollte. |
outputOptions |
Optional. Beschreibt das Ausgabeformat des Bildes in einem |
personGeneration |
Optional. Das Modell darf Bilder von Personen generieren. Folgende Werte werden unterstützt:
Bei der maskenbasierten Bearbeitung ist |
sampleCount |
Optional. Die Anzahl der zu generierenden Bilder. Der Standardwert ist 4. |
seed |
Optional. Der Zufalls-Seed für die Bildgenerierung. Diese Option ist nicht verfügbar, wenn |
safetySetting |
Optional. Fügt der Sicherheitsfilterung eine Filterebene hinzu. Folgende Werte werden unterstützt:
Der Standardwert ist
|
storageUri |
Optional. Der Cloud Storage-URI, unter dem die generierten Bilder gespeichert werden sollen. |
Objekt für Ausgabeoptionen
Das outputOptions-Objekt beschreibt die Bildausgabe.
| Parameter | |
|---|---|
outputOptions.mimeType |
Optional. Das Bildformat, in dem die Ausgabe gespeichert werden soll. Folgende Werte werden unterstützt:
Der Standardwert ist |
outputOptions.compressionQuality |
Optional. Der Komprimierungsgrad, wenn der Ausgabetyp |
Beispielanfrage
REST
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
-
REGION: Die Region, in der sich Ihr Projekt befindet. Weitere Informationen zu unterstützten Regionen finden Sie unter Generative AI in Vertex AI-Standorten. -
PROJECT_ID: Ihre Google Cloud -Projekt-ID. -
TEXT_PROMPT: Optional. Ein Text-Prompt, der die vom Modell generierten Bilder steuert. Die besten Ergebnisse erzielen Sie, wenn Sie eine Beschreibung des maskierten Bereichs verwenden und Prompts mit nur einem Wort vermeiden. Verwenden Sie beispielsweise „ein süßer Corgi“ anstelle von „Corgi“. -
B64_BASE_IMAGE: Ein base64-codiertes Bild des bearbeiteten Bildes mit einer Größe von maximal 10 MB. Weitere Informationen zur Base64-Codierung finden Sie unter Dateien mit Base64 codieren und decodieren. -
B64_MASK_IMAGE: Ein base64-codiertes Schwarz-Weiß-Maskenbild mit einer Größe von maximal 10 MB. -
MASK_DILATION: Optional. Ein Gleitkommawert zwischen 0 und 1 (einschließlich), der den Prozentsatz der Bildbreite angibt, um den die Maske vergrößert werden soll. Die Verwendung vondilationkann ungenaue Masken ausgleichen. Wir empfehlen einen Wert von0.01. -
EDIT_STEPS: Optional. Eine Ganzzahl, die die Anzahl der Stichprobenschritte darstellt. Ein höherer Wert bietet eine bessere Bildqualität, ein niedrigerer Wert eine bessere Latenz.Wir empfehlen, zuerst
35Schritte auszuprobieren. Wenn die Qualität nicht Ihren Anforderungen entspricht, empfehlen wir, den Wert auf ein oberes Limit von75zu erhöhen. -
SAMPLE_COUNT: Optional. Eine Ganzzahl, die die Anzahl der zu generierenden Bilder angibt. Der zulässige Wertebereich ist1–4. Der Standardwert ist4.
HTTP-Methode und URL:
POST https://REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/publishers/google/models/imagen-3.0-capability-001:predict
JSON-Text der Anfrage:
{
"instances": [
{
"prompt": "TEXT_PROMPT",
"referenceImages": [
{
"referenceType": "REFERENCE_TYPE_RAW",
"referenceId": 1,
"referenceImage": {
"bytesBase64Encoded": "B64_BASE_IMAGE"
}
},
{
"referenceType": "REFERENCE_TYPE_MASK",
"referenceImage": {
"bytesBase64Encoded": "B64_MASK_IMAGE"
},
"maskImageConfig": {
"maskMode": "MASK_MODE_USER_PROVIDED",
"dilation": MASK_DILATION
}
}
]
}
],
"parameters": {
"editConfig": {
"baseSteps": EDIT_STEPS
},
"editMode": "EDIT_MODE_INPAINT_INSERTION",
"sampleCount": SAMPLE_COUNT
}
}
Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:
curl
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/publishers/google/models/imagen-3.0-capability-001:predict"
PowerShell
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/publishers/google/models/imagen-3.0-capability-001:predict" | Select-Object -Expand Content
"sampleCount": 2. Die Antwort gibt zwei Vorhersageobjekte zurück, wobei die generierten Bildbyte base64-codiert sind.
{
"predictions": [
{
"bytesBase64Encoded": "BASE64_IMG_BYTES",
"mimeType": "image/png"
},
{
"mimeType": "image/png",
"bytesBase64Encoded": "BASE64_IMG_BYTES"
}
]
}
Klassen-IDs
Verwenden Sie die folgenden Objektklassen-IDs, um automatisch eine Bildmaske basierend auf bestimmten Objekten zu erstellen.
Klassen-ID (class_) |
Objekt |
|---|---|
| 0 | Rucksack |
| 1 | Regenschirm |
| 2 | Tasche |
| 3 | Krawatte |
| 4 | Koffer |
| 5 | Etui |
| 6 | Vogel |
| 7 | Katze |
| 8 | Hund |
| 9 | Pferd |
| 10 | Schaf |
| 11 | Kuh |
| 12 | Elefant |
| 13 | Bär |
| 14 | Zebra |
| 15 | Giraffe |
| 16 | Tier: Sonstiges |
| 17 | Mikrowelle |
| 18 | Heizkörper |
| 19 | Ofen |
| 20 | Toaster |
| 21 | Speichertank |
| 22 | Förderband |
| 23 | Waschbecken |
| 24 | Kühlschrank |
| 25 | Waschmaschine mit Trockner |
| 26 | Ventilator |
| 27 | Geschirrspülmaschine |
| 28 | Toilette |
| 29 | Badewanne |
| 30 | Dusche |
| 31 | Tunnel |
| 32 | Brücke |
| 33 | Anlegeplatz |
| 34 | Zelt |
| 35 | Gebäude |
| 36 | Raumdecke |
| 37 | Laptop |
| 38 | Tastatur |
| 39 | Maus |
| 40 | Remote |
| 41 | Mobiltelefon |
| 42 | Fernseher |
| 43 | Boden |
| 44 | Bühne |
| 45 | Banane |
| 46 | Apfel |
| 47 | Sandwich |
| 48 | Orange |
| 49 | Brokkoli |
| 50 | Karotte |
| 51 | Hotdog |
| 52 | Pizza |
| 53 | Donut |
| 54 | Kuchen |
| 55 | Obst (Sonstiges) |
| 56 | Essen (Sonstiges) |
| 57 | Stuhl (Sonstiges) |
| 58 | Sessel |
| 59 | Drehstuhl |
| 60 | Hocker |
| 61 | Stuhl |
| 62 | Sofa |
| 63 | Papierkorb |
| 64 | Topfpflanze |
| 65 | Nachttisch |
| 66 | Bett |
| 67 | Tabelle |
| 68 | Billardtisch |
| 69 | Fass |
| 70 | Schreibtisch |
| 71 | Polsterhocker |
| 72 | Kleiderschrank |
| 73 | Kinderbett |
| 74 | Korb |
| 75 | Kommode |
| 76 | Bücherregal |
| 77 | Tresen (Sonstiges) |
| 78 | Waschtisch |
| 79 | Kücheninsel |
| 80 | Tür |
| 81 | Beleuchtung (Sonstiges) |
| 82 | Lampe |
| 83 | Wandleuchter |
| 84 | Kronleuchter |
| 85 | Spiegel |
| 86 | Whiteboard |
| 87 | Ablage |
| 88 | Treppe |
| 89 | Rolltreppe |
| 90 | Schrank |
| 91 | Kamin |
| 92 | Herd |
| 93 | Arcade-Automat |
| 94 | Schotter |
| 95 | Plattform |
| 96 | Spielfeld |
| 97 | Eisenbahn |
| 98 | Straße |
| 99 | Schnee |
| 100 | Gehwegpflaster |
| 101 | Startbahn |
| 102 | gelände |
| 103 | Buch |
| 104 | box |
| 105 | Uhr |
| 106 | Vase |
| 107 | Schere |
| 108 | Spielzeug (Sonstiges) |
| 109 | Teddybär |
| 110 | Haartrockner |
| 111 | Zahnbürste |
| 112 | Gemälde |
| 113 | Poster |
| 114 | Schwarzes Brett |
| 115 | Flasche |
| 116 | Tasse |
| 117 | Weinglas |
| 118 | Messer |
| 119 | Fork |
| 120 | Löffel |
| 121 | Schüssel |
| 122 | Tablett |
| 123 | Dunstabzugshaube |
| 124 | Teller |
| 125 | Person |
| 126 | Fahrer (Sonstiges) |
| 127 | Radfahrer |
| 128 | Motorradfahrer |
| 129 | Papier |
| 130 | Straßenlaterne |
| 131 | Straßensperre |
| 132 | Briefkasten |
| 133 | Videoüberwachungskamera |
| 134 | Verteilerkasten |
| 135 | Verkehrsschild |
| 136 | Ampel |
| 137 | Hydrant |
| 138 | Parkuhr |
| 139 | Sitzbank |
| 140 | Fahrradständer |
| 141 | Billboard |
| 142 | Himmel |
| 143 | Pfosten |
| 144 | Zaun |
| 145 | Geländer |
| 146 | Schutzmaßnahmen |
| 147 | Berg |
| 148 | Felsen |
| 149 | Frisbee |
| 150 | Skier |
| 151 | Snowboard |
| 152 | Sportball |
| 153 | Drachen |
| 154 | Baseballschläger |
| 155 | Baseballhandschuh |
| 156 | Skateboard |
| 157 | Surfbrett |
| 158 | Tennisschläger |
| 159 | Netz |
| 160 | Basis |
| 161 | Skulptur |
| 162 | Spalte |
| 163 | Brunnen |
| 164 | Markise |
| 165 | Bekleidung |
| 166 | Banner |
| 167 | Fahne |
| 168 | Decke |
| 169 | Vorhang (Sonstiges) |
| 170 | Duschvorhang |
| 171 | Kissen |
| 172 | Handtuch |
| 173 | Teppich |
| 174 | Vegetation |
| 175 | Fahrrad |
| 176 | Auto |
| 177 | Autorikscha |
| 178 | Motorrad |
| 179 | Flugzeug |
| 180 | Bus |
| 181 | Zug |
| 182 | Lkw |
| 183 | Trailer |
| 184 | Boot |
| 185 | Langsames Objekt mit Rädern |
| 186 | Fluss/See |
| 187 | Meer |
| 188 | Wasser (Sonstiges) |
| 189 | Schwimmbad |
| 190 | Wasserfall |
| 191 | Mauer |
| 192 | Fenster |
| 193 | Jalousie |
Nächste Schritte
- Weitere Informationen finden Sie unter Imagen in Vertex AI.