Texteinbettungen mit einem offenen Modell und der Funktion AI.GENERATE_EMBEDDING generieren
In dieser Anleitung erfahren Sie, wie Sie ein
Remote-Modell
erstellen, das auf dem
Open-Source-Texteinbettungsmodell Qwen3-Embedding-0.6Bbasiert. Anschließend wird gezeigt, wie Sie dieses Modell mit der
AI.GENERATE_EMBEDDING Funktion
verwenden, um Filmbewertungen aus der bigquery-public-data.imdb.reviews öffentlichen Tabelle einzubetten.
Erforderliche Berechtigungen
Zum Ausführen dieser Anleitung benötigen Sie die folgenden IAM-Rollen (Identity and Access Management):
- BigQuery-Datasets, -Verbindungen und -Modelle erstellen und verwenden: BigQuery-Administrator (
roles/bigquery.admin) - Berechtigungen für das Dienstkonto der Verbindung erteilen: Projekt-IAM-Administrator (
roles/resourcemanager.projectIamAdmin) - Modelle in der Gemini Enterprise Agent Platform bereitstellen und die Bereitstellung aufheben: Vertex AI-Administrator (
roles/aiplatform.admin)
Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Ausführen der Aufgaben in diesem Dokument erforderlich sind. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die erforderlichen Berechtigungen anzuzeigen:
Erforderliche Berechtigungen
- Dataset erstellen:
bigquery.datasets.create - Verbindung erstellen, delegieren und verwenden:
bigquery.connections.* - Standardverbindung festlegen:
bigquery.config.* - Berechtigungen für Dienstkonten festlegen:
resourcemanager.projects.getIamPolicyundresourcemanager.projects.setIamPolicy - Agent Platform-Modell bereitstellen und Bereitstellung aufheben:
aiplatform.endpoints.deployaiplatform.endpoints.undeploy
- Modell erstellen und Inferenz ausführen:
bigquery.jobs.createbigquery.models.createbigquery.models.getDatabigquery.models.updateDatabigquery.models.updateMetadata
Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.
Kosten
In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:
- BigQuery ML: You incur costs for the data that you process in BigQuery.
- Gemini Enterprise Agent Platform: You incur costs for calls to the Agent Platform model that's represented by the remote model.
Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen.
Verwenden Sie den Preisrechner.
Weitere Informationen zu den Preisen von BigQuery finden Sie unter BigQuery: Preise in der BigQuery-Dokumentation.
Für offene Modelle, die Sie in der Agent Platform bereitstellen, werden Kosten pro Maschinenstunde berechnet. Die Abrechnung beginnt, sobald der Endpunkt vollständig eingerichtet ist, und wird fortgesetzt, bis Sie die Bereitstellung aufheben. Weitere Informationen zu den Preisen der Agent Platform finden Sie auf der Seite Preise der Agent Platform.
Hinweis
-
Wählen Sie in der Google Cloud Console auf der Seite für die Projektauswahl ein Projekt vonaus oder erstellen Sie eines Google Cloud .
Erforderliche Rollen zum Auswählen oder Erstellen eines Projekts
- Projekt auswählen: Für die Auswahl eines Projekts ist keine bestimmte IAM-Rolle erforderlich. Sie können jedes Projekt auswählen, für das Ihnen eine Rolle zugewiesen wurde.
-
Projekt erstellen: Zum Erstellen eines Projekts benötigen Sie die Rolle „Projektersteller“
(
roles/resourcemanager.projectCreator), die dieresourcemanager.projects.createBerechtigung enthält. Informationen zum Zuweisen von Rollen.
-
Prüfen Sie, ob für Ihr Google Cloud Projekt die Abrechnung aktiviert ist.
-
Aktivieren Sie die BigQuery API, die BigQuery Connection API und die Agent Platform API.
Erforderliche Rollen zum Aktivieren von APIs
Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (
roles/serviceusage.serviceUsageAdmin), die die Berechtigungserviceusage.services.enableenthält. Informationen zum Zuweisen von Rollen.
Dataset erstellen
Erstellen Sie ein BigQuery-Dataset, um Ihr ML-Modell zu speichern.
Console
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Klicken Sie im Bereich Explorer auf den Namen Ihres Projekts.
Klicken Sie auf Aktionen ansehen > Dataset erstellen.
Führen Sie auf der Seite Dataset erstellen die folgenden Schritte aus:
Geben Sie unter Dataset-ID
bqml_tutorialein.Wählen Sie als Standorttyp die Option Multiregional und dann USA aus.
Übernehmen Sie die verbleibenden Standardeinstellungen unverändert und klicken Sie auf Dataset erstellen.
bq
Verwenden Sie den
bq mk --dataset Befehl, um ein neues Dataset zu erstellen.
Erstellen Sie ein Dataset mit dem Namen
bqml_tutorialund legen Sie den Datenstandort aufUSfest.bq mk --dataset \ --location=US \ --description "BigQuery ML tutorial dataset." \ bqml_tutorial
Prüfen Sie, ob das Dataset erstellt wurde:
bq ls
API
Rufen Sie die datasets.insert
Methode mit einer definierten Dataset-Ressource auf.
{ "datasetReference": { "datasetId": "bqml_tutorial" } }
Remote-Modell erstellen
Erstellen Sie ein Remote-Modell, das ein gehostetes Agent Platform-Modell darstellt:
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Führen Sie im Abfrageeditor folgende Abfrage aus:
CREATE OR REPLACE MODEL `bqml_tutorial.qwen3_embedding_model` REMOTE WITH CONNECTION DEFAULT OPTIONS ( HUGGING_FACE_MODEL_ID = 'Qwen/Qwen3-Embedding-0.6B' );
Die Abfrage dauert bis zu 20 Minuten. Anschließend wird das Modell qwen3_embedding_model im Dataset bqml_tutorial des Bereichs Explorer angezeigt. Da die Abfrage eine CREATE MODEL-Anweisung zum Erstellen eines Modells verwendet, gibt es keine Abfrageergebnisse.
Texteinbettung ausführen
Führen Sie mithilfe des Remote-Modells und der AI.GENERATE_EMBEDDING Funktion eine Texteinbettung für IMDB Filmbewertungen durch:
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Geben Sie im Abfrageeditor die folgende Anweisung ein, um eine Texteinbettung für fünf Filmbewertungen durchzuführen:
SELECT * FROM AI.GENERATE_EMBEDDING( MODEL `bqml_tutorial.qwen3_embedding_model`, ( SELECT review AS content, * FROM `bigquery-public-data.imdb.reviews` LIMIT 5 ) );
Die Ergebnisse enthalten die folgenden Spalten:
embedding: ein Array von Double-Werten, das die generierten Einbettungen darstellt.status: API-Antwortstatus für die entsprechende Zeile. Wenn der Vorgang erfolgreich war, ist dieser Wert leer.content: der Eingabetext, aus dem Einbettungen extrahiert werden sollen.- Alle Spalten aus der Tabelle
bigquery-public-data.imdb.reviews.
Bereitstellung des Modells aufheben
Wenn Sie Ihr Projekt nicht wie empfohlen löschen, müssen Sie die Bereitstellung des Qwen3-Einbettungsmodells in der Agent Platform aufheben, um weitere Abrechnungen zu vermeiden. BigQuery hebt die Bereitstellung des Modells nach einem bestimmten Zeitraum der Inaktivität automatisch auf (standardmäßig 6,5 Stunden).
Alternativ können Sie die Bereitstellung des Modells sofort aufheben. Verwenden Sie dazu die
ALTER MODEL Anweisung,
wie im folgenden Beispiel gezeigt:
ALTER MODEL `bqml_tutorial.qwen3_embedding_model` SET OPTIONS (deploy_model = false);
Weitere Informationen finden Sie unter Automatische oder sofortige Aufhebung der Bereitstellung eines offenen Modells.
Bereinigen
- Wechseln Sie in der Google Cloud Console zur Seite Ressourcen verwalten.
- Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
- Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Herunterfahren), um das Projekt zu löschen.
Nächste Schritte
- Informationen zur Verwendung von Texteinbettungen für die semantische Suche und Retrieval-Augmented Generation (RAG)