Texteinbettungen mit einem offenen Modell und der Funktion AI.GENERATE_EMBEDDING generieren

In dieser Anleitung erfahren Sie, wie Sie ein Remote-Modell erstellen, das auf dem Open-Source-Modell zur Texteinbettung Qwen3-Embedding-0.6B basiert. Außerdem wird gezeigt, wie Sie dieses Modell mit der AI.GENERATE_EMBEDDING-Funktion verwenden, um Filmbesprechungen aus der öffentlichen Tabelle bigquery-public-data.imdb.reviews einzubetten.

Erforderliche Berechtigungen

Zum Ausführen dieser Anleitung benötigen Sie die folgenden IAM-Rollen (Identity and Access Management):

  • BigQuery-Datasets, ‑Verbindungen und ‑Modelle erstellen und verwenden: BigQuery-Administrator (roles/bigquery.admin).
  • Gewähren Sie dem Dienstkonto der Verbindung Berechtigungen: Projekt-IAM-Administrator (roles/resourcemanager.projectIamAdmin).
  • Modelle in Vertex AI bereitstellen und die Bereitstellung aufheben: Vertex AI-Administrator (roles/aiplatform.admin).

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Ausführen der Aufgaben in diesem Dokument erforderlich sind. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die erforderlichen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

  • Dataset erstellen: bigquery.datasets.create
  • Verbindung erstellen, delegieren und verwenden: bigquery.connections.*
  • Standardverbindung festlegen: bigquery.config.*
  • Dienstkontoberechtigungen festlegen: resourcemanager.projects.getIamPolicy und resourcemanager.projects.setIamPolicy
  • Vertex AI-Modell bereitstellen und die Bereitstellung aufheben:
    • aiplatform.endpoints.deploy
    • aiplatform.endpoints.undeploy
  • Modell erstellen und Inferenz ausführen:
    • bigquery.jobs.create
    • bigquery.models.create
    • bigquery.models.getData
    • bigquery.models.updateData
    • bigquery.models.updateMetadata

Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

Kosten

In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:

  • BigQuery ML: You incur costs for the data that you process in BigQuery.
  • Vertex AI: You incur costs for calls to the Vertex AI model that's represented by the remote model.

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen.

Neuen Nutzern von Google Cloud steht möglicherweise eine kostenlose Testversion zur Verfügung.

Weitere Informationen zu den Preisen von BigQuery finden Sie unter BigQuery: Preise in der BigQuery-Dokumentation.

Für offene Modelle, die Sie in Vertex AI bereitstellen, wird pro Maschinenstunde abgerechnet. Das bedeutet, dass die Abrechnung beginnt, sobald der Endpunkt vollständig eingerichtet ist, und fortgesetzt wird, bis Sie ihn entfernen. Weitere Informationen zu den Preisen für Vertex AI finden Sie auf der Seite Vertex AI: Preise.

Hinweis

  1. Wählen Sie in der Google Cloud Console auf der Seite für die Projektauswahl ein Google Cloud -Projekt aus oder erstellen Sie eines.

    Rollen, die zum Auswählen oder Erstellen eines Projekts erforderlich sind

    • Projekt auswählen: Für die Auswahl eines Projekts ist keine bestimmte IAM-Rolle erforderlich. Sie können jedes Projekt auswählen, für das Ihnen eine Rolle zugewiesen wurde.
    • Projekt erstellen: Zum Erstellen eines Projekts benötigen Sie die Rolle „Projektersteller“ (roles/resourcemanager.projectCreator), die die Berechtigung resourcemanager.projects.create enthält. Weitere Informationen zum Zuweisen von Rollen

    Zur Projektauswahl

  2. Prüfen Sie, ob für Ihr Google Cloud Projekt die Abrechnung aktiviert ist.

  3. Aktivieren Sie die BigQuery API, die BigQuery Connection API und die Vertex AI API.

    Rollen, die zum Aktivieren von APIs erforderlich sind

    Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (roles/serviceusage.serviceUsageAdmin), die die Berechtigung serviceusage.services.enable enthält. Weitere Informationen zum Zuweisen von Rollen

    APIs aktivieren

Dataset erstellen

Erstellen Sie ein BigQuery-Dataset zum Speichern Ihres ML-Modells.

Console

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    Zur Seite "BigQuery"

  2. Klicken Sie im Bereich Explorer auf den Namen Ihres Projekts.

  3. Klicken Sie auf  Aktionen ansehen > Dataset erstellen.

  4. Führen Sie auf der Seite Dataset erstellen die folgenden Schritte aus:

    • Geben Sie unter Dataset-ID bqml_tutorial ein.

    • Wählen Sie als Standorttyp die Option Multiregional und dann USA aus.

    • Übernehmen Sie die verbleibenden Standardeinstellungen unverändert und klicken Sie auf Dataset erstellen.

bq

Wenn Sie ein neues Dataset erstellen möchten, verwenden Sie den Befehl bq mk --dataset.

  1. Erstellen Sie ein Dataset mit dem Namen bqml_tutorial und legen Sie den Datenspeicherort auf US fest.

    bq mk --dataset \
      --location=US \
      --description "BigQuery ML tutorial dataset." \
      bqml_tutorial
  2. Prüfen Sie, ob das Dataset erstellt wurde:

    bq ls

API

Rufen Sie die Methode datasets.insert mit einer definierten Dataset-Ressource auf.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

Remote-Modell erstellen

Erstellen Sie ein Remote-Modell, das ein gehostetes Vertex AI-Modell darstellt:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Führen Sie im Abfrageeditor folgende Abfrage aus:

CREATE OR REPLACE MODEL `bqml_tutorial.qwen3_embedding_model`
  REMOTE WITH CONNECTION DEFAULT
  OPTIONS (
    HUGGING_FACE_MODEL_ID = 'Qwen/Qwen3-Embedding-0.6B'
);

Die Abfrage kann bis zu 20 Minuten dauern. Anschließend wird das Modell qwen3_embedding_model im bqml_tutorial-Dataset des Bereichs Explorer angezeigt. Da die Abfrage eine CREATE MODEL-Anweisung zum Erstellen eines Modells verwendet, gibt es keine Abfrageergebnisse.

Texteinbettung durchführen

Führen Sie mithilfe des Remote-Modells und der AI.GENERATE_EMBEDDING-Funktion die Texteinbettung für IMDB-Filmrezensionen durch:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Geben Sie im Abfrageeditor die folgende Anweisung ein, um Text-Embeddings für fünf Filmrezensionen zu erstellen:

    SELECT
      *
    FROM
      AI.GENERATE_EMBEDDING(
        MODEL `bqml_tutorial.qwen3_embedding_model`,
        (
          SELECT
            review AS content,
            *
          FROM
            `bigquery-public-data.imdb.reviews`
          LIMIT 5
        )
      );

    Die Ergebnisse enthalten die folgenden Spalten:

    • embedding: ein Array von Doubles, das die generierten Einbettungen darstellt.
    • status: API-Antwortstatus für die entsprechende Zeile. Wenn der Vorgang erfolgreich war, ist dieser Wert leer.
    • content: Der Eingabetext, aus dem Einbettungen extrahiert werden sollen.
    • Alle Spalten aus der bigquery-public-data.imdb.reviews-Tabelle.

Bereitstellung des Modells aufheben

Wenn Sie Ihr Projekt nicht wie empfohlen löschen, müssen Sie die Bereitstellung des Qwen3-Einbettungsmodells in Vertex AI aufheben, um weitere Abrechnungen dafür zu vermeiden. BigQuery hebt die Bereitstellung des Modells nach einem bestimmten Zeitraum der Inaktivität (standardmäßig 6,5 Stunden) automatisch auf. Alternativ können Sie die Bereitstellung des Modells sofort aufheben, indem Sie die ALTER MODEL-Anweisung verwenden, wie im folgenden Beispiel gezeigt:

ALTER MODEL `bqml_tutorial.qwen3_embedding_model`
SET OPTIONS (deploy_model = false);

Weitere Informationen finden Sie unter Automatisches oder sofortiges Entfernen der Bereitstellung von Open-Source-Modellen.

Bereinigen

  1. Wechseln Sie in der Google Cloud -Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Nächste Schritte