Kosten für KI-Funktionen optimieren

In diesem Dokument wird beschrieben, wie Sie den optimierten Modus für verwaltete KI Funktionen in BigQuery verwenden. In diesem Modus können Sie umfangreiche Datasets mit Tausenden oder sogar Milliarden von Zeilen verarbeiten. Dabei wird im Vergleich zur standardmäßigen LLM-Inferenz pro Zeile deutlich weniger Token des Large Language Model (LLM) verbraucht und die Abfragelatenz ist geringer.

Im folgenden Beispiel wird veranschaulicht, wie Sie die AI.CLASSIFY Funktion im optimierten Modus verwenden, um Nachrichtenartikel zu kategorisieren. Dabei wird text-embedding-005 als Einbettungsmodell verwendet:

SELECT
  title,
  body,
  AI.CLASSIFY(
    body,
    categories => ['tech', 'sport', 'business', 'other'],
    embeddings => AI.EMBED(body, endpoint => 'text-embedding-005', task_type => 'CLASSIFICATION').result,
    -- Optional, 'MINIMIZE_COST' is the default when embeddings are provided.
    optimization_mode => 'MINIMIZE_COST'
   ) AS category
FROM
  `bigquery-public-data.bbc_news.fulltext`;

Das optimization_mode => 'MINIMIZE_COST' Argument aktiviert den optimierten Modus. Dies ist die Standardeinstellung, wenn Einbettungen bereitgestellt werden. Sie können dieses Argument also weglassen.

In diesem Beispiel werden Einbettungen spontan generiert. In der Praxis empfehlen wir, Einbettungen zu materialisieren, damit sie wiederverwendet werden können.

Funktionsweise des optimierten Modus

Die verwalteten KI-Funktionen AI.IF und AI.CLASSIFY rufen in der Regel für jede Zeile in Ihrem Dataset ein Remote-LLM auf. Wenn Sie den optimierten Modus verwenden, trainiert BigQuery während der Abfrageausführung automatisch ein leichtgewichtiges, destilliertes Modell.

Der Prozess funktioniert so:

Workflow für KI-Funktionen, wenn der optimierte Modus aktiviert ist

  • Sampling und Labeling: BigQuery wählt eine kleine repräsentative Stichprobe Ihrer Daten aus und ruft Gemini auf, um Labels bereitzustellen.
  • Training des destillierten Modells: Ein lokales destilliertes Modell wird spontan mit den LLM-Labels und Dateneinbettungen als Features trainiert.
  • Qualitätsprüfung: BigQuery vergleicht die Genauigkeit des destillierten Modells mit den Ergebnissen des LLM. Wenn das destillierte Modell den erforderlichen Qualitätsschwellenwert nicht erreicht, schlägt die Abfrage standardmäßig mit einem Fehler fehl, in dem erläutert wird, warum das Modell verworfen wurde. Wenn die Qualität des Modells akzeptabel ist, greift BigQuery möglicherweise trotzdem für bestimmte Zeilen auf das Remote-LLM zurück, um eine gleichbleibende Qualität zu gewährleisten, oder für Zeilen, denen gültige Einbettungen fehlen.
  • Inferenz: Das destillierte Modell verarbeitet die meisten Zeilen, wodurch die Anzahl der Gemini-Aufrufe erheblich reduziert wird.

Beschränkungen

Für den optimierten Modus gelten die folgenden Beschränkungen:

  • Mindestanzahl von Zeilen: Die Eingabe für die KI-Funktion muss ungefähr 3.000 Zeilen enthalten,damit genügend Daten für das Modelltraining vorhanden sind.
  • Datentypen: Bei Prompts, die auf mehrere Spalten verweisen, werden für die Optimierung nur String spalten unterstützt.
  • Klassifizierung mit mehreren Labels: AI.CLASSIFY mit output_mode => 'multi' wird im optimierten Modus nicht unterstützt.
  • Funktionsunterstützung: Nur die Funktionen AI.IF und AI.CLASSIFY unterstützen den optimierten Modus.
  • Fehlerrate: Das max_error_ratio Argument wird im optimierten Modus nicht unterstützt.

Hinweis

Informationen zu den Berechtigungen, die Sie zum Ausführen verwalteter KI-Funktionen in BigQuery benötigen, finden Sie unter Berechtigungen für generative KI-Funktionen festlegen, die Vertex AI LLMs aufrufen.

Einbettungsmodell auswählen

Wenn Sie den optimierten Modus verwenden möchten, müssen Sie Einbettungen für Ihre Daten berechnen und sie der KI-Funktion zur Verfügung stellen. Damit Eingabespalten zugeordnete Einbettungen haben, müssen alle Zeilen konsistente Einbettungsdimensionen aufweisen und vom selben Einbettungsmodell generiert werden.

Für die beste Kosten-Qualitäts-Balance und Skalierbarkeit empfehlen wir, Einbettungen für Ihre Daten mit einem Einbettungsmodell wie text-embedding-005 oder den Gemini-Einbettungen für englische oder mehrsprachige Aufgaben zu berechnen. Verwenden Sie für multimodale Daten (Text und Bilder) ein multimodales Einbettungsmodell wie multimodalembedding@001.

Einbettungen generieren

Sie können Einbettungen für Ihre Daten mit der autonomen Generierung durch BigQuery berechnen oder die Einbettungsspalten manuell erstellen. In den folgenden Abschnitten wird beschrieben, wie Sie beide Ansätze mit den Funktionen AI.CLASSIFY und AI.IF verwenden.

Autonome Generierung von Einbettungen

Wenn Sie die autonome Generierung von Einbettungen verwenden, verwendet BigQuery die Einbettungen automatisch, wenn AI.IF oder AI.CLASSIFY aufgerufen werden. Dies ist der empfohlene Ansatz, ist aber auf eine Einbettungsspalte pro Tabelle beschränkt.

Im folgenden Beispiel wird eine Tabelle mit einer autonom generierten Einbettungsspalte erstellt. Dabei wird text-embedding-005 als Einbettungsmodell verwendet. Anschließend werden die Daten mit der Funktion AI.CLASSIFY kategorisiert:

-- Create a table with an autonomously generated embedding column
CREATE TABLE my_dataset.bbc_news (
  title STRING,
  body STRING,
  body_embedding STRUCT<result ARRAY<FLOAT64>, status STRING>
    GENERATED ALWAYS AS (
      AI.EMBED(
        body,
        connection_id => '<my_connection_id>',
        task_type => 'CLASSIFICATION',
        endpoint => 'text-embedding-005')
    ) STORED
    OPTIONS(asynchronous = TRUE)
);

-- Insert data into the table
INSERT INTO my_dataset.bbc_news (title, body)
SELECT title, body FROM `bigquery-public-data.bbc_news.fulltext`;

-- Run the optimized query.
-- Wait for the background job to finish generating embeddings before running.
SELECT
  title,
  body,
  AI.CLASSIFY(
    body,
    categories => ['tech', 'sport', 'business', 'other']
  ) AS category
FROM
  my_dataset.bbc_news;

Manuelle Spaltenspezifikation

Wenn Sie eine vorhandene Einbettungsspalte haben, geben Sie sie im Argument embeddings von AI.IF oder AI.CLASSIFY an. Sie können sie mit der AI.EMBED Funktion generieren.

Im folgenden Beispiel wird veranschaulicht, wie Sie eine Tabelle mit einer Einbettungsspalte erstellen. Dabei wird text-embedding-005 als Einbettungsmodell verwendet. Anschließend wird diese Spalte in einer AI.CLASSIFY-Abfrage verwendet:

-- Create a table with an embedding column
CREATE TABLE my_dataset.bbc_news AS
SELECT
  title,
  body,
  AI.EMBED(
    body,
    endpoint => 'text-embedding-005',
    task_type => 'CLASSIFICATION'
  ).result AS body_embedding
FROM
  `bigquery-public-data.bbc_news.fulltext`;

-- Run the optimized query
SELECT
  title,
  body,
  AI.CLASSIFY(
    body,
    categories => ['tech', 'sport', 'business', 'other'],
    embeddings => body_embedding,
  ) AS category
FROM
  my_dataset.bbc_news;

Wenn Ihr Prompt auf mehrere Spalten verweist, geben Sie im Argument embeddings eine Liste mit Spaltennamen und den entsprechenden Einbettungen an. Beispiel: embeddings => [('body', body_embedding), ('title', title_embedding)].

Abfrageoptimierung überwachen

Wenn Sie prüfen möchten, wie viele Zeilen während der Abfrageausführung optimiert wurden, können Sie sich die Ausführungsstatistiken in der Google Cloud Console oder über die API ansehen:

Console

So sehen Sie, wie viele Zeilen optimiert wurden, und rufen Systemmeldungen zum Optimierungsstatus auf:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie im Navigationsmenü auf Job Explorer.

  3. Klicken Sie auf die Job-ID, um den Bereich Jobdetails aufzurufen.

  4. Klicken Sie auf den Tab Jobinformationen und sehen Sie sich die Messwerte und den Status im Feld Optimierungen für generative KI-Funktionen an.

    Feld „Optimierungen für Funktionen der generativen KI“ auf dem Tab „Jobinformationen“

API

Prüfen Sie FunctionGenAiCostOptimizationStats im Objekt GenAIFunctionStats der Jobmetadaten. Dieses Objekt enthält die Anzahl der Zeilen, die mit dem optimierten Workflow abgeleitet wurden, und systemgenerierte Meldungen, die Einblicke in den Optimierungsstatus geben.

Fehlerbehebung

In den folgenden Abschnitten wird beschrieben, wie Sie häufige Probleme bei der Verwendung des optimierten Modus diagnostizieren und beheben.

Datengröße zu klein

Problem: Nicht genügend Daten für das Modelltraining. Möglicherweise wird die folgende Fehlermeldung angezeigt: Fail to apply cost optimization because the data size is too small.

Lösung: Erhöhen Sie die Größe der Eingabe auf ungefähr 3.000 Zeilen und prüfen Sie,ob für alle Zeilen gültige Einbettungen generiert wurden.

In einigen Klassen nur wenige oder keine Stichproben

Problem: Während der Sampling-Phase nicht genügend Stichproben für bestimmte Kategorien, wodurch das Modelltraining verhindert wird. Möglicherweise wird die folgende Fehlermeldung angezeigt: Fail to apply cost optimization because some classes have few or no samples.

Lösung:

  • Entfernen Sie seltene Kategorien aus dem AI.CLASSIFY-Funktionsaufruf.
  • Kombinieren Sie mehrere seltene Kategorien zu einer umfassenderen Kategorie, um die Stichprobengröße in der kombinierten Kategorie zu erhöhen. Kombinieren Sie beispielsweise mehrere seltene Kategorien zu einer Kategorie OTHER.

Einbettungen haben inkonsistente Dimensionen

Problem: Inkonsistenzen zwischen den Einbettungsdimensionen in den Zeilen. Möglicherweise wird die folgende Fehlermeldung angezeigt: Fail to apply cost optimization because the embeddings have inconsistent dimensions.

Lösung: Prüfen Sie, ob die Einbettungen vom selben Modell generiert wurden und dieselben Einbettungsvektorlänge haben. Mit einer SQL-Abfrage wie der folgenden können Sie prüfen, ob die Einbettungen in einer Spalte dieselbe Länge haben:

SELECT ARRAY_LENGTH(body_embedding.result), COUNT(*)
FROM `PROJECT_ID.DATASET.TABLE_NAME`
GROUP BY 1;

Prompt-Komplexität zu hoch

Problem: Das destillierte Modell kann keinen hohen Genauigkeitsschwellenwert erreichen. Möglicherweise wird die folgende Fehlermeldung angezeigt: Fail to apply cost optimization because the prompt complexity is too high.

Lösung:

  • Verwenden Sie sich gegenseitig ausschließende Kategorien.

    • Vermeiden Sie überlappende Kategorien, bei denen eine Eingabe gleichzeitig zu mehreren Kategorien gehören kann. Vermeiden Sie beispielsweise Kategorien wie ['terrible', 'bad', 'okay', 'good', 'excellent'].
    • Geben Sie Kategoriebeschreibungen an, um das LLM bei der Auflösung von Mehrdeutigkeiten zwischen Kategorien zu unterstützen. Beispiel:

      AI.CLASSIFY(
        review,
        categories => [
          ('terrible', 'Review where customer was not happy and the message indicates they will never try this product again'),
          ('bad', 'Review where customer was not happy but suggested improvements to the product'),
          ('okay', 'Review where customer was neutral about the product. Short reviews qualify for this category'),
          ('good', 'Review where customers were happy using this product but had minor critiques'),
          ('excellent', 'Review where customers were very happy using this product and will recommend others to try it too')],
        embeddings => review_embeddings)
      
  • Verwenden Sie komplexere Einbettungsmodelle wie text-embedding-005 oder multimodalembedding.

  • Wenden Sie sich an bqml-feedback@google.com, um weitere Unterstützung bei der Fehlerbehebung zu erhalten.

Unerwartete Anzahl von Zeilen, die vom LLM verarbeitet wurden

Problem: Die Statistiken zur Abfrageausführung zeigen, dass eine unerwartet hohe Anzahl von Zeilen vom Remote-LLM anstelle des destillierten Modells verarbeitet wurde. Das kann folgende Gründe haben:

  • Das destillierte Modell wurde erfolgreich trainiert, aber für einige Zeilen fehlen Einbettungen. Diese Zeilen werden vom Remote-LLM verarbeitet.
  • Das destillierte Modell konnte nicht für jede Zeile angewendet werden und musste auf das Remote-LLM zurückgreifen, um eine gleichbleibende Qualität zu gewährleisten.

Lösung: Prüfen Sie, ob Einbettungen für alle Zeilen in Ihren Daten ordnungsgemäß generiert wurden und gültig sind. Wenn das Problem weiterhin besteht, wenden Sie sich zur Fehlerbehebung an bqml-feedback@google.com.

Autonome Einbettungsspalte nicht erkannt

Problem: BigQuery kann keine autonome Einbettungs spalte erkennen. Das kann passieren, wenn in Ihrem Skript eine temporäre Tabelle verwendet wird und der Verweis auf die ursprüngliche Tabelle verloren geht.

Lösung: Verwenden Sie den embeddings Parameter, um explizit eine autonome Einbettungsspalte zu übergeben, z. B. embeddings => content_embedding.result. Dadurch wird die Kostenoptimierung ausgelöst.

Nächste Schritte