Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

자율 임베딩 생성

이 문서에서는 데이터에 자율 임베딩 생성을 사용하여 BigQuery가 소스 열을 기반으로 테이블의 임베딩 열을 유지관리하도록 하는 방법을 설명합니다. 소스 열의 데이터 유형은 STRING 또는 ObjectRef이어야 합니다. 소스 열에 데이터를 추가하거나 수정하면 BigQuery는 Agent Platform 임베딩 모델을 사용하여 해당 데이터의 임베딩 열을 자동으로 생성하거나 업데이트합니다. 소스 데이터가 정기적으로 업데이트될 때 BigQuery에서 삽입을 유지하도록 하려는 경우에 유용합니다.

임베딩은 검색 증강 생성 (RAG)과 같은 최신 생성형 AI 애플리케이션에 유용하지만 생성, 관리, 쿼리가 복잡할 수 있습니다. 자율 임베딩 생성을 사용하여 유사성 검색 및 기타 생성형 AI 애플리케이션에 사용할 임베딩을 생성, 유지, 쿼리하는 프로세스를 간소화할 수 있습니다.

예를 들어 다음과 유사한 쿼리를 사용하여 자율 임베딩 생성이 사용 설정된 테이블을 만들고, 데이터를 삽입한 다음, 시맨틱 검색을 실행할 수 있습니다.

CREATE TABLE mydataset.products (
  name STRING,
  description STRING,
  description_embedding STRUCT<result ARRAY<FLOAT64>, status STRING>
    GENERATED ALWAYS AS (
      AI.EMBED(description, connection_id => 'us.example_connection',
        endpoint => 'text-embedding-005')
      # Alternatively, you can use the syntax for a built-in model.
      # AI.EMBED(description, model => 'embeddinggemma-300m')
    ) STORED OPTIONS( asynchronous = TRUE ));

# Values in the description_embedding column are automatically generated.
INSERT INTO mydataset.products (name, description) VALUES
  ('Super slingers', 'An exciting board game for the whole family'), ...;

SELECT * FROM AI.SEARCH(TABLE mydataset.products, 'description', 'A really fun toy');

시작하기 전에

표에서 자동 삽입 생성 기능을 사용 설정하려면 필요한 권한과 연결이 있어야 하며 프로젝트에 대해 Vertex AI API를 사용 설정해야 합니다.

필요한 역할

자율 임베딩 생성을 사용 설정하는 데 필요한 권한을 얻으려면 관리자에게 다음 IAM 역할을 부여해 달라고 요청하세요.

연결 리소스를 사용하려면 연결에 대한 BigQuery 연결 사용자 (roles/bigquery.connectionUser)가 있어야 합니다.
테이블을 만들거나 변경하려면 테이블에 대한 BigQuery 데이터 편집자 (roles/bigquery.dataEditor)가 필요합니다.
연결의 서비스 계정이 Agent Platform 엔드포인트에서 호스팅되는 모델에 액세스할 수 있도록 다음 역할을 부여합니다. Agent Platform 사용자 (roles/aiplatform.user) 연결이 있는 프로젝트

역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.

커스텀 역할이나 다른 사전 정의된 역할을 통해 필요한 권한을 얻을 수도 있습니다.

연결 만들기 및 서비스 계정에 권한 부여

표에서 자율 임베딩 생성을 사용 설정하려면 Cloud 리소스 연결을 만들어야 합니다. 그런 다음 연결을 만들 때 생성된 서비스 계정에 에이전트 플랫폼 사용자 역할(roles/aiplatform.user)을 부여합니다.

자동으로 생성된 임베딩 열 만들기

새 테이블 내에 자동 생성된 임베딩 열을 만들거나 기존 테이블에 추가할 수 있습니다.

자동으로 생성된 임베딩 열이 있는 테이블 만들기

자율 임베딩 생성을 사용하여 CREATE TABLE 문에서 AI.EMBED 함수를 사용하여 임베딩을 생성할 수 있습니다.

SQL

CREATE TABLE 문을 사용하여 자동으로 생성된 임베딩 열이 있는 테이블을 만듭니다. 표를 만들려면 다음 단계를 따르세요.

Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.

BigQuery로 이동
쿼리 편집기에서 다음 문을 입력합니다.
```
CREATE TABLE DATASET_ID.TABLE (
  [COLUMN, ...]
  SOURCE_COL { STRING | ObjectRef },
  EMBEDDING_COL_NAME STRUCT<result ARRAY<FLOAT64>, status STRING>
    GENERATED ALWAYS AS (
      AI.EMBED(
        SOURCE_COL,
        {
          connection_id => CONNECTION_ID,
          endpoint => ENDPOINT |
          model => MODEL
        })
    )
    STORED OPTIONS (asynchronous = TRUE)
);
```
다음을 바꿉니다.
- DATASET_ID: 테이블을 만들려는 데이터 세트의 이름입니다.
- TABLE: 자율 임베딩 생성을 만들 테이블의 이름입니다.
- COLUMN, ...: 자동 삽입할 열 외에 테이블에 포함해야 하는 열입니다.
- SOURCE_COL: 자동으로 삽입할 STRING 또는 ObjectRef 열의 이름입니다.
- EMBEDDING_COL_NAME: 자동으로 생성된 임베딩 열의 이름입니다.
- CONNECTION_ID: 사용할 연결의 이름을 포함하는 STRING 값입니다(예: my_project.us.example_connection). 표를 만들 프로젝트에서 연결의 서비스 계정에 에이전트 플랫폼 사용자 역할을 부여해야 합니다.
- ENDPOINT: 텍스트 임베딩 모델에 사용할 지원되는 Agent Platform 텍스트 임베딩 모델 엔드포인트를 지정하는 STRING 값입니다. 지정한 엔드포인트 값에는 모델 버전(예: text-embedding-005)이 포함되어야 합니다. URL 대신 모델 이름을 지정하면 BigQuery ML이 모델을 자동으로 식별하고 모델의 전체 엔드포인트를 사용합니다.
- MODEL (미리보기): 내장 텍스트 임베딩 모델을 지정하는 STRING 값입니다. 지원되는 유일한 값은 embeddinggemma-300m 모델입니다. 이 파라미터를 지정하면 endpoint 또는 connection_id 파라미터를 지정할 수 없습니다. MODEL 매개변수를 지정하면 데이터가 BigQuery에 유지되고 슬롯이 사용되어 삽입이 생성됩니다. 데이터가 Agent Platform으로 전송되지 않으며 Agent Platform에서 요금이 청구되지 않습니다.
실행을 클릭합니다.

쿼리를 실행하는 방법에 대한 자세한 내용은 대화형 쿼리 실행을 참조하세요.

bq

bq 명령줄 도구를 사용하여 자동 생성된 삽입 열이 있는 테이블을 만들려면 테이블 스키마를 정의하는 JSON 스키마 파일과 함께 bq mk 명령어를 사용하세요.

JSON 스키마 파일을 만듭니다. 다음 예시는 소스 열을 기반으로 임베딩 열을 만드는 스키마를 보여줍니다. 이 예에서는 임베딩 생성을 위해 Agent Platform 엔드포인트를 사용합니다.

[
  {
    "name": "SOURCE_COL",
    "type": "STRING"
  },
  {
    "fields": [
      {
        "mode": "REPEATED",
        "name": "result",
        "type": "FLOAT"
      },
      {
        "name": "status",
        "type": "STRING"
      }
    ],
    "generatedColumn": {
      "generationExpressionInfo": {
        "asynchronous": true,
        "generationExpression": "AI.EMBED(SOURCE_COL, connection_id => 'CONNECTION_ID', endpoint => 'ENDPOINT')",
        "stored": true
      },
      "generatedMode": "GENERATED_ALWAYS"
    },
    "name": "EMBEDDING_COL_NAME",
    "type": "RECORD"
  }
]

Agent Platform 엔드포인트 대신 기본 제공 모델을 사용하는 경우 generationExpression에 다음과 유사한 구문을 사용합니다. "AI.EMBED(SOURCE_COL, model => 'MODEL')"

사용할 값에 관한 자세한 내용은 SQL 탭의 SOURCE_COL, EMBEDDING_COL_NAME, CONNECTION_ID, ENDPOINT, MODEL 설명을 참고하세요.

스키마를 schema.json과 같은 파일에 저장합니다.
bq mk --table 명령어를 사용하여 테이블을 만듭니다.
```
bq mk --table DATASET_ID.TABLE schema.json
```

다음을 바꿉니다.

DATASET_ID: 테이블을 만들 데이터 세트의 이름입니다.
TABLE: 자율 임베딩 생성을 만들 테이블의 이름입니다.
COLUMN, ...: 자동으로 삽입할 열 외에 테이블에 포함해야 하는 열입니다.
STRING_COL: 자동으로 삽입할 STRING 열의 이름입니다.
EMBEDDING_COL_NAME: 자동으로 생성된 임베딩 열의 이름입니다.
CONNECTION_ID: 사용할 연결의 이름을 포함하는 STRING 값입니다(예: my_project.us.example_connection). 표를 만드는 프로젝트에서 연결의 서비스 계정에 에이전트 플랫폼 사용자 역할을 부여해야 합니다.
ENDPOINT: 텍스트 임베딩 모델에 사용할 지원되는 Agent Platform 텍스트 임베딩 모델 엔드포인트를 지정하는 STRING 값입니다. 지정하는 엔드포인트 값에는 모델 버전(예: text-embedding-005)이 포함되어야 합니다. URL 대신 모델 이름을 지정하면 BigQuery ML이 모델을 자동으로 식별하고 모델의 전체 엔드포인트를 사용합니다.
MODEL (미리보기): 기본 제공 텍스트 임베딩 모델을 지정하는 STRING 값입니다. 지원되는 유일한 값은 embeddinggemma-300m 모델입니다. 이 파라미터를 지정하면 endpoint 또는 connection_id 파라미터를 지정할 수 없습니다.

MODEL 매개변수를 지정하면 데이터가 BigQuery에 유지되고 슬롯이 임베딩을 만드는 데 사용됩니다. 데이터가 Agent Platform으로 전송되지 않으며 Agent Platform에서 요금이 발생하지 않습니다.

기존 테이블에 자동 생성 임베딩 열 추가

ALTER TABLE ADD COLUMN 문을 사용하여 기존 테이블에 자동으로 생성된 임베딩 열을 추가할 수도 있습니다.

SQL

ALTER TABLE ADD COLUMN 문을 사용하여 기존 테이블에 자동으로 생성된 임베딩 열을 추가합니다. 열을 추가하려면 다음 단계를 따르세요.

Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.

BigQuery로 이동
쿼리 편집기에서 다음 문을 입력합니다.
```
ALTER TABLE DATASET_ID.TABLE
  ADD COLUMN EMBEDDING_COL_NAME
    STRUCT<result ARRAY<FLOAT64>, status STRING>
    GENERATED ALWAYS AS (
      AI.EMBED(
        SOURCE_COL,
        {
          connection_id => CONNECTION_ID,
          endpoint => ENDPOINT |
          model => MODEL
        })
    )
    STORED OPTIONS (asynchronous = TRUE)
;
```
다음을 바꿉니다.
- DATASET_ID: 테이블이 포함된 데이터 세트의 이름입니다.
- TABLE: 자동 생성된 임베딩 열을 추가할 테이블의 이름입니다.
- EMBEDDING_COL_NAME: 자동으로 생성된 임베딩 열의 이름입니다.
- SOURCE_COL: 자동으로 삽입할 STRING 또는 ObjectRef 열의 이름입니다.
- CONNECTION_ID: 사용할 연결의 이름을 포함하는 STRING 값입니다(예: my_project.us.example_connection).
- ENDPOINT: 텍스트 임베딩 모델에 사용할 지원되는 Agent Platform 텍스트 임베딩 모델 엔드포인트를 지정하는 STRING 값입니다.
- MODEL (미리보기): 내장 텍스트 임베딩 모델을 지정하는 STRING 값입니다. 지원되는 유일한 값은 embeddinggemma-300m 모델입니다. 이 파라미터를 지정하면 endpoint 또는 connection_id 파라미터를 지정할 수 없습니다. MODEL 매개변수를 지정하면 데이터가 BigQuery에 유지되고 슬롯이 사용되어 삽입이 생성됩니다. 데이터가 Agent Platform으로 전송되지 않으며 Agent Platform에서 요금이 청구되지 않습니다.
실행을 클릭합니다.

쿼리를 실행하는 방법에 대한 자세한 내용은 대화형 쿼리 실행을 참조하세요.

bq

bq 명령줄 도구를 사용하여 기존 테이블에 자동 생성된 삽입 열을 추가하려면 업데이트된 테이블 스키마를 정의하는 JSON 스키마 파일과 함께 bq update 명령어를 사용하세요.

테이블의 현재 스키마를 가져와 schema.json와 같은 파일에 저장합니다.
```
bq show --schema --format=prettyjson DATASET_ID.TABLE > schema.json
```

schema.json를 수정하여 새로 자동 생성된 삽입 열의 정의를 추가합니다. 다음 예시에서는 소스 열을 기반으로 한 임베딩 열의 정의를 보여줍니다. 이 예에서는 임베딩 생성을 위해 Agent Platform 엔드포인트를 사용합니다.

[
  {
    "name": "SOURCE_COL",
    "type": "STRING"
  },
  {
    "fields": [
      {
        "mode": "REPEATED",
        "name": "result",
        "type": "FLOAT"
      },
      {
        "name": "status",
        "type": "STRING"
      }
    ],
    "generatedColumn": {
      "generationExpressionInfo": {
        "asynchronous": true,
        "generationExpression": "AI.EMBED(SOURCE_COL, connection_id => 'CONNECTION_ID', endpoint => 'ENDPOINT')",
        "stored": true
      },
      "generatedMode": "GENERATED_ALWAYS"
    },
    "name": "EMBEDDING_COL_NAME",
    "type": "RECORD"
  }
]

Agent Platform 엔드포인트 대신 기본 제공 모델을 사용하는 경우 generationExpression에 다음과 유사한 구문을 사용합니다. "AI.EMBED(SOURCE_COL, model => 'MODEL')"

사용할 값에 관한 자세한 내용은 SQL 탭의 SOURCE_COL, EMBEDDING_COL_NAME, CONNECTION_ID, ENDPOINT, MODEL 설명을 참고하세요.

bq update --table 명령어를 사용하여 테이블을 업데이트합니다.
```
bq update --table DATASET_ID.TABLE schema.json
```
다음을 바꿉니다.
- DATASET_ID: 테이블이 포함된 데이터 세트의 이름입니다.
- TABLE: 자동 생성된 임베딩 열을 추가할 테이블의 이름입니다.

백그라운드 삽입 생성 작업은 테이블이 생성되거나 변경된 직후 또는 소스 열의 데이터를 업데이트한 후에 시작됩니다.

임베딩 생성 진행 상황을 추적하려면 다음과 유사한 쿼리를 사용하면 됩니다.

SELECT
  COUNT(*) AS total_num_rows,
  COUNTIF(description_embedding IS NOT NULL
          AND description_embedding.status = '') AS total_num_generated_embeddings
FROM
  PROJECT_ID.DATASET_ID.TABLE;

임베딩이 포함된 테이블이 있으면 자동으로 생성된 임베딩이 포함된 STRUCT 열에 벡터 색인을 만들 수 있습니다.

예

다양한 제품을 판매하는 대형 소매업체라고 가정해 보겠습니다. 제품 이름과 설명이 포함된 표가 있으며 고객이 원하는 제품을 찾을 수 있도록 지원하고 싶습니다. 다음 쿼리는 제품 설명의 시맨틱 검색을 지원하기 위해 자율 임베딩 생성을 설정하는 방법을 보여줍니다.

먼저 데이터 세트를 만듭니다.

CREATE SCHEMA mydataset;

다음으로 자율 임베딩 생성이 사용 설정된 테이블을 만들어 제품 정보를 저장합니다. 자동으로 생성된 열의 이름은 description_embedding이며 description 열을 기반으로 합니다.

# Create a table of products and descriptions with a generated embedding column.
CREATE TABLE mydataset.products (
  name STRING,
  description STRING,
  description_embedding STRUCT<result ARRAY<FLOAT64>, status STRING>
    GENERATED ALWAYS AS (
      AI.EMBED(description, connection_id => 'us.example_connection',
        endpoint => 'text-embedding-005')
      # Alternatively, you can use the syntax for a built-in model.
      # AI.EMBED(description, model => 'embeddinggemma-300m')
    ) STORED OPTIONS( asynchronous = TRUE )
);

다음 쿼리는 테이블에 제품 이름과 설명을 삽입합니다. description_embedding 값은 자동으로 생성되므로 지정하지 않습니다.

# Insert product descriptions into the table.
# The description_embedding column is automatically updated.
INSERT INTO mydataset.products (name, description) VALUES
  ("Lounger chair", "A comfortable chair for relaxing in."),
  ("Super slingers", "An exciting board game for the whole family."),
  ("Encyclopedia set", "A collection of informational books.");

선택적으로 테이블에 벡터 색인을 만들어 검색 속도를 높일 수 있습니다. 벡터 색인에는 3개 이상의 행이 필요하므로 다음 쿼리에서는 추가 데이터를 삽입했다고 가정합니다. 데이터를 삽입할 때마다 description_embedding 열이 자동으로 업데이트됩니다.

CREATE VECTOR INDEX my_index
ON mydataset.products(description_embedding)
OPTIONS(index_type = 'IVF');

마지막으로 AI.SEARCH 함수를 사용하여 제품에서 재미있는 장난감을 시맨틱 검색할 수 있습니다.

# Search for products that are fun to play with.
SELECT base.name, base.description, distance
FROM AI.SEARCH(TABLE mydataset.products, 'description', "A really fun toy");

/*------------------+----------------------------------------------+----------------------+
 | name             | description                                  | distance             |
 +------------------+----------------------------------------------+----------------------+
 | Super slingers   | An exciting board game for the whole family. | 0.80954913893618929  |
 | Lounger chair    | A comfortable chair for relaxing in.         | 0.938933930620146    |
 | Encyclopedia set | A collection of informational books.         | 1.1119297739353384   |
 +------------------+----------------------------------------------+----------------------*/

`ObjectRef` 열에서 생성된 임베딩

테이블의 ObjectRef 열에 생성된 임베딩 열을 추가할 수 있습니다.

다음 예시에서는 ObjectRef 열이 있는 테이블을 만든 다음 해당 열에 생성된 임베딩 열을 추가하는 방법을 보여줍니다.

# Create a table with ObjectRef columns.
CREATE TABLE mydataset.images AS
SELECT
  REGEXP_EXTRACT(ref.uri, r'.*/(.*).jpg$') AS name,
  ref
FROM mydataset.object_table;

# Add a generated embedding column for the ObjectRef column.
ALTER TABLE mydataset.images
ADD COLUMN image_embedding STRUCT<result ARRAY<FLOAT64>, status STRING>
GENERATED ALWAYS AS (
  AI.EMBED(
    ref,
    connection_id => "us.my_connection",
    endpoint => "multimodalembedding@001")
)
STORED OPTIONS (asynchronous = true);

자동으로 생성된 삽입 열에 대한 정보 가져오기

열이 자동 생성된 임베딩 열인지 확인하려면 INFORMATION_SCHEMA.COLUMNS 뷰를 쿼리합니다.

다음 쿼리는 자동으로 생성된 모든 삽입 열에 관한 정보를 보여줍니다.

SELECT *
FROM PROJECT_ID.DATASET_ID.INFORMATION_SCHEMA.COLUMNS
WHERE is_generated = 'ALWAYS';

generation_expression 필드에는 열에서 임베딩을 생성하는 데 사용되는 AI.EMBED 함수 호출이 표시됩니다.

자체 예약 사용

기본적으로 BigQuery는 주문형 슬롯을 사용하여 생성된 삽입 열을 유지하는 데 필요한 처리를 처리합니다. 예측 가능하고 일관된 성능을 보장하기 위해 선택적으로 예약을 만들고 job_type을 BACKGROUND로 설정할 수 있습니다. 백그라운드 예약이 있으면 BigQuery는 이를 사용하여 생성된 삽입 열을 유지합니다.

할당량

AI.EMBED 함수에서 endpoint 매개변수를 지정하여 삽입 생성에 Agent Platform 엔드포인트를 사용하면 BigQuery는 삽입을 생성하도록 Agent Platform에 요청을 보냅니다. 이러한 요청에는 Agent Platform 할당량이 적용됩니다. 임베딩 모델의 분당 요청 할당량은 백그라운드 임베딩 생성 작업의 처리량에 직접적인 영향을 미칩니다. 임베딩 생성이 느린 경우 높은 할당량 요청의 안내에 따라 Agent Platform의 할당량 한도를 늘리도록 요청하세요. AI.EMBED 함수에서 model 파라미터를 지정하면 BigQuery 내에서 임베딩이 생성되고 Agent Platform으로 요청이 전송되지 않으므로 Agent Platform 할당량이 적용되지 않습니다.

문제 해결

생성된 삽입 열에는 result 및 status이라는 두 필드가 포함됩니다. BigQuery가 테이블의 특정 행에 대한 삽입을 생성하려고 할 때 오류가 발생하면 result 필드는 NULL이고 status 필드는 오류를 설명합니다. 예를 들어 소스 열이 NULL이면 result 삽입도 NULL이고 상태는 NULL value is not supported for embedding generation입니다.

더 심각한 오류가 발생하면 임베딩 생성이 중단될 수 있습니다. 이 경우 INFORMATION_SCHEMA.COLUMNS 뷰에서 async_generation_status 열을 쿼리하여 차단 오류를 식별할 수 있습니다.

차단 오류에는 다음이 포함될 수 있습니다.

권한 거부 오류
찾을 수 없음 오류
지원되지 않는 임베딩 모델 엔드포인트 오류
Vertex AI API가 사용 설정되지 않음 오류

다음 임베딩 생성 작업이 성공하면 async_generation_status 열이 지워집니다.

다음 쿼리는 차단 오류를 확인하는 방법을 보여줍니다.

SELECT
  column_name,
  async_generation_status
FROM
  mydataset.INFORMATION_SCHEMA.COLUMNS
WHERE
  table_name = 'images';

image_embedding 열에 차단 오류가 있으면 결과는 다음과 비슷합니다.

[
  {
    "column_name": "image_embedding",
    "async_generation_status": {
      "blocking_error": {
        "message": "<service_account> does not have the permission to access resources used by AI.EMBED. Please follow https://cloud.google.com/bigquery/docs/permissions-for-ai-functions to set up permissions.",
        ...
      }
    }
  }
]

백그라운드 작업에 대해 INFORMATION_SCHEMA.JOBS 뷰를 쿼리하고 error_result 필드의 정보를 확인할 수도 있습니다. 백그라운드 삽입 작업의 작업 ID에는 gc_이 접두사로 붙습니다. 예를 들어 다음 쿼리는 오류 결과가 NULL이 아닌 모든 백그라운드 작업을 추출합니다.

SELECT * FROM `region-REGION.INFORMATION_SCHEMA.JOBS` j
WHERE EXISTS (
  SELECT 1
  FROM unnest(j.referenced_tables) t
  WHERE
    j.project_id = 'PROJECT_ID'
    AND t.dataset_id = 'DATASET_ID'
    AND t.table_id = 'TABLE'
)
AND starts_with(job_id, 'gc')
AND error_result IS NOT NULL
ORDER BY j.creation_time DESC;

비용 추적

자율 임베딩 생성 비용은 다음 카테고리로 분류됩니다.

BigQuery 백그라운드 DML 비용

생성된 임베딩은 백그라운드 DML 작업을 사용하여 테이블에 작성됩니다. 기본적으로 BigQuery는 주문형 슬롯을 사용하여 이러한 작업을 처리합니다. 표의 프로젝트에는 DML 주문형 결제 모델에 따라 요금이 청구됩니다.

또는 예측 가능하고 일관된 성능을 보장하려면 예약을 만들고 job_type를 BACKGROUND로 설정하세요. 백그라운드 예약이 있으면 BigQuery에서 이를 사용하여 백그라운드 DML 작업을 실행합니다. 백그라운드 예약에는 백그라운드 DML 작업의 슬롯 시간 사용량이 청구됩니다.

Gemini Enterprise Agent Platform 비용

자율 임베딩 생성은 Gemini Enterprise Agent Platform에 요청을 전송하며, 이로 인해 비용이 발생할 수 있습니다. 백그라운드 임베딩 작업으로 인해 발생한 Agent Platform 비용을 추적하려면 다음 단계를 따르세요.

Cloud Billing에서 결제 보고서를 확인합니다.
필터를 사용하여 결과를 세부적으로 조정합니다.

서비스에서 Vertex AI를 선택합니다.
특정 작업의 요금을 확인하려면 라벨로 필터링합니다.

키를 bigquery_ml_job로 설정하고 값을 삽입 작업의 작업 ID로 설정합니다. 백그라운드 삽입 작업에는 모두 gc_ 접두사가 있습니다.

일부 청구 항목이 Cloud Billing에 표시되는 데 최대 24시간이 걸릴 수 있습니다.

제한사항

각 테이블은 자동으로 생성된 삽입 열을 최대 하나 지원합니다.
동시 DML 작업으로 인해 삽입 생성에 지연과 일시적인 실패가 발생할 수 있습니다. 성능을 개선하고 비용을 절감하려면 데이터를 일괄적으로 삽입하고 DML 업데이트를 자주 실행하지 않는 것이 좋습니다.
기존 스트리밍 API를 사용하여 데이터를 수집하는 경우 삽입 생성 시작 전에 약간의 지연이 발생할 수 있습니다.
BigQuery Storage Write API를 사용하는 경우 스트리밍 쓰기 작업이 동시에 실행되면 백그라운드 삽입 생성 작업이 실패할 수 있습니다. 이 경우 에이전트 플랫폼 할당량과 백그라운드 DML 비용이 낭비됩니다. Storage Write API를 사용하면 테이블에서 동시 임베딩 생성 작업도 발생하지만 이는 BigQuery에서 처리하며 Agent Platform 할당량이나 백그라운드 DML 비용이 낭비되지 않습니다.
Agent Platform 원격 엔드포인트의 처리량을 높이려면 Gemini 모델 대신 텍스트 임베딩 모델을 사용하는 것이 좋습니다. 자세한 내용은 할당량을 참고하세요.
Google Cloud 콘솔 또는 INFORMATION_SCHEMA.TABLES 뷰의 ddl 필드를 사용하여 테이블의 스키마를 볼 때 열이 자동으로 생성된다는 표시가 없습니다.
생성된 삽입 열이 있는 테이블의 복사본, 클론 또는 스냅샷을 만들면 데이터만 복사됩니다. 생성 구성은 새 테이블에 적용되지 않으며 새 테이블의 소스 열을 업데이트해도 새로운 삽입이 생성되지 않습니다.
자율 임베딩 생성이 사용 설정된 테이블을 스냅샷에서 복원하면 임베딩 생성 구성이 복원되지 않습니다.
BigQuery API를 사용하는 경우 새 열을 만들 때만 generatedColumn 속성을 지정할 수 있습니다. 기존 열에서 generatedColumn 속성을 추가, 업데이트 또는 삭제할 수 없습니다.
생성된 삽입 열을 만든 후에는 다음 제한사항이 적용됩니다.
- 소스 열은 삭제하거나 이름을 바꿀 수 없지만 생성된 삽입 열은 삭제하거나 이름을 바꿀 수 있습니다. 삽입 열을 삭제하면 소스 열을 삭제하거나 이름을 바꿀 수 있습니다.
- 소스 열 또는 생성된 삽입 열의 데이터 유형은 변경할 수 없습니다.
자동으로 생성된 임베딩 열의 기본값을 지정할 수 없습니다.
다음 메서드를 사용하여 생성된 임베딩 열에 직접 쓸 수는 없습니다.
- DML
- 스트리밍 쓰기
- bq insert
- bq load
- bq copy -a
생성된 임베딩 열이 있는 테이블은 정책 태그와 같은 열 수준 보안 정책을 지원하지 않습니다.
VECTOR_SEARCH 또는 AI.SEARCH과 같은 검색 함수를 호출하면 기본 테이블에서 임베딩이 누락된 행은 검색 중에 건너뜁니다.
자율 임베딩 생성이 사용 설정된 테이블에는 파티션을 나눈 벡터 색인을 만들 수 없습니다.
자동으로 생성된 임베딩 열에 벡터 색인을 만들면 행의 80% 이상에서 임베딩이 생성된 후에 색인 학습이 시작됩니다. 다음 단계에 따라 삽입 생성 진행 상황을 확인할 수 있습니다.

생성된 테이블의 임베딩 비율을 쿼리합니다.
```
SELECT
  COUNTIF(description_embedding IS NOT NULL
  AND description_embedding.status = '') * 100.0 / COUNT(*) AS percent
FROM PROJECT_ID.DATASET_ID.TABLE;
```

다음 단계

벡터 색인 만들기 및 관리 자세히 알아보기
벡터 검색 소개를 참고하세요.