選擇文件處理函式

本文將比較 BigQuery ML 提供的文件處理函式,包括 ML.GENERATE_TEXTML.PROCESS_DOCUMENT。如果函式的功能重疊,您可以參考本文資訊,決定要使用哪個函式。

這兩項函式的主要差異如下:

  • ML.GENERATE_TEXT 非常適合執行自然語言處理 (NLP) 工作,因為部分內容位於文件中。這項功能有以下好處:

    • 降低費用
    • 支援更多語言
    • 處理量更快
    • 模型調整功能
    • 多模態模型適用情形

    如需最適合採用這種做法的文件處理工作範例,請參閱「使用 Gemini API 探索文件處理功能」。

  • ML.PROCESS_DOCUMENT 適合執行需要剖析文件,以及預先定義結構化回應的文件處理工作。

函式比較

請參閱下表,比較 ML.GENERATE_TEXTML.PROCESS_DOCUMENT 函式:

ML.GENERATE_TEXT ML.PROCESS_DOCUMENT
目的

將提示傳遞至 Gemini 或合作夥伴模型,或是開放式模型,即可執行任何與文件相關的 NLP 工作。

舉例來說,假設您有某間公司的財務文件,可以提供 What is the quarterly revenue for each division? 等提示,擷取文件資訊。

使用 Document AI API 針對不同類型的文件 (例如發票、稅務表單和財務報表) 執行專門的文件處理作業。您也可以執行文件分塊。
帳單

系統會針對處理的資料收取 BigQuery ML 費用。詳情請參閱 BigQuery ML 定價一文。

呼叫模型時會產生 Vertex AI 費用。如果使用 Gemini 2.0 以上版本模型,系統會以批次 API 費率計費。詳情請參閱「在 Vertex AI 中建構及部署 AI 模型的費用」。

系統會針對處理的資料收取 BigQuery ML 費用。詳情請參閱 BigQuery ML 定價一文。

呼叫 Document AI API 時會產生費用。詳情請參閱 Document AI API 定價

每分鐘要求數 (RPM) 不適用於 Gemini 模型。合作夥伴模型:25 到 60。詳情請參閱「每分鐘要求數限制」。 每種處理器類型每分鐘 120 次,每項專案每分鐘最多 600 次。 詳情請參閱配額清單
每分鐘權杖數 視使用的模型而定,範圍從 8,192 到超過 100 萬。 沒有詞元數量上限。不過,這項功能有不同的頁面限制,取決於您使用的處理器。詳情請參閱「限制」一節。
監督式調整 受監護微調 適用於部分模型。 不支援。
支援的語言 支援的語言會因您選擇的 LLM 而異。 語言支援取決於文件處理器類型,大多數只支援英文。詳情請參閱處理器清單
支援的地區 所有 Vertex AI 生成式 AI 區域皆支援這項功能。 所有處理器都支援 EUUS 多區域。部分處理器也適用於特定單一區域。詳情請參閱「區域和多區域支援」。