選擇文件處理函式
本文將比較 BigQuery ML 提供的文件處理函式,包括 ML.GENERATE_TEXT
和 ML.PROCESS_DOCUMENT
。如果函式的功能重疊,您可以參考本文資訊,決定要使用哪個函式。
這兩項函式的主要差異如下:
ML.GENERATE_TEXT
非常適合執行自然語言處理 (NLP) 工作,因為部分內容位於文件中。這項功能有以下好處:- 降低費用
- 支援更多語言
- 處理量更快
- 模型調整功能
- 多模態模型適用情形
如需最適合採用這種做法的文件處理工作範例,請參閱「使用 Gemini API 探索文件處理功能」。
ML.PROCESS_DOCUMENT
適合執行需要剖析文件,以及預先定義結構化回應的文件處理工作。
函式比較
請參閱下表,比較 ML.GENERATE_TEXT
和 ML.PROCESS_DOCUMENT
函式:
ML.GENERATE_TEXT |
ML.PROCESS_DOCUMENT |
|
---|---|---|
目的 | 將提示傳遞至 Gemini 或合作夥伴模型,或是開放式模型,即可執行任何與文件相關的 NLP 工作。 舉例來說,假設您有某間公司的財務文件,可以提供 |
使用 Document AI API 針對不同類型的文件 (例如發票、稅務表單和財務報表) 執行專門的文件處理作業。您也可以執行文件分塊。 |
帳單 | 系統會針對處理的資料收取 BigQuery ML 費用。詳情請參閱 BigQuery ML 定價一文。 |
系統會針對處理的資料收取 BigQuery ML 費用。詳情請參閱 BigQuery ML 定價一文。
呼叫 Document AI API 時會產生費用。詳情請參閱 Document AI API 定價。 |
每分鐘要求數 (RPM) | 不適用於 Gemini 模型。合作夥伴模型:25 到 60。詳情請參閱「每分鐘要求數限制」。 | 每種處理器類型每分鐘 120 次,每項專案每分鐘最多 600 次。 詳情請參閱配額清單。 |
每分鐘權杖數 | 視使用的模型而定,範圍從 8,192 到超過 100 萬。 | 沒有詞元數量上限。不過,這項功能有不同的頁面限制,取決於您使用的處理器。詳情請參閱「限制」一節。 |
監督式調整 | 受監護微調 適用於部分模型。 | 不支援。 |
支援的語言 | 支援的語言會因您選擇的 LLM 而異。 | 語言支援取決於文件處理器類型,大多數只支援英文。詳情請參閱處理器清單。 |
支援的地區 | 所有 Vertex AI 生成式 AI 區域皆支援這項功能。 | 所有處理器都支援 EU 和 US 多區域。部分處理器也適用於特定單一區域。詳情請參閱「區域和多區域支援」。 |