ドキュメント処理関数を選択する
このドキュメントでは、BigQuery ML で使用可能なドキュメント処理関数(ML.GENERATE_TEXT
、ML.PROCESS_DOCUMENT
)の比較を行います。関数の機能が重複している場合は、このドキュメントの情報を使用して、使用する関数を決定できます。
概略を示すと、これらの関数の違いは次のとおりです。
ML.GENERATE_TEXT
は、一部のコンテンツがドキュメントに存在する自然言語処理(NLP)タスクを実行する場合に適しています。この関数には次の利点があります。- コストの削減
- 対応言語の追加
- スループットの高速化
- モデル チューニングの機能
- マルチモーダル モデルの可用性
このアプローチに適したドキュメント処理タスクの例については、Gemini API でドキュメント処理機能を試すをご覧ください。
ML.PROCESS_DOCUMENT
は、ドキュメントの解析と事前定義および構造化されたレスポンスを必要とするドキュメント処理タスクを実行するのに適しています。
関数の比較
次の表で、ML.GENERATE_TEXT
関数と ML.PROCESS_DOCUMENT
関数を比較します。
ML.GENERATE_TEXT |
ML.PROCESS_DOCUMENT |
|
---|---|---|
目的 | Gemini モデルまたはパートナー モデル、またはオープンモデルにプロンプトを渡して、ドキュメント関連の NLP タスクを実行します。 たとえば、企業の財務ドキュメントの場合、 |
Document AI API を使用して、請求書、税務フォーム、財務諸表など、さまざまなドキュメント タイプに特化したドキュメント処理を行います。ドキュメント チャンキングも実行できます。 |
課金 | 処理されたデータに対して BigQuery ML の料金が発生します。詳細については、BigQuery ML の料金をご覧ください。 |
処理されたデータに対して BigQuery ML の料金が発生します。詳細については、BigQuery ML の料金をご覧ください。
Document AI API の呼び出しに対して課金されます。詳細については、Document AI API の料金をご覧ください。 |
1 分あたりのリクエスト数(RPM) | Gemini モデルには適用されません。パートナー モデルの場合は 25 ~ 60。詳細については、1 分あたりのリクエスト数の上限をご覧ください。 | プロセッサ タイプごとに 120 RPM。プロジェクトごとの合計上限は 600 RPM。詳細については、割り当てリストをご覧ください。 |
1 分あたりのトークン数 | 使用されるモデルに応じて、8,192 ~ 100 万以上。 | トークン数の上限はありません。ただし、この関数には、使用しているプロセッサに応じて異なるページ数の上限があります。詳細については、上限をご覧ください。 |
教師ありチューニング | 一部のモデルで教師ありチューニングがサポートされています。 | 非対応。 |
サポートされている言語 | サポートは、選択した LLM によって異なります。 | サポートされる言語は、ドキュメント プロセッサのタイプによって異なります。ほとんどの場合、英語のみがサポートされています。詳細については、プロセッサのリストをご覧ください。 |
サポートされるリージョン | Vertex AI 用生成 AI のすべてのリージョンでサポートされています。 | すべてのプロセッサで、EU マルチリージョンと US マルチリージョンでサポートされています。一部のプロセッサは、特定の単一リージョンでも使用できます。詳細については、リージョンとマルチリージョンのサポートをご覧ください。 |