長脈絡

Gemini 預設支援 100 萬個詞元的脈絡窗口。 過去,大型語言模型 (LLM) 一次可傳遞給模型的文字 (或權杖) 數量受到大幅限制。Gemini 長脈絡窗口的近乎完美的擷取能力 (超過 99%),可發掘許多新的用途和開發人員範例。

您已用於內容生成多模態輸入等用途的程式碼,可直接搭配長脈絡使用。

本指南將簡要介紹脈絡窗口的基本概念、開發人員應如何看待長脈絡、長脈絡的各種實際用途,以及如何最佳化長脈絡的使用方式。

什麼是脈絡窗口?

使用 Gemini 模型的基本方式是將資訊 (脈絡) 傳遞至模型,模型隨後會生成回覆。脈絡窗口類似於短期記憶,人的短期記憶可儲存的資訊量有限,生成模型也是如此。

如要進一步瞭解模型運作方式,請參閱生成模型指南

開始使用長內容

過去幾年建立的生成模型大多一次只能處理 8,000 個權杖。新模型則進一步接受 32,000 個或 128,000 個權杖。Gemini 是第一個能夠接受 100 萬個權杖的模型,現在Gemini 1.5 Pro 更能接受 200 萬個權杖

實際上,100 萬個權杖看起來會像這樣:

  • 50,000 行程式碼 (每行標準 80 個半形字元)
  • 過去 5 年內傳送的所有簡訊
  • 8 本英文小說 (平均長度)
  • 超過 200 集平均長度的 Podcast 轉錄稿

雖然模型可以接受越來越多的脈絡,但許多使用大型語言模型的傳統智慧,都假設模型有這種固有的限制,但到了 2024 年,情況已非如此。

以下是幾種常見策略,可因應小型內容視窗的限制:

  • 任意從脈絡視窗中捨棄舊訊息 / 文字,並加入新文字
  • 在內容視窗即將填滿時,總結先前的內容並以摘要取代
  • 搭配使用 RAG 與語意搜尋,將資料移出脈絡窗口並移入向量資料庫
  • 使用確定性或生成式篩選器,從提示中移除特定文字/字元,以節省權杖

雖然在某些情況下,這些方法仍適用,但現在的預設做法是將所有權杖放入脈絡窗口。由於 Gemini 模型專為長脈絡窗口而建,因此更擅長脈絡內學習。舉例來說,只要提供教學資料 (500 頁的參考文法、字典和約 400 個額外的平行句子),Gemini 1.5 Pro 和 Gemini 1.5 Flash 就能學會翻譯英文和卡拉芒文 (巴布亞語言,使用者不到 200 人,因此幾乎沒有線上資源),翻譯品質與使用相同資料學習的人類相近。

這個例子說明瞭如何開始思考 Gemini 的長內容和情境內學習功能,以及這些功能帶來的可能性。

長脈絡用途

雖然大多數生成模型的標準用途仍是文字輸入,但 Gemini 系列模型可支援多模態用途,開創全新典範。這些模型可原生理解文字、影片、音訊和圖片。此外,Gemini Enterprise API for Gemini 也支援多模態檔案類型,方便您使用。

長篇文字

文字已成為 LLM 發展動能的智慧層基礎。如先前所述,LLM 的許多實用限制,都是因為脈絡窗口不夠大,無法執行特定工作。這促使檢索增強生成 (RAG) 和其他技術迅速普及,這些技術可動態提供模型相關脈絡資訊。現在,隨著脈絡窗口越來越大 (目前 Gemini 1.5 Pro 最多可達 200 萬個詞元),我們可運用新技術,開創新的用途。

文字型長背景資訊的新興和標準用途包括:

  • 生成大量文字的摘要
    • 如果使用較小的脈絡模型,先前的摘要選項需要滑動視窗或其他技術,才能在將新權杖傳遞至模型時,保留先前部分的狀態
  • 問與答
    • 由於脈絡量有限,且模型的事實回憶能力偏低,因此過去只有 RAG 才能做到這點
  • 代理工作流程
    • 文字是代理程式記錄已完成事項和待辦事項的基礎;如果沒有足夠的世界和代理程式目標資訊,代理程式的可靠性就會受到限制

大量樣本情境學習是長情境模型最獨特的功能之一。研究顯示,採用常見的「單樣本」或「多樣本」範例範式,向模型呈現一或多個工作範例,並將範例擴增至數百、數千,甚至數十萬個,可帶來全新的模型功能。研究結果顯示,這種多樣本方法與針對特定工作微調的模型效能相近。如果 Gemini 模型在某些應用情境中的效能仍不足以用於正式版,可以嘗試多樣本方法。如您稍後在長上下文最佳化一節中瞭解,上下文快取可大幅降低這類高輸入權杖工作負載的成本,在某些情況下甚至能縮短延遲時間。

長篇影片

長期以來,影片內容的實用性一直受限於媒體本身缺乏無障礙功能。影片內容難以瀏覽,轉錄稿往往無法捕捉影片的細微差異,而且大多數工具無法同時處理圖片、文字和音訊。有了 Gemini,長篇內容文字功能就能持續提供優異效能,推論並回答多模態輸入內容的問題。

影片長背景資訊的新興和標準用途包括:

  • 影片問答
  • 影片記憶功能,如 Google 的 Project Astra 所示
  • 影片字幕
  • 影片推薦系統,透過新的多模態理解功能豐富現有中繼資料
  • 影片客製化:查看資料集和相關影片中繼資料,然後移除與觀眾無關的影片部分
  • 影片內容審核
  • 即時影片處理

處理影片時,請務必考量影片如何轉換為權杖,這會影響帳單和用量限制。如要進一步瞭解如何使用影片檔案提示,請參閱提示指南

長篇音訊

Gemini 模型是首款可解讀音訊的本質多模態大型語言模型。過去,開發人員通常會將多個特定領域的模型串連在一起,例如語音轉文字模型和文字轉文字模型,藉此處理音訊。這導致執行多個往返要求時需要額外延遲,且效能通常會因多個模型設定的架構中斷連線而降低。

在標準音訊大海撈針評估中,Gemini 1.5 Pro 能夠在 100% 的測試中找到隱藏音訊,Gemini 1.5 Flash 則能在 98.7% 的測試中找到隱藏音訊。Gemini 1.5 Flash 單次要求最多可接受 9.5 小時的音訊,而 Gemini 1.5 Pro 則可使用 200 萬個權杖的脈絡窗口,接受最多 19 小時的音訊。此外,在 15 分鐘音訊片段的測試集中,Gemini 1.5 Pro 的字詞錯誤率 (WER) 約為 5.5%,甚至比專門的語音轉文字模型還低,且無需額外的輸入區隔和前處理,複雜度較低。

音訊情境的新興和標準用途包括:

  • 即時語音轉錄及翻譯
  • Podcast / 影片問答
  • 會議語音轉錄和摘要
  • 語音助理

如要進一步瞭解如何使用音訊檔案提示,請參閱「提示指南」。

長脈絡最佳化

使用長脈絡和 Gemini 模型時,主要最佳化方式是使用脈絡快取。除了先前無法在單一要求中處理大量權杖,另一個主要限制是費用。假設您有一個「與資料對話」應用程式,使用者上傳了 10 份 PDF、一部影片和一些工作文件,您過去必須使用較複雜的檢索增強生成 (RAG) 工具/框架來處理這些要求,並支付大量詞元費用,才能將資料移至脈絡窗口。現在您可以快取使用者上傳的檔案,並按小時付費儲存這些檔案。每個要求的輸入 / 輸出費用低於標準輸入 / 輸出費用,因此如果使用者與自己的資料進行足夠的對話,您身為開發人員就能大幅節省費用。

長脈絡限制

在本指南的各個章節中,我們討論了 Gemini 模型如何在各種大海撈針的檢索評估中,展現優異的效能。這些測試會考量最基本的設定,也就是您要尋找單一針頭。如果有多個「針」或特定資訊要尋找,模型就無法達到相同的準確度。成效可能會因情境而異。 請務必考量這點,因為擷取正確資訊和成本之間存在固有的取捨關係。單一查詢的準確率可達 99%,但每次傳送查詢時,都必須支付輸入權杖費用。因此,如要擷取 100 筆資訊,且需要 99% 的效能,您可能需要傳送 100 個要求。這就是一個很好的例子,說明內容快取如何大幅降低使用 Gemini 模型相關的成本,同時維持高效能。

後續步驟

指南

使用 Google Gen AI SDK 列出提示的權杖和權杖 ID,並取得提示的權杖總數。