Embeddings API 總覽

嵌入是文字、圖片或影片的數字表示法,可擷取輸入內容之間的關係。機器學習模型 (尤其是生成式 AI 模型) 適合透過識別大型資料集中的模式來建立嵌入。應用程式可使用嵌入處理及生成語言,辨識內容特有的複雜含義和語意關係。每當您完成 Google 搜尋或看到音樂串流建議時,都會與嵌入互動。

嵌入技術會將文字、圖片和影片轉換為浮點數陣列 (稱為向量),這些向量旨在擷取文字、圖片和影片的意義,嵌入陣列的長度稱為向量的維度。舉例來說,一段文字可能以含有數百個維度的向量表示。接著,應用程式可以計算兩段文字的向量表示法之間的數值距離,判斷物件之間的相似度。

Gemini Enterprise Agent Platform 支援文字和多模態嵌入模型。

文字嵌入的應用實例

文字嵌入的常見用途包括:

  • 語意搜尋:搜尋按語意相似度排序的文字。
  • 分類:依據特定文字,傳回文字屬性相似的項目類別。
  • 分群:依據特定文字,將文字屬性相似的項目分群。
  • 離群值偵測:傳回文字屬性與指定文字最不相關的項目。
  • 對話式介面:將可產生類似回覆的句子歸類為叢集,就像對話層級的嵌入空間一樣。

應用實例:開發書籍推薦聊天機器人

如要開發書籍推薦聊天機器人,首先要使用深層類神經網路 (DNN) 將每本書轉換為嵌入向量,其中一個嵌入向量代表一本書。您可以只饋送書名或文字內容,做為 DNN 的輸入內容。你也可以同時使用這兩項資訊,以及描述書籍的其他中繼資料,例如類型。

這個範例中的嵌入內容可能包含數千個書名、摘要和類型,而且可能包含類似的書籍表示法,例如艾蜜莉·勃朗特的《咆哮山莊》和珍·奧斯汀的《勸服》 (數字表示法之間的距離很小)。相較之下,費茲傑羅的《大亨小傳》的數字表示法距離較遠,因為時間範圍、類型和摘要的相似程度較低。

輸入內容是影響嵌入空間方向的主要因素。舉例來說,如果我們只有書名輸入內容,那麼書名相似但摘要內容大相逕庭的兩本書,可能會緊密相連。不過,如果我們加入標題和摘要,這些書籍在嵌入空間中的相似度就會降低 (距離較遠)。

這款書籍推薦聊天機器人運用生成式 AI,可根據您的查詢內容摘要、推薦及顯示您可能會喜歡 (或不喜歡) 的書籍。

多模態嵌入的應用實例

多模態嵌入的常見用途包括:

  • 圖片和文字用途:

    • 圖片分類:以圖片做為輸入,並預測一或多個類別 (標籤)。
    • 圖片搜尋:搜尋相關或相似的圖片。
    • 建議:根據圖片生成產品或廣告建議。
  • 圖片、文字和影片應用實例:

    • 建議:根據影片生成產品或廣告建議 (相似度搜尋)。
    • 搜尋影片內容
    • 使用語意搜尋:將文字做為輸入內容,並依據查詢傳回一組排序過的影格。
    • 使用相似度搜尋
      • 將影片做為輸入內容,並傳回一組與查詢相符的影片。
      • 將圖片做為輸入內容,並傳回一組與查詢相符的影片。
    • 影片分類:以影片做為輸入內容,並預測一或多個類別。

應用實例:線上零售體驗

線上零售商越來越常運用多模態嵌入,提升顧客體驗。您在購物時看到的個人化產品推薦,以及透過文字搜尋取得的視覺化結果,都是與嵌入互動的例子。

如要為線上零售用途建立多模態嵌入,請先處理每張產品圖片,產生獨一無二的圖片嵌入,也就是以數學方式呈現圖片的視覺風格、調色盤、重要細節等。同時,將產品說明、顧客評論和其他相關文字資料轉換為文字嵌入,擷取其語意和背景資訊。將這些圖片和文字嵌入合併到統一的搜尋和推薦引擎後,商店就能根據顧客的瀏覽記錄和偏好,提供視覺上相似的商品個人化推薦。此外,顧客還能使用自然語言描述搜尋產品,引擎會擷取並顯示與搜尋查詢最相似的商品。舉例來說,如果顧客搜尋「黑色夏季洋裝」,搜尋引擎可能會顯示黑色洋裝,以及夏季洋裝剪裁、以輕盈材質製成,且可能無袖的洋裝。這種強大的視覺和文字理解能力結合,可打造簡化的購物體驗,提升顧客參與度、滿意度,最終帶動銷售。

後續步驟