本文件說明我們在設計 Gemini for Google Cloud 時,如何考量生成式 AI 的功能、限制與風險。
大型語言模型的功能和風險
大型語言模型 (LLM) 可執行許多實用工作,例如:
- 翻譯語言。
- 生成文字摘要。
- 生成程式碼和創意寫作內容。
- 為聊天機器人和虛擬助理提供支援。
- 輔助搜尋引擎和推薦系統。
同時,隨著 LLM 的技術能力不斷演進,也可能導致誤用、濫用,以及產生未預期或無法預見的後果。
LLM 可能會生成預期外的輸出內容,包括令人反感、未顧及感受或違反事實的文字。由於 LLM 的功能相當多元,因此難以準確預測會輸出什麼出乎意料或未預期的內容。
考量到這些風險和複雜性,Gemini 版 Google Cloud 的設計遵循 Google 的 AI 開發原則。不過,使用者必須瞭解 Gemini for Google Cloud 的部分限制,才能安全且負責任地使用這項服務。
Gemini for Google Cloud 限制
使用 Gemini for Google Cloud 時可能會遇到以下限制 (但不限於此):
極端案例。邊緣情況是指訓練資料中未充分呈現的異常、罕見或特殊情況。在這些情況下,Gemini 模型可能會出現過度自信、誤解脈絡或輸出不當內容等限制。
模型幻覺、根據事實和真實性。Gemini 模型可能缺乏真實世界知識、物理特性或準確理解能力,因此會產生幻覺,也就是生成看似合理,但實際上違反事實、無關、不當或毫無意義的內容,也可能捏造不存在的網頁連結。詳情請參閱「為 Gemini 版 Google Cloud撰寫更優質的提示」。 Google Cloud
資料品質和微調。輸入 Gemini for Google Cloud 產品的提示資料品質、準確度和偏誤程度,可能會對效能造成重大影響。如果使用者輸入不準確或錯誤的提示,Gemini for Google Cloud 可能會傳回不夠理想或錯誤的回覆。
放大偏誤。語言模型可能會無意間放大訓練資料中現有的偏誤,導致輸出內容進一步加深社會偏見,並對特定群體造成不平等待遇。
語言品質:雖然 Gemini for Google Cloud 在我們評估的基準中展現出令人驚豔的多語言能力,但我們的大多數基準 (包括所有公平性評估) 都是以美式英語進行。
語言模型為不同使用者提供的服務品質可能不一致。舉例來說,由於訓練資料中某些方言或語言變體所占比例較低,因此文字生成功能可能無法有效處理這些語言。此外,非英文語言或所占比例較低的英文語言變體,效能可能較差。
公平性基準和子群組。Google Research 對 Gemini 模型進行的公平性分析,並未詳盡說明各種潛在風險。舉例來說,我們著重於性別、種族、族裔和宗教軸向的偏誤,但只對美國英語資料和模型輸出內容進行分析。
領域專業知識有限。Gemini 模型經過 Google Cloud 技術訓練,但可能缺乏深入的知識,無法針對高度專業或技術性主題提供準確詳細的回覆,導致資訊不夠深入或有誤。
在 Google Cloud 控制台中使用 Gemini 窗格時,Gemini 不會瞭解您的特定環境,因此無法回答「我上次建立 VM 是什麼時候?」等問題。
在某些情況下,Gemini for Google Cloud 會將特定內容片段傳送給模型,以取得特定內容的回覆,例如點選「錯誤報告」服務頁面中的「疑難排解建議」按鈕時。
Gemini 安全與有害內容篩選
系統會根據每個用途適用的安全屬性完整清單,檢查 Gemini 的 Google Cloud 提示和回覆。這些安全屬性旨在過濾違反《使用限制政策》的內容。如果輸出內容被視為有害,系統就會封鎖回應。
後續步驟
- 進一步瞭解 Gemini 在協助生成程式碼時如何引用來源。