您可以在 Vertex AI 上使用 Llama 模型,方法是透過受管理 API 或自行部署模型。您可以串流傳送回覆,減少使用者感受到的延遲時間。串流回應會使用伺服器傳送事件 (SSE),逐步串流回應。
代管 Llama 模型
Llama 模型提供全代管無伺服器模型做為 API。如要在 Vertex AI 上使用 Llama 模型,請直接將要求傳送至 Vertex AI API 端點。以受管理 API 形式使用 Llama 模型時,不必佈建或管理基礎架構。
您可以在 Vertex AI 中使用下列 Llama 模型。如要存取 Llama 模型,請前往 Model Garden 的模型資訊卡。
Llama 4 Maverick 17B-128E
Llama 4 Maverick 17B-128E 是最大且最強大的 Llama 4 模型,提供程式設計、推論和圖像功能。這個模型採用專家混合 (MoE) 架構,在 4,000 億個參數和 128 位專家中,有 170 億個現用參數。Llama 4 Maverick 17B-128E 使用交替的密集和 MoE 層,其中每個權杖會啟動共用專家,以及 128 位路由專家之一。這項模型已預先訓練 200 種語言,並透過精細的後訓練管道進行最佳化,可提供高品質的對話互動。
Llama 4 Maverick 17B-128E 具備多模態功能,適合用於進階圖像說明、分析、精確圖像理解、視覺問題與答案、創意文字生成、通用 AI 助理,以及需要頂尖智慧和圖像理解能力的高階聊天機器人。
注意事項
- 每個要求最多可包含三張圖片。
- 與舊版不同,MaaS 端點不會使用 Llama Guard。如要使用 Llama Guard,請從 Model Garden 部署 Llama Guard,然後將提示和回覆傳送至該端點。不過,與 Llama 4 相比,Llama Guard 的脈絡較為有限 (128,000),且只能處理提示開頭包含單一圖片的要求。
- 不支援批次預測。
Llama 4 Scout 17B-16E
Llama 4 Scout 17B-16E 在同級模型中表現優異,在多項基準測試中,都優於先前的 Llama 版本和其他開放式與專有模型。這個模型採用 MoE 架構,在總共 1,090 億個參數和 16 位專家中,有 170 億個現用參數。
Llama 4 Scout 17B-16E 適合用於長篇脈絡中的擷取工作,以及需要大量資訊推理的工作,例如總結多份大型文件、分析大量使用者互動記錄以進行個人化,以及對大型程式碼集進行推理。
注意事項
- 每個要求最多可包含三張圖片。
- 與舊版不同,MaaS 端點不會使用 Llama Guard。如要使用 Llama Guard,請從 Model Garden 部署 Llama Guard,然後將提示和回覆傳送至該端點。不過,與 Llama 4 相比,Llama Guard 的脈絡較為有限 (128,000),且只能處理提示開頭包含單一圖片的要求。
- 不支援批次預測。
Llama 3.3
Llama 3.3 是純文字 70B 指令微調模型,相較於 Llama 3.1 70B 和 Llama 3.2 90B,用於純文字應用程式時效能更佳。
使用 Llama 模型
如果是受管理模型,您可以使用 curl 指令,透過下列模型名稱向 Vertex AI 端點傳送要求。如要瞭解如何對 Llama 模型發出串流和非串流呼叫,請參閱「呼叫開放模型 API」。
如要使用自行部署的 Vertex AI 模型,請按照下列步驟操作:
- 前往 Model Garden 控制台。
- 找出相關的 Vertex AI 模型。
- 按一下「啟用」並填寫表單,取得必要的商業用途授權。
如要進一步瞭解如何部署及使用合作夥伴模型,請參閱「部署合作夥伴模型並提出預測要求」。