Vertex AI 上的 Llama 模型提供全代管的無伺服器模型,並以 API 形式提供。如要在 Vertex AI 上使用 Llama 模型,請直接向 Vertex AI API 端點傳送要求。由於 Llama 模型使用受管理的 API,因此不需要佈建或管理基礎架構。
你可以串流傳送回覆,減少使用者感受到的延遲時間。串流回應會使用伺服器推送事件 (SSE) 逐步串流回應。
可用的 Llama 模型
您可以在 Vertex AI 中使用 Meta 提供的下列 Llama 模型。如要存取 Llama 模型,請前往 Model Garden 的模型資訊卡。
預覽中的模型也提供自行部署選項。如需可供正式環境使用的服務,請自行部署 Llama 模型。
Llama 4 Maverick 17B-128E
Llama 4 Maverick 17B-128E 是最大且最強大的 Llama 4 模型,提供程式設計、推論和圖像功能。這款模型採用混合專家 (MoE) 架構,在 4,000 億個總參數和 128 位專家中,有 170 億個現用參數。Llama 4 Maverick 17B-128E 使用交替的密集層和 MoE 層,每個權杖會啟動共用專家,以及 128 位路由專家中的其中一位。這項模型已預先訓練 200 種語言,並透過精細的訓練後流程進行最佳化,可提供高品質的對話互動。
Llama 4 Maverick 17B-128E 是多模態模型,適合用於進階圖像說明、分析、精確圖像理解、視覺問題與答案、創意文字生成、通用 AI 助理,以及需要頂尖智慧和圖像理解能力的高階聊天機器人。
注意事項
- 每個要求最多可包含三張圖片。
- 與舊版不同,MaaS 端點不會使用 Llama Guard。如要使用 Llama Guard,請從 Model Garden 部署 Llama Guard,然後將提示和回覆傳送至該端點。不過,與 Llama 4 相比,Llama Guard 的脈絡較為有限 (128,000),且只能處理提示開頭的單一圖片要求。
- 不支援批次預測。
Llama 4 Scout 17B-16E
Llama 4 Scout 17B-16E 在同級模型中表現優異,在多項基準測試中,都優於先前的 Llama 版本和其他開放式與專有模型。這個模型採用 MoE 架構,在總共 1,090 億個參數和 16 位專家中,有 170 億個現用參數。
Llama 4 Scout 17B-16E 適合用於長篇脈絡中的檢索工作,以及需要大量資訊推理的工作,例如總結多份大型文件、分析大量使用者互動記錄以進行個人化,以及對大型程式碼集進行推理。
注意事項
- 每個要求最多可包含三張圖片。
- 與舊版不同,MaaS 端點不會使用 Llama Guard。如要使用 Llama Guard,請從 Model Garden 部署 Llama Guard,然後將提示和回覆傳送至該端點。不過,與 Llama 4 相比,Llama Guard 的脈絡較為有限 (128,000),且只能處理提示開頭的單一圖片要求。
- 不支援批次預測。
Llama 3.3
Llama 3.3 是純文字 70B 指令微調模型,相較於 Llama 3.1 70B 和 Llama 3.2 90B,用於純文字應用程式時效能更佳。