Ce document explique comment utiliser des modèles ouverts via le modèle en tant que service (MaaS) sur Vertex AI. MaaS fournit un accès sans serveur à certains modèles partenaires et Open Source, ce qui élimine la nécessité de provisionner ou de gérer l'infrastructure.
Model Garden est une bibliothèque centralisée de modèles d'IA et de ML de Google, de partenaires Google et de modèles ouverts (open-weight et Open Source), y compris les modèles MaaS. Model Garden propose plusieurs façons de déployer les modèles disponibles sur Vertex AI, y compris les modèles Hugging Face.
Pour en savoir plus sur MaaS, consultez la documentation sur les modèles partenaires.
Avant de commencer
Pour utiliser les modèles MaaS, vous devez activer l'API Vertex AI dans votre projetGoogle Cloud .
gcloud services enable aiplatform.googleapis.com
Activer l'API du modèle
Avant de pouvoir utiliser un modèle MaaS, vous devez activer son API. Pour ce faire, accédez à la page du modèle dans Model Garden. Certains modèles disponibles via MaaS peuvent également être déployés par vous-même. Les fiches de modèle Model Garden pour les deux offres sont différentes. La fiche du modèle MaaS inclut API Service dans son nom.
Appeler le modèle à l'aide du SDK Google Gen AI pour Python
L'exemple suivant appelle le modèle Llama 3.3 à l'aide du SDK Google Gen AI pour Python.
from google import genai
from google.genai import types
PROJECT_ID="PROJECT_ID"
LOCATION="LOCATION"
MODEL="meta/llama-3.3-70b-instruct-maas" # The model ID from Model Garden with "API Service"
# Define the prompt to send to the model.
prompt = "What is the distance between earth and moon?"
# Initialize the Google Gen AI SDK client.
client = genai.Client(
vertexai=True,
project=PROJECT_ID,
location=LOCATION,
)
# Prepare the content for the chat.
contents: types.ContentListUnion = [
types.Content(
role="user",
parts=[
types.Part.from_text(text=prompt)
]
)
]
# Configure generation parameters.
generate_content_config = types.GenerateContentConfig(
temperature = 0,
top_p = 0,
max_output_tokens = 4096,
)
try:
# Create a chat instance with the specified model.
chat = client.chats.create(model=MODEL)
# Send the message and print the response.
response = chat.send_message(contents)
print(response.text)
except Exception as e:
print(f"{MODEL} call failed due to {e}")
Étapes suivantes
- Choisir une option de diffusion de modèle ouvert
- Déployer des modèles Open Source à partir de Model Garden
- Déployer des modèles ouverts avec des conteneurs prédéfinis
- Déployer des modèles ouverts avec un conteneur vLLM personnalisé