Utiliser des modèles ouverts avec le modèle en tant que service (MaaS)

Ce document explique comment utiliser des modèles ouverts via le modèle en tant que service (MaaS) sur Vertex AI. MaaS fournit un accès sans serveur à certains modèles partenaires et Open Source, ce qui élimine la nécessité de provisionner ou de gérer l'infrastructure.

Model Garden est une bibliothèque centralisée de modèles d'IA et de ML de Google, de partenaires Google et de modèles ouverts (open-weight et Open Source), y compris les modèles MaaS. Model Garden propose plusieurs façons de déployer les modèles disponibles sur Vertex AI, y compris les modèles Hugging Face.

Pour en savoir plus sur MaaS, consultez la documentation sur les modèles partenaires.

Avant de commencer

Pour utiliser les modèles MaaS, vous devez activer l'API Vertex AI dans votre projetGoogle Cloud .

gcloud services enable aiplatform.googleapis.com

Activer l'API du modèle

Avant de pouvoir utiliser un modèle MaaS, vous devez activer son API. Pour ce faire, accédez à la page du modèle dans Model Garden. Certains modèles disponibles via MaaS peuvent également être déployés par vous-même. Les fiches de modèle Model Garden pour les deux offres sont différentes. La fiche du modèle MaaS inclut API Service dans son nom.

Appeler le modèle à l'aide du SDK Google Gen AI pour Python

L'exemple suivant appelle le modèle Llama 3.3 à l'aide du SDK Google Gen AI pour Python.

from google import genai
from google.genai import types

PROJECT_ID="PROJECT_ID"
LOCATION="LOCATION"
MODEL="meta/llama-3.3-70b-instruct-maas"  # The model ID from Model Garden with "API Service"

# Define the prompt to send to the model.
prompt = "What is the distance between earth and moon?"

# Initialize the Google Gen AI SDK client.
client = genai.Client(
    vertexai=True,
    project=PROJECT_ID,
    location=LOCATION,
)

# Prepare the content for the chat.
contents: types.ContentListUnion = [
    types.Content(
        role="user",
        parts=[
            types.Part.from_text(text=prompt)
        ]
    )
]

# Configure generation parameters.
generate_content_config = types.GenerateContentConfig(
    temperature = 0,
    top_p = 0,
    max_output_tokens = 4096,
)

try:
    # Create a chat instance with the specified model.
    chat = client.chats.create(model=MODEL)
    # Send the message and print the response.
    response = chat.send_message(contents)
    print(response.text)
except Exception as e:
    print(f"{MODEL} call failed due to {e}")

Étapes suivantes