Utilizzare modelli aperti utilizzando Model as a Service (MaaS)

Questo documento descrive come utilizzare i modelli aperti tramite Model as a Service (MaaS) su Vertex AI. MaaS fornisce l'accesso serverless a modelli open source e di partner selezionati, eliminando la necessità di eseguire il provisioning o la gestione dell'infrastruttura.

Model Garden è una libreria centralizzata di modelli di AI e ML di Google, dei partner di Google e di modelli aperti (open-weight e open source), inclusi i modelli MaaS. Model Garden offre diversi modi per eseguire il deployment dei modelli disponibili su Vertex AI, inclusi i modelli di Hugging Face.

Per saperne di più su MaaS, consulta la documentazione sui modelli partner.

Prima di iniziare

Per utilizzare i modelli MaaS, devi abilitare l'API Vertex AI nel tuo progettoGoogle Cloud .

gcloud services enable aiplatform.googleapis.com

Abilita l'API del modello

Prima di poter utilizzare un modello MaaS, devi abilitarne l'API. Per farlo, vai alla pagina del modello in Model Garden. Alcuni modelli disponibili tramite MaaS sono disponibili anche per l'autodistribuzione. Le schede dei modelli di Model Garden per entrambe le offerte sono diverse. La scheda del modello MaaS include API Service nel nome.

Chiama il modello utilizzando l'SDK Google Gen AI per Python

L'esempio seguente chiama il modello Llama 3.3 utilizzando l'SDK Google Gen AI per Python.

from google import genai
from google.genai import types

PROJECT_ID="PROJECT_ID"
LOCATION="LOCATION"
MODEL="meta/llama-3.3-70b-instruct-maas"  # The model ID from Model Garden with "API Service"

# Define the prompt to send to the model.
prompt = "What is the distance between earth and moon?"

# Initialize the Google Gen AI SDK client.
client = genai.Client(
    vertexai=True,
    project=PROJECT_ID,
    location=LOCATION,
)

# Prepare the content for the chat.
contents: types.ContentListUnion = [
    types.Content(
        role="user",
        parts=[
            types.Part.from_text(text=prompt)
        ]
    )
]

# Configure generation parameters.
generate_content_config = types.GenerateContentConfig(
    temperature = 0,
    top_p = 0,
    max_output_tokens = 4096,
)

try:
    # Create a chat instance with the specified model.
    chat = client.chats.create(model=MODEL)
    # Send the message and print the response.
    response = chat.send_message(contents)
    print(response.text)
except Exception as e:
    print(f"{MODEL} call failed due to {e}")

Passaggi successivi