Questa pagina elenca i modelli Gemini, i modelli con deployment autonomo e i modelli con API gestite su Vertex AI che supportano Vertex AI RAG Engine.
Modelli Gemini
I seguenti modelli supportano Vertex AI RAG Engine:
- Gemini 3.1 Pro
- Anteprima
- Gemini 2.5 Pro
- Anteprima
- Gemini 2.5 Flash-Lite
- Gemini 2.5 Flash
- Gemini 2.5 Flash-Lite
I modelli Gemini con ottimizzazione non sono supportati quando i modelli Gemini utilizzano Vertex AI RAG Engine.
Modelli di cui è stato eseguito il deployment autonomo
Vertex AI RAG Engine supporta tutti i modelli in Model Garden.
Utilizza Vertex AI RAG Engine con gli endpoint dei modelli aperti di cui hai eseguito il deployment autonomo.
Sostituisci le variabili utilizzate nell'esempio di codice:
- PROJECT_ID: l'ID progetto.
- LOCATION: la regione in cui elaborare la richiesta.
ENDPOINT_ID: l'ID endpoint.
# Create a model instance with your self-deployed open model endpoint rag_model = GenerativeModel( "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID", tools=[rag_retrieval_tool] )
Modelli con API gestite su Vertex AI
I modelli con API gestite su Vertex AI che supportano Vertex AI RAG Engine includono i seguenti:
Il seguente esempio di codice mostra come utilizzare l'API GenerateContent di Gemini per creare un'istanza del modello generativo. L'ID modello,
/publisher/meta/models/llama-3.1-405B-instruct-maas, si trova nella
scheda del modello.
Sostituisci le variabili utilizzate nell'esempio di codice:
- PROJECT_ID: l'ID progetto.
- LOCATION: la regione in cui elaborare la richiesta.
RAG_RETRIEVAL_TOOL: lo strumento di recupero RAG.
# Create a model instance with Llama 3.1 MaaS endpoint rag_model = GenerativeModel( "projects/PROJECT_ID/locations/LOCATION/publisher/meta/models/llama-3.1-405B-instruct-maas", tools=RAG_RETRIEVAL_TOOL )
Il seguente esempio di codice mostra come utilizzare l'API ChatCompletions compatibile con OpenAI per generare una risposta del modello.
Sostituisci le variabili utilizzate nell'esempio di codice:
- PROJECT_ID: l'ID progetto.
- LOCATION: la regione in cui elaborare la richiesta.
- MODEL_ID: modello LLM per la generazione di contenuti. Ad esempio,
meta/llama-3.1-405b-instruct-maas. - INPUT_PROMPT: il testo inviato all'LLM per la generazione di contenuti. Utilizza un prompt pertinente ai documenti in Ricerca agente.
- RAG_CORPUS_ID: l'ID della risorsa del corpus RAG.
- ROLE: il tuo ruolo.
- USER: il tuo nome utente.
CONTENT: i tuoi contenuti.
# Generate a response with Llama 3.1 MaaS endpoint response = client.chat.completions.create( model="MODEL_ID", messages=[{"ROLE": "USER", "content": "CONTENT"}], extra_body={ "extra_body": { "google": { "vertex_rag_store": { "rag_resources": { "rag_corpus": "RAG_CORPUS_ID" }, "similarity_top_k": 10 } } } }, )