En esta página se enumeran los modelos de Gemini, los modelos autodesplegados y los modelos con APIs gestionadas en Vertex AI que admiten el motor RAG de Vertex AI.
Modelos de Gemini
Los siguientes modelos son compatibles con Vertex AI RAG Engine:
- Gemini 3 Pro Modelo de vista previa
- Gemini 2.5 Pro
- Gemini 2.5 Flash Modelo de vista previa
- Gemini 2.5 Flash-Lite Modelo de vista previa
- Gemini 2.5 Flash
- Gemini 2.5 Flash-Lite
- Gemini 2.0 Flash
Los modelos de Gemini optimizados no se admiten cuando los modelos de Gemini usan Vertex AI RAG Engine.
Modelos con despliegue automático
Vertex AI RAG Engine admite todos los modelos de Model Garden.
Usa Vertex AI RAG Engine con tus endpoints de modelos abiertos autodesplegados.
Sustituye las variables que se usan en el código de ejemplo:
- PROJECT_ID: tu ID de proyecto.
- LOCATION: la región en la que se procesará tu solicitud.
ENDPOINT_ID: tu ID de endpoint.
# Create a model instance with your self-deployed open model endpoint rag_model = GenerativeModel( "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID", tools=[rag_retrieval_tool] )
Modelos con APIs gestionadas en Vertex AI
Los modelos con APIs gestionadas en Vertex AI que admiten Vertex AI RAG Engine son los siguientes:
En el siguiente ejemplo de código se muestra cómo usar la API de Gemini GenerateContent para crear una instancia de modelo generativo. El ID del modelo, /publisher/meta/models/llama-3.1-405B-instruct-maas, se encuentra en la tarjeta del modelo.
Sustituye las variables que se usan en el código de ejemplo:
- PROJECT_ID: tu ID de proyecto.
- LOCATION: la región en la que se procesará tu solicitud.
RAG_RETRIEVAL_TOOL: tu herramienta de recuperación de RAG.
# Create a model instance with Llama 3.1 MaaS endpoint rag_model = GenerativeModel( "projects/PROJECT_ID/locations/LOCATION/publisher/meta/models/llama-3.1-405B-instruct-maas", tools=RAG_RETRIEVAL_TOOL )
En el siguiente ejemplo de código se muestra cómo usar la API ChatCompletions compatible con OpenAI para generar una respuesta de modelo.
Sustituye las variables que se usan en el código de ejemplo:
- PROJECT_ID: tu ID de proyecto.
- LOCATION: la región en la que se procesará tu solicitud.
- MODEL_ID: modelo de LLM para generar contenido. Por ejemplo,
meta/llama-3.1-405b-instruct-maas. - INPUT_PROMPT: el texto enviado al LLM para generar contenido. Usa una petición relacionada con los documentos de Vertex AI Search.
- RAG_CORPUS_ID: ID del recurso de corpus de RAG.
- ROLE: tu rol.
- USER: tu nombre de usuario.
CONTENT: tu contenido.
# Generate a response with Llama 3.1 MaaS endpoint response = client.chat.completions.create( model="MODEL_ID", messages=[{"ROLE": "USER", "content": "CONTENT"}], extra_body={ "extra_body": { "google": { "vertex_rag_store": { "rag_resources": { "rag_corpus": "RAG_CORPUS_ID" }, "similarity_top_k": 10 } } } }, )