Esta página se ha traducido con Cloud Translation API.

Modelos compatibles con el motor de RAG de Vertex AI

En esta página se enumeran los modelos de Gemini, los modelos autodesplegados y los modelos con APIs gestionadas en Vertex AI que admiten el motor RAG de Vertex AI.

Modelos de Gemini

Los siguientes modelos son compatibles con Vertex AI RAG Engine:

Gemini 3 Pro Modelo de vista previa
Gemini 2.5 Pro
Gemini 2.5 Flash Modelo de vista previa
Gemini 2.5 Flash-Lite Modelo de vista previa
Gemini 2.5 Flash
Gemini 2.5 Flash-Lite
Gemini 2.0 Flash

Los modelos de Gemini optimizados no se admiten cuando los modelos de Gemini usan Vertex AI RAG Engine.

Modelos con despliegue automático

Vertex AI RAG Engine admite todos los modelos de Model Garden.

Usa Vertex AI RAG Engine con tus endpoints de modelos abiertos autodesplegados.

Sustituye las variables que se usan en el código de ejemplo:

PROJECT_ID: tu ID de proyecto.
LOCATION: la región en la que se procesará tu solicitud.

ENDPOINT_ID: tu ID de endpoint.

  # Create a model instance with your self-deployed open model endpoint
  rag_model = GenerativeModel(
      "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID",
      tools=[rag_retrieval_tool]
  )

Modelos con APIs gestionadas en Vertex AI

Los modelos con APIs gestionadas en Vertex AI que admiten Vertex AI RAG Engine son los siguientes:

En el siguiente ejemplo de código se muestra cómo usar la API de Gemini GenerateContent para crear una instancia de modelo generativo. El ID del modelo, /publisher/meta/models/llama-3.1-405B-instruct-maas, se encuentra en la tarjeta del modelo.

Sustituye las variables que se usan en el código de ejemplo:

PROJECT_ID: tu ID de proyecto.
LOCATION: la región en la que se procesará tu solicitud.

RAG_RETRIEVAL_TOOL: tu herramienta de recuperación de RAG.

  # Create a model instance with Llama 3.1 MaaS endpoint
  rag_model = GenerativeModel(
      "projects/PROJECT_ID/locations/LOCATION/publisher/meta/models/llama-3.1-405B-instruct-maas",
      tools=RAG_RETRIEVAL_TOOL
  )

En el siguiente ejemplo de código se muestra cómo usar la API ChatCompletions compatible con OpenAI para generar una respuesta de modelo.

Sustituye las variables que se usan en el código de ejemplo:

PROJECT_ID: tu ID de proyecto.
LOCATION: la región en la que se procesará tu solicitud.
MODEL_ID: modelo de LLM para generar contenido. Por ejemplo, meta/llama-3.1-405b-instruct-maas.
INPUT_PROMPT: el texto enviado al LLM para generar contenido. Usa una petición relacionada con los documentos de Vertex AI Search.
RAG_CORPUS_ID: ID del recurso de corpus de RAG.
ROLE: tu rol.
USER: tu nombre de usuario.

CONTENT: tu contenido.

  # Generate a response with Llama 3.1 MaaS endpoint
  response = client.chat.completions.create(
      model="MODEL_ID",
      messages=[{"ROLE": "USER", "content": "CONTENT"}],
      extra_body={
          "extra_body": {
              "google": {
                  "vertex_rag_store": {
                      "rag_resources": {
                          "rag_corpus": "RAG_CORPUS_ID"
                      },
                      "similarity_top_k": 10
                  }
              }
          }
      },
  )

Siguientes pasos

Usar modelos de inserciones con Vertex AI RAG Engine.

Modelos compatibles con el motor de RAG de Vertex AI Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

Modelos de Gemini

Modelos con despliegue automático

Modelos con APIs gestionadas en Vertex AI

Siguientes pasos

Modelos compatibles con el motor de RAG de Vertex AI