Modelos compatibles con el motor de RAG de Vertex AI

En esta página se enumeran los modelos de Gemini, los modelos autodesplegados y los modelos con APIs gestionadas en Vertex AI que admiten el motor RAG de Vertex AI.

Modelos de Gemini

Los siguientes modelos admiten el motor de RAG de Vertex AI:

Los modelos de Gemini optimizados no se admiten cuando los modelos de Gemini usan el motor RAG de Vertex AI.

Modelos con despliegue automático

El motor de RAG de Vertex AI es compatible con todos los modelos de Model Garden.

Usa Vertex AI RAG Engine con tus endpoints de modelos abiertos autodesplegados.

Sustituye las variables que se usan en el código de ejemplo:

  • PROJECT_ID: tu ID de proyecto.
  • LOCATION: la región en la que se procesará tu solicitud.
  • ENDPOINT_ID: tu ID de endpoint.

      # Create a model instance with your self-deployed open model endpoint
      rag_model = GenerativeModel(
          "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID",
          tools=[rag_retrieval_tool]
      )
    

Modelos con APIs gestionadas en Vertex AI

Los modelos con APIs gestionadas en Vertex AI que admiten el motor de RAG de Vertex AI son los siguientes:

En el siguiente ejemplo de código se muestra cómo usar la API de Gemini GenerateContent para crear una instancia de modelo generativo. El ID del modelo, /publisher/meta/models/llama-3.1-405B-instruct-maas, se encuentra en la tarjeta del modelo.

Sustituye las variables que se usan en el código de ejemplo:

  • PROJECT_ID: tu ID de proyecto.
  • LOCATION: la región en la que se procesará tu solicitud.
  • RAG_RETRIEVAL_TOOL: tu herramienta de recuperación de RAG.

      # Create a model instance with Llama 3.1 MaaS endpoint
      rag_model = GenerativeModel(
          "projects/PROJECT_ID/locations/LOCATION/publisher/meta/models/llama-3.1-405B-instruct-maas",
          tools=RAG_RETRIEVAL_TOOL
      )
    

En el siguiente ejemplo de código se muestra cómo usar la API ChatCompletions compatible con OpenAI para generar una respuesta de modelo.

Sustituye las variables que se usan en el código de ejemplo:

  • PROJECT_ID: tu ID de proyecto.
  • LOCATION: la región en la que se procesará tu solicitud.
  • MODEL_ID: modelo de LLM para generar contenido. Por ejemplo, meta/llama-3.1-405b-instruct-maas.
  • INPUT_PROMPT: texto enviado al LLM para generar contenido. Usa una petición relacionada con los documentos de Vertex AI Search.
  • RAG_CORPUS_ID: ID del recurso de corpus de RAG.
  • ROLE: tu rol.
  • USER: tu nombre de usuario.
  • CONTENT: tu contenido.

      # Generate a response with Llama 3.1 MaaS endpoint
      response = client.chat.completions.create(
          model="MODEL_ID",
          messages=[{"ROLE": "USER", "content": "CONTENT"}],
          extra_body={
              "extra_body": {
                  "google": {
                      "vertex_rag_store": {
                          "rag_resources": {
                              "rag_corpus": "RAG_CORPUS_ID"
                          },
                          "similarity_top_k": 10
                      }
                  }
              }
          },
      )
    

Siguientes pasos