Esta página foi traduzida pela API Cloud Translation.

Usar um agente LangChain

Antes de começar

Este tutorial pressupõe que você leu e seguiu as instruções em:

Desenvolver um agente do LangChain: para desenvolver agent como uma instância de LangchainAgent.
Autenticação de usuário para se autenticar como um usuário e consultar o agente.
Importe e inicialize o SDK para inicializar o cliente e receber uma instância implantada (se necessário).

Receber uma instância de um agente

Para consultar um LangchainAgent, primeiro crie uma instância ou acesse uma instância atual.

Para receber o LangchainAgent correspondente a um ID de recurso específico:

SDK da Vertex AI para Python

Execute o seguinte código:

import vertexai

client = vertexai.Client(  # For service interactions via client.agent_engines
    project="PROJECT_ID",
    location="LOCATION",
)

agent = client.agent_engines.get(name="projects/PROJECT_ID/locations/LOCATION/reasoningEngines/RESOURCE_ID")

print(agent)

em que

PROJECT_ID é o ID do projeto do Google Cloud em que você desenvolve e implanta agentes.
LOCATION é uma das regiões com suporte.
RESOURCE_ID é o ID do agente implantado como um recurso reasoningEngine.

Biblioteca de solicitações do Python

Execute o seguinte código:

from google import auth as google_auth
from google.auth.transport import requests as google_requests
import requests

def get_identity_token():
    credentials, _ = google_auth.default()
    auth_request = google_requests.Request()
    credentials.refresh(auth_request)
    return credentials.token

response = requests.get(
f"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/reasoningEngines/RESOURCE_ID",
    headers={
        "Content-Type": "application/json; charset=utf-8",
        "Authorization": f"Bearer {get_identity_token()}",
    },
)

API REST

curl \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/reasoningEngines/RESOURCE_ID

Ao usar o SDK da Vertex AI para Python, o objeto agent corresponde a uma classe AgentEngine que contém o seguinte:

um agent.api_resource com informações sobre o agente implantado. Você também pode chamar agent.operation_schemas() para retornar a lista de operações compatíveis com o agente. Consulte Operações compatíveis para mais detalhes.
um agent.api_client que permite interações síncronas de serviço
um agent.async_api_client que permite interações de serviço assíncronas

O restante desta seção pressupõe que você tenha uma instância AgentEngine chamada agent.

Operações suportadas

As seguintes operações são compatíveis:

query: para receber uma resposta a uma consulta de forma síncrona.
stream_query: para transmitir uma resposta a uma consulta.

Os métodos query e stream_query aceitam o mesmo tipo de argumentos:

input: as mensagens a serem enviadas ao agente.
config: a configuração (se aplicável) para o contexto da consulta.

Consultar o agente

O comando:

agent.query(input="What is the exchange rate from US dollars to SEK today?")

é equivalente ao seguinte (na forma completa):

agent.query(input={
    "input": [ # The input is represented as a list of messages (each message as a dict)
        {
            # The role (e.g. "system", "user", "assistant", "tool")
            "role": "user",
            # The type (e.g. "text", "tool_use", "image_url", "media")
            "type": "text",
            # The rest of the message (this varies based on the type)
            "text": "What is the exchange rate from US dollars to Swedish currency?",
        },
    ]
})

As funções ajudam o modelo a distinguir entre diferentes tipos de mensagens ao responder. Quando o role é omitido na entrada, o padrão é "user".

Papel	Descrição
`system`	Usado para informar ao modelo de chat como se comportar e fornecer mais contexto. Não é compatível com todos os provedores de modelos de chat.
`user`	Representa a entrada de um usuário que interage com o modelo, geralmente na forma de texto ou outra entrada interativa.
`assistant`	Representa uma resposta do modelo, que pode incluir texto ou uma solicitação para invocar ferramentas.
`tool`	Uma mensagem usada para transmitir os resultados de uma invocação de ferramenta de volta ao modelo depois que dados ou processamento externos são recuperados.

O type da mensagem também vai determinar como o restante dela será interpretado (consulte Processar conteúdo multimodal).

Consultar o agente com conteúdo multimodal

Vamos usar o seguinte agente (que encaminha a entrada para o modelo e não usa nenhuma ferramenta) para ilustrar como transmitir entradas multimodais para um agente:

agent = agent_engines.LangchainAgent(
    model="gemini-2.0-flash",
    runnable_builder=lambda model, **kwargs: model,
)

As mensagens multimodais são representadas por blocos de conteúdo que especificam um type e os dados correspondentes. Em geral, para conteúdo multimodal, você especifica type como "media", file_uri para apontar para um URI do Cloud Storage e mime_type para interpretar o arquivo.

Imagem

agent.query(input={"input": [
    {"type": "text", "text": "Describe the attached media in 5 words!"},
    {"type": "media", "mime_type": "image/jpeg", "file_uri": "gs://cloud-samples-data/generative-ai/image/cricket.jpeg"},
]})

Vídeo

agent.query(input={"input": [
    {"type": "text", "text": "Describe the attached media in 5 words!"},
    {"type": "media", "mime_type": "video/mp4", "file_uri": "gs://cloud-samples-data/generative-ai/video/pixel8.mp4"},
]})

Áudio

agent.query(input={"input": [
    {"type": "text", "text": "Describe the attached media in 5 words!"},
    {"type": "media", "mime_type": "audio/mp3", "file_uri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"},
]})

Para conferir a lista de tipos MIME compatíveis com o Gemini, acesse a documentação em:

Consultar o agente com uma configuração executável

Ao consultar o agente, também é possível especificar um config para ele (que segue o esquema de um RunnableConfig). Dois cenários comuns são:

Parâmetros de configuração padrão:
- run_id / run_name: identificador da execução.
- tags / metadata: classificador da execução ao rastrear com o OpenTelemetry.
Parâmetros de configuração personalizados (via configurable):
- session_id: a sessão em que a execução está acontecendo (consulte Armazenar o histórico de chat).
- thread_id: a linha de execução em que a execução está acontecendo (consulte Armazenar checkpoints).

Como exemplo:

import uuid

run_id = uuid.uuid4()  # Generate an ID for tracking the run later.

response = agent.query(
    input="What is the exchange rate from US dollars to Swedish currency?",
    config={  # Specify the RunnableConfig here.
        "run_id": run_id                               # Optional.
        "tags": ["config-tag"],                        # Optional.
        "metadata": {"config-key": "config-value"},    # Optional.
        "configurable": {"session_id": "SESSION_ID"}   # Optional.
    },
)

print(response)