Prima di iniziare
Questo tutorial presuppone che tu abbia letto e seguito le istruzioni riportate in:
- Sviluppa un agente LangChain: per sviluppare
agentcome istanza diLangchainAgent. - Autenticazione utente per l'autenticazione come utente per interrogare l'agente.
- Importa e inizializza l'SDK per inizializzare il client per ottenere un'istanza di cui è stato eseguito il deployment (se necessario).
Ottenere un'istanza di un agente
Per eseguire query su un LangchainAgent, devi prima
creare una nuova istanza o
recuperare un'istanza esistente.
Per ottenere l'LangchainAgent corrispondente a un ID risorsa specifico:
SDK Vertex AI per Python
Esegui questo codice:
import vertexai
client = vertexai.Client( # For service interactions via client.agent_engines
project="PROJECT_ID",
location="LOCATION",
)
agent = client.agent_engines.get(name="projects/PROJECT_ID/locations/LOCATION/reasoningEngines/RESOURCE_ID")
print(agent)
dove
PROJECT_IDè l'ID progetto Google Cloud in cui sviluppi e implementi gli agenti.LOCATIONè una delle regioni supportate.RESOURCE_IDè l'ID dell'agente di cui è stato eseguito il deployment come risorsareasoningEngine.
Libreria delle richieste Python
Esegui questo codice:
from google import auth as google_auth
from google.auth.transport import requests as google_requests
import requests
def get_identity_token():
credentials, _ = google_auth.default()
auth_request = google_requests.Request()
credentials.refresh(auth_request)
return credentials.token
response = requests.get(
f"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/reasoningEngines/RESOURCE_ID",
headers={
"Content-Type": "application/json; charset=utf-8",
"Authorization": f"Bearer {get_identity_token()}",
},
)
API REST
curl \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/reasoningEngines/RESOURCE_IDQuando utilizzi l'SDK Vertex AI per Python, l'oggetto agent corrisponde a una
classe AgentEngine che contiene quanto segue:
- un
agent.api_resourcecon informazioni sull'agente di cui è stato eseguito il deployment. Puoi anche chiamareagent.operation_schemas()per restituire l'elenco delle operazioni supportate dall'agente. Per maggiori dettagli, vedi Operazioni supportate. - un
agent.api_clientche consente interazioni di servizio sincrone - un
agent.async_api_clientche consente interazioni di servizio asincrone
Il resto di questa sezione presuppone che tu abbia un'istanza AgentEngine denominata agent.
Operazioni supportate
Sono supportate le seguenti operazioni:
query: per ottenere una risposta a una query in modo sincrono.stream_query: per lo streaming di una risposta a una query.
Entrambi i metodi query e stream_query supportano lo stesso tipo di argomenti:
input: i messaggi da inviare all'agente.config: la configurazione (se applicabile) per il contesto della query.
Interrogare l'agente
Il comando:
agent.query(input="What is the exchange rate from US dollars to SEK today?")
equivale a quanto segue (in forma completa):
agent.query(input={
"input": [ # The input is represented as a list of messages (each message as a dict)
{
# The role (e.g. "system", "user", "assistant", "tool")
"role": "user",
# The type (e.g. "text", "tool_use", "image_url", "media")
"type": "text",
# The rest of the message (this varies based on the type)
"text": "What is the exchange rate from US dollars to Swedish currency?",
},
]
})
I ruoli vengono utilizzati per aiutare il modello a distinguere tra diversi tipi di messaggi
quando risponde. Se role viene omesso nell'input, il valore predefinito è "user".
| Ruolo | Descrizione |
|---|---|
system |
Utilizzato per indicare al modello di chat come comportarsi e fornire un contesto aggiuntivo. Non supportato da tutti i fornitori di modelli di chat. |
user |
Rappresenta l'input di un utente che interagisce con il modello, di solito sotto forma di testo o altro input interattivo. |
assistant |
Rappresenta una risposta del modello, che può includere testo o una richiesta di richiamo di strumenti. |
tool |
Un messaggio utilizzato per restituire i risultati di una chiamata di strumento al modello dopo che sono stati recuperati dati o elaborazioni esterni. |
Il type del messaggio determinerà anche come verrà interpretato il resto del messaggio (vedi Gestire i contenuti multimodali).
Interrogare l'agente con contenuti multimodali
Utilizzeremo il seguente agente (che inoltra l'input al modello e non utilizza strumenti) per illustrare come trasmettere input multimodali a un agente:
agent = agent_engines.LangchainAgent(
model="gemini-2.0-flash",
runnable_builder=lambda model, **kwargs: model,
)
I messaggi multimodali sono rappresentati da blocchi di contenuti che specificano un type
e i dati corrispondenti. In generale, per i contenuti multimodali, devi specificare
type come "media", file_uri in modo che punti a un URI Cloud Storage
e mime_type per interpretare il file.
Immagine
agent.query(input={"input": [
{"type": "text", "text": "Describe the attached media in 5 words!"},
{"type": "media", "mime_type": "image/jpeg", "file_uri": "gs://cloud-samples-data/generative-ai/image/cricket.jpeg"},
]})
Video
agent.query(input={"input": [
{"type": "text", "text": "Describe the attached media in 5 words!"},
{"type": "media", "mime_type": "video/mp4", "file_uri": "gs://cloud-samples-data/generative-ai/video/pixel8.mp4"},
]})
Audio
agent.query(input={"input": [
{"type": "text", "text": "Describe the attached media in 5 words!"},
{"type": "media", "mime_type": "audio/mp3", "file_uri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"},
]})
Per l'elenco dei tipi MIME supportati da Gemini, consulta la documentazione su:
Esegui query sull'agente con una configurazione eseguibile
Quando esegui una query sull'agente, puoi anche specificare un config per l'agente (che
segue lo schema di un RunnableConfig).
Due scenari comuni sono:
- Parametri di configurazione predefiniti:
run_id/run_name: identificatore dell'esecuzione.tags/metadata: classificatore per l'esecuzione durante la tracciabilità con OpenTelemetry.
- Parametri di configurazione personalizzati (tramite
configurable):session_id: la sessione in cui viene eseguita la corsa (vedi Memorizzare la cronologia chat).thread_id: il thread in cui viene eseguita l'esecuzione (vedi Store Checkpoints).
Ad esempio:
import uuid
run_id = uuid.uuid4() # Generate an ID for tracking the run later.
response = agent.query(
input="What is the exchange rate from US dollars to Swedish currency?",
config={ # Specify the RunnableConfig here.
"run_id": run_id # Optional.
"tags": ["config-tag"], # Optional.
"metadata": {"config-key": "config-value"}, # Optional.
"configurable": {"session_id": "SESSION_ID"} # Optional.
},
)
print(response)
Passaggi successivi
- Utilizzare un agente.
- Valuta un agente.
- Gestisci gli agenti di cui è stato eseguito il deployment.
- Richiedere assistenza.