Per ottenere risultati migliori dall'API Gemini Live, concentrati sulle seguenti best practice:
- Progettare istruzioni di sistema chiare
- Definire gli strumenti con precisione
- Creare prompt efficaci
Progettare istruzioni di sistema chiare
Per ottenere le migliori prestazioni dall'API Gemini Live, ti consigliamo di avere un insieme di istruzioni di sistema (SI) chiaramente definito che definisca la persona dell'agente, le regole conversazionali e le protezioni, in questo ordine.
Per ottenere risultati ottimali, separa ogni agente in un intent di sistema distinto.
Specifica la personalità dell'agente: fornisci dettagli su nome, ruolo e caratteristiche preferite dell'agente. Se vuoi specificare l'accento, assicurati di specificare anche la lingua di output preferita (ad esempio, un accento britannico per un utente che parla inglese).
Specifica le regole conversazionali:inserisci queste regole nell'ordine in cui prevedi che il modello le segua. Distinguere gli elementi una tantum della conversazione e i loop conversazionali. Ad esempio:
- Elemento una tantum: raccogli i dati di un cliente una sola volta (ad esempio nome, posizione, numero di carta fedeltà).
- Ciclo conversazionale:l'utente può discutere di consigli, prezzi, resi e consegne e potrebbe voler passare da un argomento all'altro. Comunica al modello che può continuare questo ciclo conversazionale per tutto il tempo che l'utente desidera.
Specifica le chiamate di strumenti all'interno di un flusso in frasi distinte: ad esempio, se un passaggio una tantum per raccogliere i dettagli di un cliente richiede l'invocazione di una funzione
get_user_info, potresti dire: Il primo passaggio consiste nel raccogliere le informazioni dell'utente. Innanzitutto, chiedi all'utente di fornire il suo nome, la sua posizione e il numero della carta fedeltà. Poi invocaget_user_infocon questi dettagli.Aggiungi le misure di salvaguardia necessarie: fornisci le misure di salvaguardia generali per la conversazione che non vuoi che il modello esegua. Fornisci esempi specifici di cosa vuoi che il modello faccia se si verifica x. Se non ottieni ancora il livello di precisione preferito, utilizza la parola inconfondibilmente per guidare il modello a essere preciso.
Definisci gli strumenti con precisione
Quando utilizzi strumenti con l'API Gemini Live, specifica le definizioni degli strumenti. Assicurati di indicare a Gemini in quali condizioni deve essere richiamata una chiamata allo strumento. Per maggiori dettagli, consulta Definizioni degli strumenti.
Creare prompt efficaci
Utilizza prompt chiari:fornisci esempi di ciò che il modello dovrebbe e non dovrebbe fare nei prompt e cerca di limitare i prompt a uno per persona o ruolo alla volta. Invece di prompt lunghi e di più pagine, valuta la possibilità di utilizzare il concatenamento dei prompt. Il modello funziona meglio con attività con singole chiamate di funzioni.
# Prompt chaining example. chainable_long_prompt = """ You need to perform a sequence of tasks. First, you should do task1; after that, task2; later, task3; and finally, task4. """ # New initial prompt """ You need to perform a sequence of tasks. Once you finish the current task, call the `get_next_prompt` function to get instructions for the next task. """ PROMPT_LIST = ["Now, do task1", "Now, do task2", "Now, do task3", "Now, do task 4", "all tasks done"] def get_next_prompt(): # Provide this function as a tool to the model. for prompt in PROMPT_LIST: yield prompt # Catch and execute tool call `get_next_prompt` and send the new prompt back to the model.Fornisci comandi e informazioni iniziali:l'API Gemini Live si aspetta l'input utentet dell'utente prima di rispondere. Per fare in modo che l'API Gemini Live avvii la conversazione, includi un prompt che le chieda di salutare l'utente o di iniziare la conversazione. Includi informazioni sull'utente per fare in modo che l'API Gemini Live personalizzi il saluto.
Ripresa della sessione
- Utilizza la ripresa della sessione trasparente:
configura la connessione con
SessionResumptionConfig(transparent=True)ingenai.types.LiveConnectConfig. Ciò indica che il client intende gestire la ripresa della sessione senza problemi, consentendo funzionalità come la riproduzione dei messaggi non consumati al momento della riconnessione.
from google.genai import types
session_handle: str | None = None
live_config = types.LiveConnectConfig(
session_resumption=types.SessionResumptionConfig(
handle=session_handle,
transparent=True,
),
)
Mantieni e aggiorna l'handle della sessione: Ascolta i messaggi
session_resumption_updatedal server. Seresumableè true e viene fornito unnew_handle, memorizza questo handle. Questo handle è essenziale per riconnettersi allo stesso stato della sessione in caso di disconnessione.Memorizza nel buffer i messaggi inviati ed elimina quelli confermati: Per assicurarti che nessun messaggio del client venga perso durante una disconnessione, mantieni un buffer dei messaggi inviati all'API Gemini Live. Il messaggio
session_resumption_updateconterràlast_consumed_client_message_indexquando è attivata la ripresa trasparente della sessione, indicando l'ultimo messaggio elaborato dal server. Utilizza questo indice per rimuovere i messaggi confermati dal buffer. Per monitorare correttamente i messaggi, l'indice gestito dall'utente deve iniziare da 1, perché l'indice 0 indica chethe session is not resumable. Ogni messaggio successivo inviato al modello deve incrementare questo indice di 1. A ogni ripresa della sessione, assicurati che l'indice venga reimpostato su 1 per il messaggio iniziale trasmesso utilizzando la nuova connessione.Gestisci le disconnessioni in modo controllato:
- Segnale GoAway: il server invia un messaggio
go_awayprima di una disconnessione prevista (ad esempio un timeout). Il gestore deve ascoltare questo messaggio e poi riconnettersi in modo proattivo utilizzando l'ultimo handle. - Errori API: i problemi di rete possono causare
genai_errors.APIError(ad esempio, i codici 1000 o 1006 per gli errori WebSocket). Il gestore deve rilevare questi errori nei loop di invio e ricezione e attivare il processo di aggiornamento o riconnessione della sessione.
- Segnale GoAway: il server invia un messaggio
Implementa la riconnessione con la riproduzione dei messaggi: quando si verifica una disconnessione, crea una nuova sessione utilizzando
client.aio.live.connectcon l'ultimo handle di sessione. Dopo aver stabilito la nuova connessione, invia nuovamente tutti i messaggi nel buffer che non sono stati riconosciuti dal server prima della disconnessione. Il primo messaggio inviato nel buffer deve essere contrassegnato come indice 1 per la nuova connessione.
Attiva la compressione della finestra contestuale
Utilizza ContextWindowCompressionConfig per configurare la finestra contestuale della sessione
per le sessioni lunghe, poiché i token audio nativi si accumulano rapidamente (circa
25 token al secondo di audio).
Avviso:la compressione del contesto causerà la perdita della cronologia delle conversazioni.
from google.genai import types
live_config = types.LiveConnectConfig(
context_window_compression=types.ContextWindowCompressionConfig(
trigger_tokens=100_000, # For better clarity
sliding_window=types.SlidingWindow(target_tokens=4_000),
),
)
Calcolo dell'utilizzo dei token
La struttura di fatturazione dell'API Gemini Live è descritta in dettaglio nella
pagina dei prezzi.
A ogni turno, l'API fattura tutti i token di contesto, che comprendono
sia la cronologia della conversazione sia le istruzioni di sistema fornite dall'utente.
Gli sviluppatori possono monitorare e calcolare questi addebiti estraendo il campo
usage_metadata fornito nella risposta del modello.
# Example code to get token usage
from google.genai import live
session: live.AsyncSession
async for response in session.receive():
if response.usage_metadata is not None:
print("Token usage:", response.usage_metadata)
Rilevamento dell'attività vocale (VAD)
Per impostazione predefinita, l'API Gemini Live utilizza il VAD fornito da Gemini.
Quando utilizzi l'API Gemini Live VAD, puoi configurare il modello in modo che restituisca esplicitamente gli eventi VAD. Se attivi explicit_vad_signal nella configurazione, puoi monitorare e acquisire questi eventi direttamente dalle risposte del modello.
from google.genai import types
from google.genai import live
live_config = types.LiveConnectConfig(
explicit_vad_signal=True
)
session: live.AsyncSession
# In receive loop
async for response in session.receive():
if response.voice_activity is not None:
print("Get VAD event", response.voice_activity)
Se preferisci utilizzare un sistema di rilevamento dell'attività personalizzato, devi disattivare
il rilevamento dell'attività vocale (VAD)
predefinito e segnalare manualmente i turni dell'utente al modello Gemini. Ciò si ottiene
trasmettendo eventi ActivityStart o ActivityEnd per definire
i limiti dell'interazione.
from google.genai import live
from google.genai import types
# Disable VAD in config
live_config = types.LiveConnectConfig(
realtime_input_config=types.RealtimeInputConfig(
automatic_activity_detection=types.AutomaticActivityDetection(
disabled=True
),
),
)
session: live.AsyncSession
await session.send_realtime_input( # Send activity start
activity_start=types.ActivityStart()
)
for audio_bytes in bytes_to_send_queue: # Send user data
await session.send_realtime_input(
audio=types.Blob(
data=audio_bytes,
mime_type=f"audio/pcm;rate=16000",
)
)
await session.send_realtime_input(activity_end=types.ActivityEnd()) # Send activity end
Impostare il codice lingua audio
Per mantenere la coerenza, è consigliabile impostare esplicitamente la lingua e il codice vocale nella configurazione. Senza questa definizione, Gemini potrebbe modificare la lingua della conversazione a seconda del contesto fornito.
from google.genai import types
config = types.LiveConnectConfig(
speech_config=types.SpeechConfig(
language_code="en-US",
),
)
Menziona anche quanto segue nell'istruzione di sistema:
RESPOND IN {OUTPUT_LANGUAGE}. YOU MUST RESPOND UNMISTAKABLY IN {OUTPUT_LANGUAGE}.
Per i modelli audio nativi come gemini-live-2.5-flash-native-audio, puoi migliorare la qualità della trascrizione per il riconoscimento vocale automatico (ASR) multilingue fornendo suggerimenti sulla lingua nella configurazione della sessione. Per saperne di più, consulta Attivare la trascrizione audio per la sessione.
Imposta il codice della lingua della trascrizione
Specifica i codici lingua della trascrizione per aumentare la precisione della trascrizione utilizzando il formato del codice lingua BCP-47.
Nota:l'attivazione della trascrizione introduce più token.
from google.genai import types
config = types.LiveConnectConfig(
input_audio_transcription=types.AudioTranscriptionConfig(
language_codes=['en-US'] # This supports multiple language codes.
),
output_audio_transcription=types.AudioTranscriptionConfig(
language_codes=['en-US']
),
)
Buffering del client
Non memorizzare nel buffer l'audio di input in modo significativo (ad esempio, 1 secondo) prima dell'invio. Invia piccoli blocchi (tra 20 ms e 40 ms) per ridurre al minimo la latenza.
Ricampionamento
Assicurati che l'applicazione client esegua il ricampionamento dell'input del microfono (spesso 44,1 kHz o 48 kHz) a 16 kHz prima della trasmissione.
Esempio
Questo esempio combina le best practice e le linee guida per la progettazione delle istruzioni di sistema per guidare il rendimento del modello in qualità di career coach.
**Persona:**
You are Laura, a career coach from Brooklyn, NY. You specialize in providing
data-driven advice to give your clients a fresh perspective on the career
questions they're navigating. Your special sauce is providing quantitative,
data-driven insights to help clients think about their issues in a different
way. You leverage statistics, research, and psychology as much as possible.
You only speak to your clients in English, no matter what language they speak
to you in.
**Conversational Rules:**
1. **Introduce yourself:** Warmly greet the client.
2. **Intake:** Ask for your client's full name, date of birth, and state they're
calling in from. Call `create_client_profile` to create a new patient profile.
3. **Discuss the client's issue:** Get a sense of what the client wants to
cover in the session. DO NOT repeat what the client is saying back to them in
your response. Don't ask more than a few questions here.
4. **Reframe the client's issue with real data:** NO PLATITUDES. Start providing
data-driven insights for the client, but embed these as general facts within
conversation. This is what they're coming to you for: your unique thinking on
the subjects that are stressing them out. Show them a new way of thinking about
something. Let this step go on for as long as the client wants. As part of this,
if the client mentions wanting to take any actions, update
`add_action_items_to_profile` to remind the client later.
5. **Next appointment:** Call `get_next_appointment` to see if another
appointment has already been scheduled for the client. If so, then share the
date and time with the client and confirm if they'll be able to attend. If
there is no appointment, then call `get_available_appointments` to see openings.
Share the list of openings with the client and ask what they would prefer. Save
their preference with `schedule_appointment`. If the client prefers to schedule
offline, then let them know that's perfectly fine and to use the patient portal.
**General Guidelines:** You're meant to be a witty, snappy conversational
partner. Keep your responses short and progressively disclose more information
if the client requests it. Don't repeat what the client says back to them.
Each of your responses should add to the conversation, not just recap what
the client said. Be relatable by bringing in your own background
growing up professionally in Brooklyn, NY. If a client tries to get you off
track, gently bring them back to the workflow articulated above.
**Guardrails:** If the client is being hard on themselves, never encourage that.
Remember that your ultimate goal is to create a supportive environment for your
clients to thrive.
Definizioni degli strumenti
Questo JSON definisce le funzioni pertinenti chiamate nell'esempio di career coach. Per ottenere risultati ottimali quando definisci le funzioni, includi i relativi nomi, descrizioni, parametri e condizioni di chiamata.
[
{
"name": "create_client_profile",
"description": "Creates a new client profile with their personal details. Returns a unique client ID. \n**Invocation Condition:** Invoke this tool *only after* the client has provided their full name, date of birth, AND state. This should only be called once at the beginning of the 'Intake' step.",
"parameters": {
"type": "object",
"properties": {
"full_name": {
"type": "string",
"description": "The client's full name."
},
"date_of_birth": {
"type": "string",
"description": "The client's date of birth in YYYY-MM-DD format."
},
"state": {
"type": "string",
"description": "The 2-letter postal abbreviation for the client's state (e.g., 'NY', 'CA')."
}
},
"required": ["full_name", "date_of_birth", "state"]
}
},
{
"name": "add_action_items_to_profile",
"description": "Adds a list of actionable next steps to a client's profile using their client ID. \n**Invocation Condition:** Invoke this tool *only after* a list of actionable next steps has been discussed and agreed upon with the client during the 'Actions' step. Requires the `client_id` obtained from the start of the session.",
"parameters": {
"type": "object",
"properties": {
"client_id": {
"type": "string",
"description": "The unique ID of the client, obtained from create_client_profile."
},
"action_items": {
"type": "array",
"items": {
"type": "string"
},
"description": "A list of action items for the client (e.g., ['Update resume', 'Research three companies'])."
}
},
"required": ["client_id", "action_items"]
}
},
{
"name": "get_next_appointment",
"description": "Checks if a client has a future appointment already scheduled using their client ID. Returns the appointment details or null. \n**Invocation Condition:** Invoke this tool at the *start* of the 'Next Appointment' workflow step, immediately after the 'Actions' step is complete. This is used to check if an appointment *already exists*.",
"parameters": {
"type": "object",
"properties": {
"client_id": {
"type": "string",
"description": "The unique ID of the client."
}
},
"required": ["client_id"]
}
},
{
"name": "get_available_appointments",
"description": "Fetches a list of the next available appointment slots. \n**Invocation Condition:** Invoke this tool *only if* the `get_next_appointment` tool was called and it returned `null` (or an empty response), indicating no future appointment is scheduled.",
"parameters": {
"type": "object",
"properties": {}
}
},
{
"name": "schedule_appointment",
"description": "Books a new appointment for a client at a specific date and time. \n**Invocation Condition:** Invoke this tool *only after* `get_available_appointments` has been called, a list of openings has been presented to the client, and the client has *explicitly confirmed* which specific date and time they want to book.",
"parameters": {
"type": "object",
"properties": {
"client_id": {
"type": "string",
"description": "The unique ID of the client."
},
"appointment_datetime": {
"type": "string",
"description": "The chosen appointment slot in ISO 8601 format (e.g., '2025-10-30T14:30:00')."
}
},
"required": ["client_id", "appointment_datetime"]
}
}
]
Ulteriori informazioni
Per saperne di più sull'utilizzo dell'API Gemini Live, consulta:
- Pagina di panoramica dell'API Gemini Live
- Guida di riferimento dell'API Gemini Live
- Avviare e gestire le sessioni live
- Configurare le funzionalità di Gemini