Mulai menggunakan Gemini Live API menggunakan ADK

Tutorial ini menunjukkan cara membuat agen dan menggunakan Streaming Agent Development Kit (ADK) untuk mengaktifkan komunikasi suara dan video. Anda menginstal ADK, menyiapkan agen dasar yang menggunakan Google Penelusuran, dan menjalankan agen dengan alat adk web.

Sebelum memulai

Panduan ini mengasumsikan bahwa Anda memiliki pengalaman menggunakan terminal di lingkungan Windows, macOS, atau Linux.

Menyiapkan lingkungan dan menginstal ADK

Bagian ini menunjukkan cara menyiapkan lingkungan lokal.

  1. Buat dan aktifkan lingkungan virtual. Menggunakan lingkungan virtual adalah praktik yang direkomendasikan.

    # Create the environment
    python -m venv .venv
    
    # Activate the environment in each new terminal
    # For macOS or Linux:
    source .venv/bin/activate
    # For Windows CMD:
    .venv\Scripts\activate.bat
    # For Windows PowerShell:
    .venv\Scripts\Activate.ps1
    
  2. Instal ADK.

    pip install google-adk
    

Membuat struktur project

Buat direktori dan file yang diperlukan untuk agen Anda.

  1. Buat struktur folder berikut dengan file kosong:

    Diagram struktur project: folder adk-streaming berisi folder app, yang berisi file .env dan folder google_search_agent, yang berisi file __init__.py dan agent.py.

  2. Tambahkan kode berikut ke file app/google_search_agent/agent.py. File ini menentukan logika agen Anda. Anda harus menentukan root_agent. Dalam kode berikut, perbarui kolom model dengan nama model yang didukung.

    from google.adk.agents import Agent
    from google.adk.tools import google_search  # Import the tool
    
    root_agent = Agent(
      # A unique name for the agent.
      name="basic_search_agent",
      # The Large Language Model (LLM) that agent will use.
      # Please fill in the latest model id that supports live from
      # https://google.github.io/adk-docs/get-started/streaming/quickstart-streaming/#supported-models
      model="...",  # for example: model="gemini-live-2.5-flash-native-audio"
      # A short description of the agent's purpose.
      description="Agent to answer questions using Google Search.",
      # Instructions to set the agent's behavior.
      instruction="You are an expert researcher. You always stick to the facts.",
      # Add google_search tool to perform grounding with Google search.
      tools=[google_search]
    )
    
  3. Tambahkan kode berikut ke file app/google_search_agent/__init__.py:

    from . import agent
    

Menyiapkan platform

Untuk menjalankan agen, konfigurasikan agen agar menggunakan Google Cloud Gemini Enterprise Agent Platform.

  1. Buka file .env yang terletak di direktori app/.

  2. Tambahkan konten berikut ke file. Ganti PROJECT_ID dengan Google Cloud project ID Anda dan ganti LOCATION dengan Google Cloud location Anda.

    GOOGLE_CLOUD_PROJECT=PROJECT_ID
    GOOGLE_CLOUD_LOCATION=LOCATION
    GOOGLE_GENAI_USE_ENTERPRISE=True
    

Menjalankan agen dengan UI dev

Luncurkan antarmuka pengguna pengembangan untuk berinteraksi dengan agen Anda.

  1. Ubah direktori saat ini ke app.

    cd app
    
  2. Tetapkan variabel lingkungan SSL_CERT_FILE. Langkah ini diperlukan untuk pengujian suara dan video.

    macOS/Linux

    export SSL_CERT_FILE=$(python -m certifi)
        

    Windows

    $env:SSL_CERT_FILE = (python -m certifi)
        
  3. Jalankan UI dev.

    adk web
    
  4. Buka URL yang disediakan di terminal, yang biasanya http://localhost:8000 atau http://127.0.0.1:8000.

  5. Pilih google_search_agent.

Diagram berikut menunjukkan cara input pengguna mengalir ke agen, cara agen menggunakan alat Google Penelusuran, dan cara agen menampilkan respons:

Diagram yang menunjukkan input pengguna yang masuk ke agen, agen yang menggunakan alat Penelusuran Google untuk mendapatkan informasi, dan agen yang menampilkan respons kepada pengguna.

Berinteraksi dengan agen

Setelah meluncurkan UI dev, Anda dapat berinteraksi dengan agen menggunakan teks, suara, atau video.

Menggunakan input teks

Masukkan perintah berikut di UI untuk menguji respons berbasis teks agen. Agen menggunakan alat google_search untuk mendapatkan informasi terbaru guna menjawab pertanyaan ini.

  • What is the weather in New York?
  • What is the time in New York?
  • What is the weather in Paris?
  • What is the time in Paris?

Menggunakan input suara dan video

Untuk menggunakan input suara, muat ulang browser web dan klik tombol mikrofon. Ajukan pertanyaan, dan Anda akan mendengar jawabannya secara real time.

Untuk menggunakan input video, muat ulang browser web dan klik tombol kamera. Ajukan pertanyaan seperti "What do you see?", dan agen akan menjelaskan apa yang dilihatnya dari input video.

Menghentikan UI dev

Untuk menghentikan alat adk web, tekan Ctrl+C di terminal tempat alat tersebut berjalan.

Langkah berikutnya