Começar a usar a API Gemini Live com WebSockets

Neste tutorial, mostramos como se conectar à API Gemini Live usando WebSockets. Neste tutorial, você vai criar um aplicativo multimodal em tempo real com um front-end JavaScript simples e um servidor Python que processa a autenticação e o proxy.

Antes de começar

Conclua as etapas a seguir para configurar seu ambiente.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Install the Google Cloud CLI.

Ao usar um provedor de identidade (IdP) externo, primeiro faça login na gcloud CLI com sua identidade federada.

Para inicializar a gcloud CLI, execute o seguinte comando:

gcloud init

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Install the Google Cloud CLI.

Ao usar um provedor de identidade (IdP) externo, primeiro faça login na gcloud CLI com sua identidade federada.

Para inicializar a gcloud CLI, execute o seguinte comando:

gcloud init

Instale o Git.
Instale o Python 3.

Clonar o app de demonstração

Clone o repositório do app de demonstração e navegue até esse diretório:

git clone https://github.com/GoogleCloudPlatform/generative-ai.git &&
cd generative-ai/gemini/multimodal-live-api/native-audio-websocket-demo-apps/plain-js-demo-app

Estrutura do projeto

O aplicativo inclui os seguintes arquivos:

/
├── server.py            # WebSocket proxy + HTTP server
├── requirements.txt     # Python dependencies
└── frontend/
    ├── index.html       # UI
    ├── geminilive.js    # Gemini API client
    ├── mediaUtils.js    # Audio/video streaming
    ├── tools.js         # Custom tool definitions
    └── script.js        # App logic

Executar o servidor de back-end

O back-end (server.py) processa a autenticação e atua como um proxy WebSocket entre o cliente e a API Gemini Live.

Para executar o servidor de back-end, execute os seguintes comandos:

Instale as dependências:
```
pip3 install -r requirements.txt
```
Autenticar com Google Cloud:
```
gcloud auth application-default login
```
Inicie o servidor:
```
python3 server.py
```

Abra a UI de front-end e conecte-se ao Gemini

O front-end gerencia a captura e a reprodução de áudio e vídeo. O arquivo geminilive.js processa a conexão WebSocket com o back-end.

const client = new GeminiLiveAPI(proxyUrl, projectId, model);
client.addFunction(toolInstance); // Add custom tools
client.connect(accessToken); // Connect (token optional with proxy)

Para abrir a UI do usuário de front-end e se conectar ao Gemini, faça o seguinte:

Abra o navegador e acesse http://localhost:8000.
No campo ID do projeto, insira o ID do seu projeto Google Cloud .
Clique em Conectar.

Interaja com o Gemini

Tente fazer o seguinte:

Entrada de texto: você pode escrever uma mensagem de texto para o Gemini digitando sua mensagem no campo de mensagem e clicando em Enviar. O Gemini responde à mensagem usando áudio.
Entrada de texto por voz: para falar com o Gemini, clique em Iniciar microfone. O Gemini responde ao comando usando áudio.
Entrada de vídeo: para permitir que o Gemini veja pela sua câmera, clique em Iniciar câmera. Você pode conversar com o Gemini sobre o que ele vê pela sua câmera.

A seguir

Saiba como configurar idioma e voz.
Saiba como configurar os recursos do Gemini.
Saiba mais sobre as práticas recomendadas da API Gemini Live.

Começar a usar a API Gemini Live com WebSockets Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Antes de começar

Clonar o app de demonstração

Estrutura do projeto

Executar o servidor de back-end

Abra a UI de front-end e conecte-se ao Gemini

Interaja com o Gemini

A seguir

Começar a usar a API Gemini Live com WebSockets