Os modelos DeepSeek na Vertex AI oferecem modelos totalmente gerenciados e sem servidor como APIs. Para usar um modelo DeepSeek na Vertex AI, envie uma solicitação diretamente para o endpoint de API Vertex AI. Como os modelos DeepSeek usam uma API gerenciada, não é necessário provisionar nem gerenciar a infraestrutura.
É possível transmitir as respostas para reduzir a percepção de latência do usuário final. Uma resposta transmitida usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.
Modelos do DeepSeek disponíveis
Os modelos a seguir estão disponíveis na DeepSeek para uso na Vertex AI. Para acessar um modelo DeepSeek, acesse o card de modelo do Model Garden.
DeepSeek-V3.1
O DeepSeek-V3.1 é um modelo híbrido que oferece suporte aos modos de raciocínio e sem raciocínio. Em comparação com a versão anterior, esse upgrade traz melhorias nos modos de pensamento híbrido, na chamada de função e na eficiência do pensamento.
Acessar o card do modelo DeepSeek-V3.1
DeepSeek R1 (0528)
O DeepSeek R1 (0528) é a versão mais recente do modelo DeepSeek R1. Em comparação com o DeepSeek-R1, ele tem uma profundidade de raciocínio e recursos de inferência significativamente melhores. O DeepSeek R1 (0528) se destaca em uma ampla variedade de tarefas, como escrita criativa, respostas a perguntas gerais, edição e resumo.
Considerações
- Para ter segurança pronta para produção, integre o DeepSeek R1 (0528) ao Model Armor, que verifica comandos e respostas de LLMs em busca de vários riscos de segurança.
Acessar o card de modelo do DeepSeek R1 (0528)
Usar modelos do DeepSeek
É possível usar comandos curl para enviar solicitações ao endpoint da Vertex AI usando os seguintes nomes de modelos:
- Para o DeepSeek-V3.1, use
deepseek-v3.1-maas
- Para o DeepSeek R1 (0528), use
deepseek-r1-0528-maas
Para saber como fazer chamadas de streaming e não streaming para modelos do DeepSeek, consulte Chamar APIs de modelos abertos.
Disponibilidade e cotas da região do modelo DeepSeek
Para modelos DeepSeek, uma cota se aplica a cada região em que o modelo está disponível. A cota é especificada em consultas por minuto (QPM, na sigla em inglês).
Modelo | Região | Cotas | Tamanho do contexto |
---|---|---|---|
DeepSeek-V3.1 | |||
us-west2 |
|
163.840 | |
DeepSeek R1 (0528) | |||
us-central1 |
|
163.840 |
Para aumentar alguma das suas cotas de IA generativa na Vertex AI, use o console Google Cloud para solicitar um aumento de cota. Para saber mais sobre cotas, consulte a Visão geral das cotas do Cloud.
A seguir
- Saiba como chamar APIs de modelos abertos.