A Hugging Face fornece modelos pré-treinados, scripts de ajuste e APIs de desenvolvimento que facilitam o processo de criação e descoberta de LLMs. O Model Garden pode oferecer modelos de embedding de texto, texto para imagem, geração de texto e texto de imagem para texto no HuggingFace.
Opções de implantação para modelos do Hugging Face
É possível implantar modelos do Hugging Face com suporte na Vertex AI ou no Google Kubernetes Engine (GKE). A opção de implantação escolhida pode depender do modelo que você está usando e do controle que você quer ter sobre as cargas de trabalho.
Implantar na Vertex AI
A Vertex AI oferece uma plataforma gerenciada para criar e escalonar projetos de machine learning sem experiência interna em MLOps. É possível usar a Vertex AI como o aplicativo downstream que veicula os modelos de Hugging Face. Recomendamos o uso da Vertex AI se você quiser recursos de MLOps completos, recursos de ML com valor agregado e uma experiência sem servidor para um desenvolvimento simplificado.
Para implantar um modelo Hugging Face com suporte na Vertex AI, acesse o Model Garden.
Acesse a seção Modelos de código aberto no Hugging Face e clique em Mostrar mais.
Encontre e selecione um modelo para implantar.
Opcional: selecione Vertex AI como Ambiente de implantação.
Opcional: especifique os detalhes da implantação.
Clique em Implantar.
Para começar, consulte os exemplos a seguir:
- Alguns modelos têm cards detalhados e as configurações de implantação são verificadas pelo Google, como google/gemma-3-27b-it, meta-llama/Llama-4-Scout-17B-16E-Instruct, Qwen/QwQ-32B, BAAI/bge-m3, intfloat/multilingual-e5-large-instruct, black-forest-labs/FLUX.1-dev e HuggingFaceFW/fineweb-edu-classifier.
- Alguns modelos têm as configurações de implantação verificadas pelo Google, mas não têm cards de modelo detalhados, como NousResearch/Genstruct-7B.
- Alguns modelos têm configurações de implantação geradas automaticamente.
- Alguns modelos têm configurações de implantação geradas automaticamente com base nos metadados, como alguns modelos de tendências mais recentes em geração de texto, embeddings de texto, geração de texto para imagem e texto de imagem para texto.
Implantar no GKE
O Google Kubernetes Engine (GKE) é a Google Cloud solução para o Kubernetes gerenciado que oferece escalonabilidade, segurança, resiliência e economia. Recomendamos essa opção se você tiver investimentos atuais no Kubernetes, se sua organização tiver experiência interna em MLOps ou se precisar de controle granular sobre cargas de trabalho complexas de IA/ML com segurança, pipeline de dados e recursos exclusivos de gerenciamento de projetos.
Para implantar um modelo Hugging Face com suporte no GKE, acesse o Model Garden.
Acesse a seção Modelos de código aberto no Hugging Face e clique em Mostrar mais.
Encontre e selecione um modelo para implantar.
Em Ambiente de implantação, selecione GKE.
Siga as instruções de implantação.
Para começar, consulte os exemplos a seguir:
- Alguns modelos têm cards de modelo detalhados e configurações de implantação verificadas, como google/gemma-3-27b-it, meta-llama/Llama-4-Scout-17B-16E-Instruct e Qwen/QwQ-32B.
- Alguns modelos têm configurações de implantação verificadas, mas nenhum cartão de modelo detalhado, como NousResearch/Genstruct-7B.
O que significa "Com tecnologia da Vertex AI"?
Adicionamos automaticamente os modelos mais recentes e populares do Hugging Face ao Model Garden. Esse processo inclui a geração automática de uma configuração de implantação para cada modelo.
Para resolver problemas relacionados a vulnerabilidades e códigos maliciosos, usamos o Hugging Face Malware Scanner (em inglês) para avaliar diariamente a segurança dos arquivos em cada repositório de modelos do Hugging Face. Se um repositório de modelos for sinalizado como contendo malware, vamos remover imediatamente o modelo da página da galeria do Hugging Face.
Embora um modelo designado como compatível com a Vertex AI signifique que ele foi testado e pode ser implantado na Vertex AI, não garantimos a ausência de vulnerabilidades ou códigos maliciosos. Recomendamos que você faça suas próprias verificações de segurança antes de implantar qualquer modelo no ambiente de produção.
Ajustar configurações de implantação para casos de uso específicos
A configuração de implantação padrão fornecida com a opção de implantação com um clique não pode atender a todos os requisitos devido à diversidade de casos de uso e às prioridades variadas com latência, capacidade de processamento, custo e precisão.
Portanto, você pode experimentar inicialmente a implantação com um clique para estabelecer uma linha de base e, em seguida, ajustar as configurações de implantação usando o notebook do Colab (vLLM, TGI, TEI, inferência do HF pytorch) ou o SDK do Python. Essa abordagem iterativa permite adaptar a implantação às suas necessidades precisas para conseguir a melhor performance possível para seu aplicativo específico.
O que fazer se o modelo que você quer não estiver listado no Model Garden
Se você estiver procurando um modelo específico que não está listado no Model Garden, ele não é compatível com a Vertex AI. As seções a seguir descrevem o raciocínio e o que você pode fazer.
Por que o modelo não está listado?
Confira a seguir os motivos para um modelo não estar no Model Garden:
- Não é um modelo em alta: geralmente priorizamos modelos que são muito populares e têm um grande interesse da comunidade.
- Ainda não é compatível: o modelo pode não funcionar com um contêiner de serviço compatível. Por exemplo, o contêiner vLLM
para modelos
text-generation
eimage-text-to-text
. - Tarefas de pipeline sem suporte: o modelo tem uma tarefa que ainda não é totalmente compatível. Oferecemos suporte às seguintes tarefas:
text-generation
,text2text-generation
,text-to-image
,feature-extraction
,sentence-similarity
, eimage-text-to-text
.
Quais são suas opções?
Você ainda pode trabalhar com modelos disponíveis no Model Garden:
- Implante por conta própria usando o notebook do Colab: temos os seguintes notebooks do Colab: (vLLM, TGI, TEI, inferência do HF pytorch), que oferecem a flexibilidade de implantar modelos com configurações personalizadas. Isso dá a você controle total sobre o processo.
- Envie uma solicitação de recurso: trabalhe com seu engenheiro de suporte e envie uma solicitação de recurso pelo Model Garden ou consulte o suporte da IA generativa da Vertex para mais ajuda.
- Fique de olho nas atualizações: adicionamos novos modelos ao Model Garden regularmente. O modelo que você procura pode ficar disponível no futuro. Verifique periodicamente!