Esta página foi traduzida pela API Cloud Translation.

Modelos suportados pelo Model Garden

Lista de modelos originais da Google

A tabela seguinte apresenta os modelos originais da Google disponíveis no Model Garden:

Nome do modelo	Modalidade	Descrição	Inícios rápidos
Gemini 2.5 Flash (pré-visualização)	Idioma, áudio e visão	Modelo de raciocínio concebido para equilibrar o preço e o desempenho.	Cartão de modelo
Gemini 2.5 Pro (pré-visualização)	Idioma, áudio e visão	Modelo de raciocínio com funcionalidades de próxima geração e capacidades melhoradas.	Cartão de modelo
Gemini 2.0 Flash	Idioma, áudio e visão	O modelo mais usado para todas as tarefas diárias e funcionalidades com desempenho melhorado e suporte para a API Live em tempo real.	Cartão de modelo
Gemini 2.0 Flash-Lite	Idioma, áudio e visão	O modelo Flash mais rápido e económico. Oferece uma qualidade superior à do 1.5 pelo mesmo preço e velocidade.	Cartão de modelo
Imagen para geração de imagens	Vision	Crie imagens com qualidade de estúdio em grande escala através de comandos de texto. Também pode usar este modelo para aumentar a resolução das imagens.	Cartão de modelo
Imagen para edição e personalização	Vision	Edite ou use a aprendizagem com poucos exemplos para criar imagens de qualidade profissional em grande escala com imagens base e comandos de texto, ou com imagens de referência e comandos de texto.	Cartão de modelo
Segmentação de imagens do Vertex (pré-visualização)	Vision	Use comandos de texto ou desenhe rabiscos para segmentar uma imagem. A segmentação de imagens permite-lhe, por exemplo, detetar objetos, remover o fundo de uma imagem ou segmentar o primeiro plano de uma imagem.	Cartão de modelo
Imagen para legendagem e VQA	Idioma	Gera uma descrição relevante para uma determinada imagem.	Cartão de modelo
Incorporações para texto	Idioma	Gera vetores com base no texto, que podem ser usados para tarefas posteriores, como pesquisa semântica, classificação de texto e análise de sentimentos.	Cartão de modelo
Incorporações para multimodal	Vision	Gera vetores com base em imagens, que podem ser usados para tarefas posteriores, como classificação de imagens e pesquisa de imagens.	Cartão de modelo
Chirp 2	Voz	O Chirp 2 é um modelo de reconhecimento de voz automático (ASR) multilingue desenvolvido pela Google que transcreve a voz (voz para texto). Em comparação com a primeira geração de modelos Chirp, o Chirp 2 oferece uma precisão e uma velocidade melhoradas, e disponibiliza novas capacidades, como datas/horas ao nível das palavras, adaptação do modelo e tradução de voz.	Cartão de modelo

Lista de modelos geridos disponíveis no Model Garden

Os modelos são oferecidos como APIs geridas no Vertex AI Model Garden (também conhecido como modelo como serviço).

Modelos de parceiros disponíveis no Model Garden

A tabela seguinte lista os modelos de parceiros disponíveis no Model Garden:

Nome do modelo	Modalidade	Descrição	Início rápido
Claude Opus 4.5	Idioma, visão	A próxima geração do modelo mais inteligente da Anthropic, o Claude Opus 4.5, é um líder da indústria em programação, agentes, utilização de computadores e fluxos de trabalho empresariais.	Cartão de modelo
Claude Sonnet 4.5	Idioma, visão	O modelo de tamanho médio da Anthropic para potenciar agentes do mundo real, com capacidades em programação, utilização de computadores, cibersegurança e trabalho com ficheiros do Office, como folhas de cálculo.	Cartão de modelo
Claude Opus 4.1	Idioma, visão	Um líder da indústria na programação. Oferece um desempenho sustentado em tarefas de longa duração que requerem um esforço concentrado e milhares de passos, expandindo significativamente o que os agentes de IA podem resolver. Ideal para potenciar produtos de agentes de vanguarda e funcionalidades.	Cartão de modelo
Claude Haiku 4.5	Idioma, visão	O Claude Haiku 4.5 oferece um desempenho quase de ponta para uma vasta gama de exemplos de utilização e destaca-se como um dos melhores modelos de programação do mundo, com a velocidade e o custo certos para potenciar produtos gratuitos e experiências do utilizador de grande volume.	Cartão de modelo
Claude Opus 4	Idioma, visão	O Claude Opus 4 oferece um desempenho sustentado em tarefas de longa duração que requerem um esforço focado e milhares de passos, expandindo significativamente o que os agentes de IA podem resolver.	Cartão de modelo
Claude Sonnet 4	Idioma, visão	Modelo de tamanho médio da Anthropic com inteligência superior para utilizações de grande volume, como programação, investigação detalhada e agentes.	Cartão de modelo
Claude 3.5 Sonnet v2 da Anthropic	Idioma, visão	O Claude 3.5 Sonnet atualizado é um modelo de última geração para tarefas de engenharia de software do mundo real e capacidades de agência. O Claude 3.5 Sonnet oferece estes avanços ao mesmo preço e velocidade que o seu antecessor.	Cartão de modelo
Claude 3.5 Haiku da Anthropic	Idioma, visão	O Claude 3.5 Haiku, a próxima geração do modelo mais rápido e económico da Anthropic, é ideal para exemplos de utilização em que a velocidade e a acessibilidade são importantes.	Cartão de modelo
Claude 3 Haiku da Anthropic	Idioma	O modelo de visão e texto mais rápido da Anthropic para respostas quase instantâneas a consultas básicas, destinado a experiências de IA perfeitas que imitam as interações humanas.	Cartão de modelo
Claude 3.5 Sonnet da Anthropic	Idioma	O Claude 3.5 Sonnet supera o Claude 3 Opus da Anthropic numa vasta gama de avaliações da Anthropic com a velocidade e o custo do modelo de nível intermédio da Anthropic, o Claude 3 Sonnet.	Cartão de modelo
Jamba 1.5 Large (pré-visualização)	Idioma	O Jamba 1.5 Large da AI21 Labs foi concebido para oferecer respostas de qualidade superior, elevado débito e preços competitivos em comparação com outros modelos da sua classe de tamanho.	Cartão de modelo
Jamba 1.5 Mini (pré-visualização)	Idioma	O Jamba 1.5 Mini da AI21 Labs está bem equilibrado em termos de qualidade, taxa de transferência e baixo custo.	Cartão de modelo
Mistral Medium 3	Idioma	O Mistral Medium 3 é um modelo versátil concebido para uma vasta gama de tarefas, incluindo programação, raciocínio matemático, compreensão de documentos longos, resumo e diálogo.	Cartão de modelo
Mistral OCR (25.05)	Idioma, visão	O Mistral OCR (25.05) é uma API de reconhecimento ótico de carateres para a interpretação de documentos. O modelo compreende cada elemento dos documentos, como conteúdo multimédia, texto, tabelas e equações.	Cartão de modelo
Mistral Small 3.1 (25/03)	Idioma	O Mistral Small 3.1 (25.03) é a versão mais recente do modelo Small da Mistral, com capacidades multimodais e extensão do contexto.	Cartão de modelo
Mistral Large (24.11)	Idioma	O Mistral Large (24.11) é a versão seguinte do modelo Mistral Large (24.07), agora com capacidades de raciocínio e de chamadas de funções melhoradas.	Cartão de modelo
Codestral 2	Idioma, código	O Codestral 2 é o modelo especializado de geração de código da Mistral criado especificamente para a conclusão de preenchimento do meio (FIM) de alta precisão que ajuda os programadores a escrever e interagir com o código através de um ponto final da API de instruções e conclusões partilhado.	Cartão de modelo
Codestral (25.01)	Código	Um modelo de vanguarda concebido para a geração de código, incluindo o preenchimento de lacunas e a conclusão de código.	Cartão de modelo

Modelos abertos disponíveis no Model Garden

A tabela seguinte lista os modelos abertos disponíveis no Model Garden:

Nome do modelo	Modalidade	Descrição	Início rápido
DeepSeek-OCR	Idioma, visão	Um modelo de reconhecimento ótico de carateres (OCR) abrangente que analisa e compreende documentos complexos. É excelente em tarefas de OCR desafiantes.	Cartão de modelo
DeepSeek R1 (0528)	Idioma	A versão mais recente do modelo DeepSeek R1 da DeepSeek.	Cartão de modelo
DeepSeek-V3.1	Idioma	O modelo híbrido da DeepSeek que suporta o modo de reflexão e o modo sem reflexão.	Cartão de modelo
gpt-oss 120B	Idioma	Um modelo de 120 mil milhões de parâmetros que oferece um elevado desempenho em tarefas de raciocínio.	Cartão de modelo
gpt-oss 20B	Idioma	Um modelo de 20 mil milhões de parâmetros otimizado para eficiência e implementação em hardware de consumo e periférico.	Cartão de modelo
Kimi K2 Thinking	Idioma	Um modelo de agente de reflexão de código aberto que raciocina passo a passo e usa ferramentas para resolver problemas complexos.	Cartão de modelo
Llama 3.1	Idioma	Uma coleção de MDIs/CEs multilingues otimizados para exemplos de utilização de diálogo multilingue e que superam muitos dos modelos de chat de código aberto e fechados disponíveis em referências comuns da indústria. O Llama 3.1 405B está disponível de forma geral (DG). O Llama 3.1 8B e o Llama 3.1 70B estão em pré-visualização.	Cartão de modelo
Llama 3.2 (pré-visualização)	Idioma, visão	Um modelo multimodal de 90 mil milhões de parâmetros de tamanho médio que pode suportar o raciocínio de imagens, como a análise de gráficos, bem como a geração de legendas de imagens.	Cartão de modelo
Lama 3.3	Idioma	O Llama 3.3 é um modelo de 70 mil milhões de parâmetros otimizado para instruções apenas de texto que oferece um desempenho melhorado em relação ao Llama 3.1 de 70 mil milhões de parâmetros e ao Llama 3.2 de 90 mil milhões de parâmetros quando usado para aplicações apenas de texto. Além disso, para algumas aplicações, o Llama 3.3 70B aproxima-se do desempenho do Llama 3.1 405B.	Cartão de modelo
Llama 4 Maverick 17B-128E	Idioma, visão	O modelo Llama 4 maior e mais capaz que tem capacidades de programação, raciocínio e imagem. O Llama 4 Maverick 17B-128E é um modelo multimodal que usa a arquitetura de mistura de especialistas (MoE) e a fusão antecipada.	Cartão de modelo
Llama 4 Scout 17B-16E	Idioma, visão	O Llama 4 Scout 17B-16E oferece resultados de vanguarda para a sua classe de tamanho, superando as gerações anteriores do Llama e outros modelos abertos e proprietários em vários testes de referência. O Llama 4 Scout 17B-16E é um modelo multimodal que usa a arquitetura de mistura de especialistas (MoE) e a fusão antecipada.	Cartão de modelo
MiniMax M2	Idioma, código	Concebido para tarefas relacionadas com código e agentes, com fortes capacidades de planeamento e execução de tarefas complexas de chamadas de ferramentas.	Cartão de modelo
Qwen3 235B	Idioma	Um modelo de peso aberto com uma capacidade de "pensamento híbrido" para alternar entre o raciocínio metódico e a conversa rápida.	Cartão de modelo
Qwen3 Coder	Idioma, código	Um modelo de peso aberto desenvolvido para tarefas avançadas de programação de software.	Cartão de modelo
Qwen3-Next-80B Instruct	Idioma, código	Um modelo da família de modelos Qwen3-Next, especializado em seguir comandos específicos.	Cartão de modelo
Qwen3-Next-80B Thinking	Idioma, código	Um modelo da família de modelos Qwen3-Next, especializado na resolução de problemas complexos e no raciocínio profundo.	Cartão de modelo

Lista de modelos com receitas de ajuste ou publicação de código aberto no Model Garden

A tabela seguinte indica os modelos de OSS que suportam a otimização de código aberto ou receitas de publicação no Model Garden:

Nome do modelo	Modalidade	Descrição	Início rápido
Llama 4	Idioma, visão	Uma família de modelos multimodais que usam a arquitetura de mistura de especialistas (MoE) e a fusão antecipada.	Colab Ficha do modelo
Lama 3.3	Idioma	O grande modelo de linguagem (GML) multilingue Meta Llama 3.3 é um modelo generativo pré-preparado e ajustado por instruções em 70B (texto de entrada/texto de saída).	Cartão de modelo
Flux	Vision	Um modelo de transformador de fluxo retificado de 12 mil milhões de parâmetros que gera imagens de alta qualidade a partir de descrições de texto.	Cartão de modelo
Prompt Guard	Idioma	Proteja as entradas de MDIs/CEs contra técnicas de jailbreaking e injeções indiretas.	Cartão de modelo
Llama 3.2	Idioma	Uma coleção de modelos de linguagem (conteúdo extenso) multilingues que são modelos generativos pré-preparados e ajustados por instruções nos tamanhos de 1 mil milhões e 3 mil milhões.	Cartão de modelo
Llama 3.2-Vision	Idioma, visão	Uma coleção de modelos de linguagem (conteúdo extenso) multimodais que são pré-preparados e modelos generativos de raciocínio de imagens ajustados por instruções nos tamanhos de 11 mil milhões e 90 mil milhões. Estes modelos estão otimizados para reconhecimento visual, raciocínio de imagens, legendagem e resposta a perguntas gerais sobre uma imagem.	Cartão de modelo
Llama Guard 3	Idioma	Um modelo pré-treinado Llama-3.1-8B que foi otimizado para a classificação de segurança do conteúdo.	Cartão de modelo
Qwen2	Idioma	Implemente o Qwen2, uma série de modelos de linguagem (conteúdo extenso) de base.	Colab Ficha do modelo
Phi-3	Idioma	Implemente o Phi-3, uma série de modelos de linguagem (conteúdo extenso) de base.	Colab Ficha do modelo
E5	Idioma	Implemente o E5, uma série de modelos de incorporação de texto.	Colab Ficha do modelo
ID instantâneo	Idioma, visão	Implementar o Instant ID, um modelo de geração de texto para imagem que preserva a identidade.	Colab Ficha do modelo
Llama 3	Idioma	Explore e crie com os modelos Llama 3 da Meta (8B, 70B e 405B) no Vertex AI.	Cartão de modelo
Gemma 3n	Idioma, visão e áudio	Modelos de peso aberto (E2B e E4B) criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google.	Cartão de modelo
Gemma 3	Idioma, visão	Modelos de peso aberto (1B apenas texto, 4B, 12B e 27B) criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google.	Cartão de modelo
Gemma 2	Idioma	Modelos de peso aberto (9 mil milhões e 27 mil milhões de parâmetros) criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google.	Cartão de modelo
Gemma	Idioma	Modelos de peso aberto (2B e 7B) criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google.	Cartão de modelo
CodeGemma	Idioma	Modelos de peso aberto (2B e 7B) concebidos para a geração e a conclusão de código, criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google.	Cartão de modelo
PaliGemma 2	Idioma, visão	Modelos de peso aberto de 3B, 10B e 28B concebidos para tarefas de legendagem de imagens e tarefas visuais de perguntas e respostas criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google.	Cartão de modelo
PaliGemma	Idioma, visão	Modelo de peso aberto de 3 mil milhões de parâmetros concebido para tarefas de legendagem de imagens e tarefas visuais de perguntas e respostas, criado a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google.	Cartão de modelo
ShieldGemma 2	Idioma, visão	Modelo 4B de peso aberto treinado no ponto de verificação de TI de 4B do Gemma 3 para classificação de segurança de imagens em categorias importantes que recebe imagens e produz etiquetas de segurança por política.	Cartão de modelo
TxGemma	Idioma	Modelos de peso aberto (2B, 9B e 27B) concebidos para o desenvolvimento terapêutico e criados com base no Gemma 2.	Cartão de modelo
MedGemma	Idioma, visão	Modelos de peso aberto (4B e 27B) concebidos para o desempenho na compreensão de texto e imagens médicas.	Cartão de modelo
MedSigLIP	Idioma, visão	Modelo de peso aberto (codificador de visão com 400 milhões de parâmetros e codificador de texto com 400 milhões de parâmetros) concebido para codificar imagens médicas e texto num espaço de incorporação comum.	Cartão de modelo
T5Gemma	Idioma	Modelos de codificador-descodificador de ponderação aberta (2B-2B, 9B-9B, 9B-2B, S-S, B-B, L-L, M-L e XL-XL) criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google.	Cartão de modelo
Vicuna v1.5	Idioma	Implemente modelos da série Vicuna v1.5, que são modelos de base ajustados a partir do LLama2 para geração de texto.	Cartão de modelo
NLLB	Idioma	Implemente modelos da série NLLB para tradução em vários idiomas.	Cartão do modelo Colab
Mistral-7B	Idioma	Implemente o Mistral-7B, um modelo fundamental para a geração de texto.	Cartão de modelo
BioGPT	Idioma	Implemente o BioGPT, um modelo generativo de texto para o domínio biomédico.	Ficha do modelo Colab
BiomedCLIP	Idioma, visão	Implemente o BiomedCLIP, um modelo fundamental multimodal para o domínio biomédico.	Ficha do modelo Colab
ImageBind	Idioma, visão, áudio	Implemente o ImageBind, um modelo fundamental para a incorporação multimodal.	Ficha do modelo Colab
DITO	Idioma, visão	Ajuste e implemente o DITO, um modelo de base multimodal para tarefas de deteção de objetos de vocabulário aberto.	Cartão do modelo Colab
OWL-ViT v2	Idioma, visão	Implemente o OWL-ViT v2, um modelo de base multimodal para tarefas de deteção de objetos de vocabulário aberto.	Cartão do modelo Colab
FaceStylizer (Mediapipe)	Vision	Um pipeline generativo para transformar imagens de rostos humanos num novo estilo.	Ficha do modelo Colab
Llama 2	Idioma	Ajuste e implemente os modelos de base Llama 2 da Meta (7B, 13B e 70B) na Vertex AI.	Cartão de modelo
Code Llama	Idioma	Implemente os modelos de fundação Code Llama da Meta (7B, 13B e 34B) na Vertex AI.	Cartão de modelo
Falcon-instruct	Idioma	Ajuste e implemente modelos Falcon-instruct (7B e 40B) através da PEFT.	Colab Ficha do modelo
OpenLLaMA	Idioma	Ajuste e implemente modelos OpenLLaMA (3B, 7B e 13B) através da PEFT.	Colab Ficha do modelo
T5-FLAN	Idioma	Ajuste e implemente o T5-FLAN (base, small e large).	Cartão de modelo (pipeline de ajuste preciso incluída)
BERT	Idioma	Ajuste e implemente o BERT usando a PEFT.	Colab Cartão de modelo
BART-large-cnn	Idioma	Implemente o BART, um modelo de transformador codificador-codificador (seq2seq) com um codificador bidirecional (semelhante ao BERT) e um descodificador autorregressivo (semelhante ao GPT).	Colab Cartão de modelo
RoBERTa-large	Idioma	Ajuste e implemente o RoBERTa-large usando a PEFT.	Colab Cartão de modelo
XLM-RoBERTa-large	Idioma	Ajuste e implemente o XLM-RoBERTa-large (uma versão multilingue do RoBERTa) usando a PEFT.	Colab Cartão de modelo
Stable Diffusion XL v1.0	Idioma, visão	Implemente o Stable Diffusion XL v1.0, que suporta a geração de texto para imagem.	Colab Ficha do modelo
Stable Diffusion XL Lightning	Idioma, visão	Implemente o Stable Diffusion XL Lightning, um modelo de geração de texto para imagem.	Colab Ficha do modelo
Stable Diffusion v2.1	Idioma, visão	Ajuste e implemente o Stable Diffusion v2.1 (suporta a geração de texto em imagem) através do Dreambooth.	Colab Cartão de modelo
Stable Diffusion 4x upscaler	Idioma, visão	Implemente o otimizador 4x do Stable Diffusion, que suporta a super-resolução de imagens condicionadas por texto.	Colab Cartão de modelo
InstructPix2Pix	Idioma, visão	Implemente o InstructPix2Pix, que suporta a edição de imagens através de um comando de texto.	Colab Ficha do modelo
Pintura com o Stable Diffusion	Idioma, visão	Ajuste e implemente o Stable Diffusion Inpainting, que suporta o preenchimento de uma imagem com máscara através de um comando de texto.	Colab Ficha do modelo
SAM	Idioma, visão	Implemente o Segment Anything, que suporta a segmentação de imagens sem exemplos.	Colab Ficha do modelo
Pic2Word Composed Image Retrieval	Idioma, visão	Implemente o Pic2Word, que suporta a obtenção de imagens compostas multimoda.	Colab Ficha do modelo
BLIP2	Idioma, visão	Implementar o BLIP2, que suporta legendagem de imagens e respostas visuais a perguntas.	Colab Cartão de modelo
OpenCLIP	Idioma, visão	Ajuste e implemente o Open-CLIP, que suporta a classificação zero-shot.	Colab Ficha do modelo
F-VLM	Idioma, visão	Implemente o F-VLM, que suporta a deteção de objetos de imagem de vocabulário aberto.	Colab Ficha do modelo
tfhub/EfficientNetV2	Vision	Ajuste e implemente a implementação do TensorFlow Vision do modelo de classificação de imagens EfficientNetV2.	Colab Cartão de modelo
EfficientNetV2 (TIMM)	Vision	Ajuste e implemente a implementação do PyTorch do modelo de classificação de imagens EfficientNetV2.	Colab Ficha do modelo
Proprietário/EfficientNetV2	Vision	Ajuste e implemente o ponto de verificação proprietário da Google do modelo de classificação de imagens EfficientNetV2.	Colab Ficha do modelo
EfficientNetLite (MediaPipe)	Vision	Ajuste o modelo de classificação de imagens EfficientNetLite através do MediaPipe Model Maker.	Colab Ficha do modelo
tfvision/vit	Vision	Ajuste e implemente a implementação do TensorFlow Vision do modelo de classificação de imagens ViT.	Colab Cartão de modelo
ViT (TIMM)	Vision	Ajuste e implemente a implementação do PyTorch do modelo de classificação de imagens ViT.	Colab Cartão de modelo
Proprietário/ViT	Vision	Ajuste e implemente o ponto de verificação proprietário da Google do modelo de classificação de imagens ViT.	Colab Cartão de modelo
Proprietário/MaxViT	Vision	Ajuste e implemente o ponto de verificação proprietário da Google do modelo de classificação de imagens híbrido MaxViT (CNN + ViT).	Colab Cartão de modelo
ViT (JAX)	Vision	Ajuste e implemente a implementação JAX do modelo de classificação de imagens ViT.	Colab Cartão de modelo
tfvision/SpineNet	Vision	Ajuste e implemente a implementação do TensorFlow Vision do modelo de deteção de objetos SpineNet.	Colab Cartão de modelo
Proprietário/Spinenet	Vision	Ajuste e implemente o ponto de verificação proprietário da Google do modelo de deteção de objetos SpineNet.	Colab Ficha do modelo
tfvision/YOLO	Vision	Ajuste e implemente a implementação do TensorFlow Vision do modelo de deteção de objetos de uma fase YOLO.	Colab Cartão de modelo
Proprietário/YOLO	Vision	Ajuste e implemente o ponto de verificação proprietário da Google do modelo de deteção de objetos de uma fase YOLO.	Colab Cartão de modelo
YOLOv8 (Keras)	Vision	Ajuste e implemente a implementação do Keras do modelo YOLOv8 para deteção de objetos.	Colab Ficha do modelo
tfvision/YOLOv7	Vision	Ajuste e implemente o modelo YOLOv7 para a deteção de objetos.	Colab Ficha do modelo
Acompanhamento de objetos de vídeo ByteTrack	Vision	Execute a previsão em lote para o acompanhamento de objetos de vídeo através do rastreador ByteTrack.	Colab Ficha do modelo
ResNeSt (TIMM)	Vision	Ajuste e implemente a implementação do PyTorch do modelo de classificação de imagens ResNeSt.	Colab Cartão de modelo
ConvNeXt (TIMM)	Vision	Ajuste e implemente o ConvNeXt, um modelo puramente convolucional para a classificação de imagens inspirado no design dos Vision Transformers.	Colab Cartão de modelo
CspNet (TIMM)	Vision	Ajuste e implemente o modelo de classificação de imagens CSPNet (Cross Stage Partial Network).	Colab Cartão de modelo
Inception (TIMM)	Vision	Ajuste e implemente o modelo de classificação de imagens Inception.	Colab Cartão de modelo
DeepLabv3+ (com ponto de verificação)	Vision	Ajuste e implemente o modelo DeepLab-v3 Plus para a segmentação semântica de imagens.	Colab Cartão de modelo
Faster R-CNN (Detectron2)	Vision	Ajuste e implemente a implementação do Detectron2 do modelo Faster R-CNN para a deteção de objetos em imagens.	Colab Cartão de modelo
RetinaNet (Detectron2)	Vision	Ajuste e implemente a implementação do Detectron2 do modelo RetinaNet para a deteção de objetos em imagens.	Colab Cartão de modelo
Mask R-CNN (Detectron2)	Vision	Ajuste e implemente a implementação do Detectron2 do modelo Mask R-CNN para a deteção e segmentação de objetos de imagem.	Colab Cartão de modelo
ControlNet	Vision	Ajuste e implemente o modelo de geração de texto para imagem ControlNet.	Colab Cartão de modelo
MobileNet (TIMM)	Vision	Ajuste e implemente a implementação do PyTorch do modelo de classificação de imagens MobileNet.	Colab Cartão de modelo
Classificação de imagens MobileNetV2 (MediaPipe)	Vision	Ajuste o modelo de classificação de imagens MobileNetV2 com o MediaPipe Model Maker.	Colab Cartão de modelo
Deteção de objetos MobileNetV2 (MediaPipe)	Vision	Ajuste o modelo de deteção de objetos MobileNetV2 através do MediaPipe Model Maker.	Colab Cartão de modelo
MobileNet-MultiHW-AVG (MediaPipe)	Vision	Ajuste o modelo de deteção de objetos MobileNet-MultiHW-AVG usando o MediaPipe Model Maker.	Colab Cartão de modelo
DeiT	Vision	Ajuste e implemente o modelo DeiT (Data-efficient Image Transformers) para a classificação de imagens.	Colab Cartão de modelo
BEiT	Vision	Ajuste e implemente o modelo BEiT (Bidirectional Encoder representation from Image Transformers) para a classificação de imagens.	Colab Cartão de modelo
Reconhecimento de gestos com a mão (MediaPipe)	Vision	Ajuste e implemente no dispositivo os modelos de reconhecimento de gestos com as mãos através do MediaPipe.	Colab Ficha do modelo
Classificador de incorporação de palavras médio (MediaPipe)	Vision	Ajuste e implemente no dispositivo os modelos de classificador de incorporação de palavras média através do MediaPipe.	Colab Ficha do modelo
Classificador MobileBERT (MediaPipe)	Vision	Ajuste e implemente no dispositivo os modelos do classificador MobileBERT através do MediaPipe.	Colab Ficha do modelo
Classificação de clipes de vídeo com a MoViNet	Vídeo	Ajuste e implemente modelos de classificação de clipes de vídeo MoViNet.	Colab Ficha do modelo
Reconhecimento de ações de vídeo MoViNet	Vídeo	Ajuste e implemente modelos MoViNet para a inferência de reconhecimento de ações.	Colab Ficha do modelo
Stable Diffusion XL LCM	Vision	Implemente este modelo que usa o modelo de consistência latente (LCM) para melhorar a geração de texto em imagens nos modelos de difusão latente, permitindo a criação de imagens mais rápida e de alta qualidade com menos passos.	Colab Ficha do modelo
LLaVA 1.5	Visão, idioma	Implemente modelos LLaVA 1.5.	Colab Ficha do modelo
Pytorch-ZipNeRF	Visão, vídeo	Forme o modelo Pytorch-ZipNeRF, que é uma implementação de ponta do algoritmo ZipNeRF na framework Pytorch, concebida para uma reconstrução 3D eficiente e precisa a partir de imagens 2D.	Colab Ficha do modelo
Mixtral	Idioma	Implemente o modelo Mixtral, que é um modelo de linguagem (conteúdo extenso) (MDL/CE) de mistura de especialistas (MoE) desenvolvido pela Mistral AI.	Cartão de modelo
Llama 2 (quantizado)	Idioma	Ajuste e implemente uma versão quantizada dos modelos Llama 2 da Meta.	Colab Ficha do modelo
LaMa (Large Mask Inpainting)	Vision	Implemente o LaMa, que usa convoluções rápidas de Fourier (FFCs), uma perda percetual de campo recetivo elevado e grandes máscaras de preparação, o que permite o preenchimento de imagens robusto em termos de resolução.	Colab Ficha do modelo
AutoGluon	Tabular	Com o AutoGluon, pode preparar e implementar modelos de aprendizagem automática e aprendizagem profunda de alta precisão para dados tabulares.	Colab Ficha do modelo
MaMMUT	Idioma, visão	Uma arquitetura de codificador de visão e descodificador de texto para tarefas multimodais, como responder a perguntas visuais, obter imagens a partir de texto, obter texto a partir de imagens e gerar incorporações multimodais.	Colab Ficha do modelo
Whisper Large	Voz	Implemente o Whisper Large, o modelo de vanguarda da OpenAI para o reconhecimento de voz automático (ASR).	Colab Ficha do modelo