Lista de modelos originais da Google
A tabela seguinte apresenta os modelos originais da Google disponíveis no Model Garden:
| Nome do modelo | Modalidade | Descrição | Inícios rápidos |
|---|---|---|---|
| Gemini 2.5 Flash (pré-visualização) | Idioma, áudio e visão | Modelo de raciocínio concebido para equilibrar o preço e o desempenho. | Cartão de modelo |
| Gemini 2.5 Pro (pré-visualização) | Idioma, áudio e visão | Modelo de raciocínio com funcionalidades de próxima geração e capacidades melhoradas. | Cartão de modelo |
| Gemini 2.0 Flash | Idioma, áudio e visão | O modelo mais usado para todas as tarefas diárias e funcionalidades com desempenho melhorado e suporte para a API Live em tempo real. | Cartão de modelo |
| Gemini 2.0 Flash-Lite | Idioma, áudio e visão | O modelo Flash mais rápido e económico. Oferece uma qualidade superior à do 1.5 pelo mesmo preço e velocidade. | Cartão de modelo |
| Imagen para geração de imagens | Vision | Crie imagens com qualidade de estúdio em grande escala através de comandos de texto. Também pode usar este modelo para aumentar a resolução das imagens. | Cartão de modelo |
| Imagen para edição e personalização | Vision | Edite ou use a aprendizagem com poucos exemplos para criar imagens de qualidade profissional em grande escala com imagens base e comandos de texto, ou com imagens de referência e comandos de texto. | Cartão de modelo |
| Segmentação de imagens do Vertex (pré-visualização) | Vision | Use comandos de texto ou desenhe rabiscos para segmentar uma imagem. A segmentação de imagens permite-lhe, por exemplo, detetar objetos, remover o fundo de uma imagem ou segmentar o primeiro plano de uma imagem. | Cartão de modelo |
| Imagen para legendagem e VQA | Idioma | Gera uma descrição relevante para uma determinada imagem. | Cartão de modelo |
| Incorporações para texto | Idioma | Gera vetores com base no texto, que podem ser usados para tarefas posteriores, como pesquisa semântica, classificação de texto e análise de sentimentos. | Cartão de modelo |
| Incorporações para multimodal | Vision | Gera vetores com base em imagens, que podem ser usados para tarefas posteriores, como classificação de imagens e pesquisa de imagens. | Cartão de modelo |
| Chirp 2 | Voz | O Chirp 2 é um modelo de reconhecimento de voz automático (ASR) multilingue desenvolvido pela Google que transcreve a voz (voz para texto). Em comparação com a primeira geração de modelos Chirp, o Chirp 2 oferece uma precisão e uma velocidade melhoradas, e disponibiliza novas capacidades, como datas/horas ao nível das palavras, adaptação do modelo e tradução de voz. | Cartão de modelo |
Lista de modelos geridos disponíveis no Model Garden
Os modelos são oferecidos como APIs geridas no Vertex AI Model Garden (também conhecido como modelo como serviço).
Modelos de parceiros disponíveis no Model Garden
A tabela seguinte lista os modelos de parceiros disponíveis no Model Garden:
| Nome do modelo | Modalidade | Descrição | Início rápido |
|---|---|---|---|
| Claude Opus 4.5 | Idioma, visão | A próxima geração do modelo mais inteligente da Anthropic, o Claude Opus 4.5, é um líder da indústria em programação, agentes, utilização de computadores e fluxos de trabalho empresariais. | Cartão de modelo |
| Claude Sonnet 4.5 | Idioma, visão | O modelo de tamanho médio da Anthropic para potenciar agentes do mundo real, com capacidades em programação, utilização de computadores, cibersegurança e trabalho com ficheiros do Office, como folhas de cálculo. | Cartão de modelo |
| Claude Opus 4.1 | Idioma, visão | Um líder da indústria na programação. Oferece um desempenho sustentado em tarefas de longa duração que requerem um esforço concentrado e milhares de passos, expandindo significativamente o que os agentes de IA podem resolver. Ideal para potenciar produtos de agentes de vanguarda e funcionalidades. | Cartão de modelo |
| Claude Haiku 4.5 | Idioma, visão | O Claude Haiku 4.5 oferece um desempenho quase de ponta para uma vasta gama de exemplos de utilização e destaca-se como um dos melhores modelos de programação do mundo, com a velocidade e o custo certos para potenciar produtos gratuitos e experiências do utilizador de grande volume. | Cartão de modelo |
| Claude Opus 4 | Idioma, visão | O Claude Opus 4 oferece um desempenho sustentado em tarefas de longa duração que requerem um esforço focado e milhares de passos, expandindo significativamente o que os agentes de IA podem resolver. | Cartão de modelo |
| Claude Sonnet 4 | Idioma, visão | Modelo de tamanho médio da Anthropic com inteligência superior para utilizações de grande volume, como programação, investigação detalhada e agentes. | Cartão de modelo |
| Claude 3.5 Sonnet v2 da Anthropic | Idioma, visão | O Claude 3.5 Sonnet atualizado é um modelo de última geração para tarefas de engenharia de software do mundo real e capacidades de agência. O Claude 3.5 Sonnet oferece estes avanços ao mesmo preço e velocidade que o seu antecessor. | Cartão de modelo |
| Claude 3.5 Haiku da Anthropic | Idioma, visão | O Claude 3.5 Haiku, a próxima geração do modelo mais rápido e económico da Anthropic, é ideal para exemplos de utilização em que a velocidade e a acessibilidade são importantes. | Cartão de modelo |
| Claude 3 Haiku da Anthropic | Idioma | O modelo de visão e texto mais rápido da Anthropic para respostas quase instantâneas a consultas básicas, destinado a experiências de IA perfeitas que imitam as interações humanas. | Cartão de modelo |
| Claude 3.5 Sonnet da Anthropic | Idioma | O Claude 3.5 Sonnet supera o Claude 3 Opus da Anthropic numa vasta gama de avaliações da Anthropic com a velocidade e o custo do modelo de nível intermédio da Anthropic, o Claude 3 Sonnet. | Cartão de modelo |
| Jamba 1.5 Large (pré-visualização) | Idioma | O Jamba 1.5 Large da AI21 Labs foi concebido para oferecer respostas de qualidade superior, elevado débito e preços competitivos em comparação com outros modelos da sua classe de tamanho. | Cartão de modelo |
| Jamba 1.5 Mini (pré-visualização) | Idioma | O Jamba 1.5 Mini da AI21 Labs está bem equilibrado em termos de qualidade, taxa de transferência e baixo custo. | Cartão de modelo |
| Mistral Medium 3 | Idioma | O Mistral Medium 3 é um modelo versátil concebido para uma vasta gama de tarefas, incluindo programação, raciocínio matemático, compreensão de documentos longos, resumo e diálogo. | Cartão de modelo |
| Mistral OCR (25.05) | Idioma, visão | O Mistral OCR (25.05) é uma API de reconhecimento ótico de carateres para a interpretação de documentos. O modelo compreende cada elemento dos documentos, como conteúdo multimédia, texto, tabelas e equações. | Cartão de modelo |
| Mistral Small 3.1 (25/03) | Idioma | O Mistral Small 3.1 (25.03) é a versão mais recente do modelo Small da Mistral, com capacidades multimodais e extensão do contexto. | Cartão de modelo |
| Mistral Large (24.11) | Idioma | O Mistral Large (24.11) é a versão seguinte do modelo Mistral Large (24.07), agora com capacidades de raciocínio e de chamadas de funções melhoradas. | Cartão de modelo |
| Codestral 2 | Idioma, código | O Codestral 2 é o modelo especializado de geração de código da Mistral criado especificamente para a conclusão de preenchimento do meio (FIM) de alta precisão que ajuda os programadores a escrever e interagir com o código através de um ponto final da API de instruções e conclusões partilhado. | Cartão de modelo |
| Codestral (25.01) | Código | Um modelo de vanguarda concebido para a geração de código, incluindo o preenchimento de lacunas e a conclusão de código. | Cartão de modelo |
Modelos abertos disponíveis no Model Garden
A tabela seguinte lista os modelos abertos disponíveis no Model Garden:
| Nome do modelo | Modalidade | Descrição | Início rápido |
|---|---|---|---|
| DeepSeek-OCR | Idioma, visão | Um modelo de reconhecimento ótico de carateres (OCR) abrangente que analisa e compreende documentos complexos. É excelente em tarefas de OCR desafiantes. | Cartão de modelo |
| DeepSeek R1 (0528) | Idioma | A versão mais recente do modelo DeepSeek R1 da DeepSeek. | Cartão de modelo |
| DeepSeek-V3.1 | Idioma | O modelo híbrido da DeepSeek que suporta o modo de reflexão e o modo sem reflexão. | Cartão de modelo |
| gpt-oss 120B | Idioma | Um modelo de 120 mil milhões de parâmetros que oferece um elevado desempenho em tarefas de raciocínio. | Cartão de modelo |
| gpt-oss 20B | Idioma | Um modelo de 20 mil milhões de parâmetros otimizado para eficiência e implementação em hardware de consumo e periférico. | Cartão de modelo |
| Kimi K2 Thinking | Idioma | Um modelo de agente de reflexão de código aberto que raciocina passo a passo e usa ferramentas para resolver problemas complexos. | Cartão de modelo |
| Llama 3.1 | Idioma |
Uma coleção de MDIs/CEs multilingues otimizados para exemplos de utilização de diálogo multilingue e que superam muitos dos modelos de chat de código aberto e fechados disponíveis em referências comuns da indústria. O Llama 3.1 405B está disponível de forma geral (DG). O Llama 3.1 8B e o Llama 3.1 70B estão em pré-visualização. |
Cartão de modelo |
| Llama 3.2 (pré-visualização) | Idioma, visão | Um modelo multimodal de 90 mil milhões de parâmetros de tamanho médio que pode suportar o raciocínio de imagens, como a análise de gráficos, bem como a geração de legendas de imagens. | Cartão de modelo |
| Lama 3.3 | Idioma | O Llama 3.3 é um modelo de 70 mil milhões de parâmetros otimizado para instruções apenas de texto que oferece um desempenho melhorado em relação ao Llama 3.1 de 70 mil milhões de parâmetros e ao Llama 3.2 de 90 mil milhões de parâmetros quando usado para aplicações apenas de texto. Além disso, para algumas aplicações, o Llama 3.3 70B aproxima-se do desempenho do Llama 3.1 405B. | Cartão de modelo |
| Llama 4 Maverick 17B-128E | Idioma, visão | O modelo Llama 4 maior e mais capaz que tem capacidades de programação, raciocínio e imagem. O Llama 4 Maverick 17B-128E é um modelo multimodal que usa a arquitetura de mistura de especialistas (MoE) e a fusão antecipada. | Cartão de modelo |
| Llama 4 Scout 17B-16E | Idioma, visão | O Llama 4 Scout 17B-16E oferece resultados de vanguarda para a sua classe de tamanho, superando as gerações anteriores do Llama e outros modelos abertos e proprietários em vários testes de referência. O Llama 4 Scout 17B-16E é um modelo multimodal que usa a arquitetura de mistura de especialistas (MoE) e a fusão antecipada. | Cartão de modelo |
| MiniMax M2 | Idioma, código | Concebido para tarefas relacionadas com código e agentes, com fortes capacidades de planeamento e execução de tarefas complexas de chamadas de ferramentas. | Cartão de modelo |
| Qwen3 235B | Idioma | Um modelo de peso aberto com uma capacidade de "pensamento híbrido" para alternar entre o raciocínio metódico e a conversa rápida. | Cartão de modelo |
| Qwen3 Coder | Idioma, código | Um modelo de peso aberto desenvolvido para tarefas avançadas de programação de software. | Cartão de modelo |
| Qwen3-Next-80B Instruct | Idioma, código | Um modelo da família de modelos Qwen3-Next, especializado em seguir comandos específicos. | Cartão de modelo |
| Qwen3-Next-80B Thinking | Idioma, código | Um modelo da família de modelos Qwen3-Next, especializado na resolução de problemas complexos e no raciocínio profundo. | Cartão de modelo |
Lista de modelos com receitas de ajuste ou publicação de código aberto no Model Garden
A tabela seguinte indica os modelos de OSS que suportam a otimização de código aberto ou receitas de publicação no Model Garden:
| Nome do modelo | Modalidade | Descrição | Início rápido |
|---|---|---|---|
| Llama 4 | Idioma, visão | Uma família de modelos multimodais que usam a arquitetura de mistura de especialistas (MoE) e a fusão antecipada. | Colab Ficha do modelo |
| Lama 3.3 | Idioma | O grande modelo de linguagem (GML) multilingue Meta Llama 3.3 é um modelo generativo pré-preparado e ajustado por instruções em 70B (texto de entrada/texto de saída). | Cartão de modelo |
| Flux | Vision | Um modelo de transformador de fluxo retificado de 12 mil milhões de parâmetros que gera imagens de alta qualidade a partir de descrições de texto. | Cartão de modelo |
| Prompt Guard | Idioma | Proteja as entradas de MDIs/CEs contra técnicas de jailbreaking e injeções indiretas. | Cartão de modelo |
| Llama 3.2 | Idioma | Uma coleção de modelos de linguagem (conteúdo extenso) multilingues que são modelos generativos pré-preparados e ajustados por instruções nos tamanhos de 1 mil milhões e 3 mil milhões. | Cartão de modelo |
| Llama 3.2-Vision | Idioma, visão | Uma coleção de modelos de linguagem (conteúdo extenso) multimodais que são pré-preparados e modelos generativos de raciocínio de imagens ajustados por instruções nos tamanhos de 11 mil milhões e 90 mil milhões. Estes modelos estão otimizados para reconhecimento visual, raciocínio de imagens, legendagem e resposta a perguntas gerais sobre uma imagem. | Cartão de modelo |
| Llama Guard 3 | Idioma | Um modelo pré-treinado Llama-3.1-8B que foi otimizado para a classificação de segurança do conteúdo. | Cartão de modelo |
| Qwen2 | Idioma | Implemente o Qwen2, uma série de modelos de linguagem (conteúdo extenso) de base. | Colab Ficha do modelo |
| Phi-3 | Idioma | Implemente o Phi-3, uma série de modelos de linguagem (conteúdo extenso) de base. | Colab Ficha do modelo |
| E5 | Idioma | Implemente o E5, uma série de modelos de incorporação de texto. | Colab Ficha do modelo |
| ID instantâneo | Idioma, visão | Implementar o Instant ID, um modelo de geração de texto para imagem que preserva a identidade. | Colab Ficha do modelo |
| Llama 3 | Idioma | Explore e crie com os modelos Llama 3 da Meta (8B, 70B e 405B) no Vertex AI. | Cartão de modelo |
| Gemma 3n | Idioma, visão e áudio | Modelos de peso aberto (E2B e E4B) criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google. | Cartão de modelo |
| Gemma 3 | Idioma, visão | Modelos de peso aberto (1B apenas texto, 4B, 12B e 27B) criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google. | Cartão de modelo |
| Gemma 2 | Idioma | Modelos de peso aberto (9 mil milhões e 27 mil milhões de parâmetros) criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google. | Cartão de modelo |
| Gemma | Idioma | Modelos de peso aberto (2B e 7B) criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google. | Cartão de modelo |
| CodeGemma | Idioma | Modelos de peso aberto (2B e 7B) concebidos para a geração e a conclusão de código, criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google. | Cartão de modelo |
| PaliGemma 2 | Idioma, visão | Modelos de peso aberto de 3B, 10B e 28B concebidos para tarefas de legendagem de imagens e tarefas visuais de perguntas e respostas criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google. | Cartão de modelo |
| PaliGemma | Idioma, visão | Modelo de peso aberto de 3 mil milhões de parâmetros concebido para tarefas de legendagem de imagens e tarefas visuais de perguntas e respostas, criado a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google. | Cartão de modelo |
| ShieldGemma 2 | Idioma, visão | Modelo 4B de peso aberto treinado no ponto de verificação de TI de 4B do Gemma 3 para classificação de segurança de imagens em categorias importantes que recebe imagens e produz etiquetas de segurança por política. | Cartão de modelo |
| TxGemma | Idioma | Modelos de peso aberto (2B, 9B e 27B) concebidos para o desenvolvimento terapêutico e criados com base no Gemma 2. | Cartão de modelo |
| MedGemma | Idioma, visão | Modelos de peso aberto (4B e 27B) concebidos para o desempenho na compreensão de texto e imagens médicas. | Cartão de modelo |
| MedSigLIP | Idioma, visão | Modelo de peso aberto (codificador de visão com 400 milhões de parâmetros e codificador de texto com 400 milhões de parâmetros) concebido para codificar imagens médicas e texto num espaço de incorporação comum. | Cartão de modelo |
| T5Gemma | Idioma | Modelos de codificador-descodificador de ponderação aberta (2B-2B, 9B-9B, 9B-2B, S-S, B-B, L-L, M-L e XL-XL) criados a partir da mesma investigação e tecnologia usadas para criar os modelos Gemini da Google. | Cartão de modelo |
| Vicuna v1.5 | Idioma | Implemente modelos da série Vicuna v1.5, que são modelos de base ajustados a partir do LLama2 para geração de texto. | Cartão de modelo |
| NLLB | Idioma | Implemente modelos da série NLLB para tradução em vários idiomas. | Cartão do modelo Colab |
| Mistral-7B | Idioma | Implemente o Mistral-7B, um modelo fundamental para a geração de texto. | Cartão de modelo |
| BioGPT | Idioma | Implemente o BioGPT, um modelo generativo de texto para o domínio biomédico. | Ficha do modelo Colab |
| BiomedCLIP | Idioma, visão | Implemente o BiomedCLIP, um modelo fundamental multimodal para o domínio biomédico. | Ficha do modelo Colab |
| ImageBind | Idioma, visão, áudio |
Implemente o ImageBind, um modelo fundamental para a incorporação multimodal. | Ficha do modelo Colab |
| DITO | Idioma, visão | Ajuste e implemente o DITO, um modelo de base multimodal para tarefas de deteção de objetos de vocabulário aberto. | Cartão do modelo Colab |
| OWL-ViT v2 | Idioma, visão | Implemente o OWL-ViT v2, um modelo de base multimodal para tarefas de deteção de objetos de vocabulário aberto. | Cartão do modelo Colab |
| FaceStylizer (Mediapipe) | Vision | Um pipeline generativo para transformar imagens de rostos humanos num novo estilo. | Ficha do modelo Colab |
| Llama 2 | Idioma | Ajuste e implemente os modelos de base Llama 2 da Meta (7B, 13B e 70B) na Vertex AI. | Cartão de modelo |
| Code Llama | Idioma | Implemente os modelos de fundação Code Llama da Meta (7B, 13B e 34B) na Vertex AI. | Cartão de modelo |
| Falcon-instruct | Idioma | Ajuste e implemente modelos Falcon-instruct (7B e 40B) através da PEFT. | Colab Ficha do modelo |
| OpenLLaMA | Idioma | Ajuste e implemente modelos OpenLLaMA (3B, 7B e 13B) através da PEFT. | Colab Ficha do modelo |
| T5-FLAN | Idioma | Ajuste e implemente o T5-FLAN (base, small e large). | Cartão de modelo (pipeline de ajuste preciso incluída) |
| BERT | Idioma | Ajuste e implemente o BERT usando a PEFT. | Colab Cartão de modelo |
| BART-large-cnn | Idioma | Implemente o BART, um modelo de transformador codificador-codificador (seq2seq) com um codificador bidirecional (semelhante ao BERT) e um descodificador autorregressivo (semelhante ao GPT). | Colab Cartão de modelo |
| RoBERTa-large | Idioma | Ajuste e implemente o RoBERTa-large usando a PEFT. | Colab Cartão de modelo |
| XLM-RoBERTa-large | Idioma | Ajuste e implemente o XLM-RoBERTa-large (uma versão multilingue do RoBERTa) usando a PEFT. | Colab Cartão de modelo |
| Stable Diffusion XL v1.0 | Idioma, visão | Implemente o Stable Diffusion XL v1.0, que suporta a geração de texto para imagem. | Colab Ficha do modelo |
| Stable Diffusion XL Lightning | Idioma, visão | Implemente o Stable Diffusion XL Lightning, um modelo de geração de texto para imagem. | Colab Ficha do modelo |
| Stable Diffusion v2.1 | Idioma, visão | Ajuste e implemente o Stable Diffusion v2.1 (suporta a geração de texto em imagem) através do Dreambooth. | Colab Cartão de modelo |
| Stable Diffusion 4x upscaler | Idioma, visão | Implemente o otimizador 4x do Stable Diffusion, que suporta a super-resolução de imagens condicionadas por texto. | Colab Cartão de modelo |
| InstructPix2Pix | Idioma, visão | Implemente o InstructPix2Pix, que suporta a edição de imagens através de um comando de texto. | Colab Ficha do modelo |
| Pintura com o Stable Diffusion | Idioma, visão | Ajuste e implemente o Stable Diffusion Inpainting, que suporta o preenchimento de uma imagem com máscara através de um comando de texto. | Colab Ficha do modelo |
| SAM | Idioma, visão | Implemente o Segment Anything, que suporta a segmentação de imagens sem exemplos. | Colab Ficha do modelo |
| Pic2Word Composed Image Retrieval | Idioma, visão | Implemente o Pic2Word, que suporta a obtenção de imagens compostas multimoda. | Colab Ficha do modelo |
| BLIP2 | Idioma, visão | Implementar o BLIP2, que suporta legendagem de imagens e respostas visuais a perguntas. | Colab Cartão de modelo |
| OpenCLIP | Idioma, visão | Ajuste e implemente o Open-CLIP, que suporta a classificação zero-shot. | Colab Ficha do modelo |
| F-VLM | Idioma, visão | Implemente o F-VLM, que suporta a deteção de objetos de imagem de vocabulário aberto. | Colab Ficha do modelo |
| tfhub/EfficientNetV2 | Vision | Ajuste e implemente a implementação do TensorFlow Vision do modelo de classificação de imagens EfficientNetV2. | Colab Cartão de modelo |
| EfficientNetV2 (TIMM) | Vision | Ajuste e implemente a implementação do PyTorch do modelo de classificação de imagens EfficientNetV2. | Colab Ficha do modelo |
| Proprietário/EfficientNetV2 | Vision | Ajuste e implemente o ponto de verificação proprietário da Google do modelo de classificação de imagens EfficientNetV2. | Colab Ficha do modelo |
| EfficientNetLite (MediaPipe) | Vision | Ajuste o modelo de classificação de imagens EfficientNetLite através do MediaPipe Model Maker. | Colab Ficha do modelo |
| tfvision/vit | Vision | Ajuste e implemente a implementação do TensorFlow Vision do modelo de classificação de imagens ViT. | Colab Cartão de modelo |
| ViT (TIMM) | Vision | Ajuste e implemente a implementação do PyTorch do modelo de classificação de imagens ViT. | Colab Cartão de modelo |
| Proprietário/ViT | Vision | Ajuste e implemente o ponto de verificação proprietário da Google do modelo de classificação de imagens ViT. | Colab Cartão de modelo |
| Proprietário/MaxViT | Vision | Ajuste e implemente o ponto de verificação proprietário da Google do modelo de classificação de imagens híbrido MaxViT (CNN + ViT). | Colab Cartão de modelo |
| ViT (JAX) | Vision | Ajuste e implemente a implementação JAX do modelo de classificação de imagens ViT. | Colab Cartão de modelo |
| tfvision/SpineNet | Vision | Ajuste e implemente a implementação do TensorFlow Vision do modelo de deteção de objetos SpineNet. | Colab Cartão de modelo |
| Proprietário/Spinenet | Vision | Ajuste e implemente o ponto de verificação proprietário da Google do modelo de deteção de objetos SpineNet. | Colab Ficha do modelo |
| tfvision/YOLO | Vision | Ajuste e implemente a implementação do TensorFlow Vision do modelo de deteção de objetos de uma fase YOLO. | Colab Cartão de modelo |
| Proprietário/YOLO | Vision | Ajuste e implemente o ponto de verificação proprietário da Google do modelo de deteção de objetos de uma fase YOLO. | Colab Cartão de modelo |
| YOLOv8 (Keras) | Vision | Ajuste e implemente a implementação do Keras do modelo YOLOv8 para deteção de objetos. | Colab Ficha do modelo |
| tfvision/YOLOv7 | Vision | Ajuste e implemente o modelo YOLOv7 para a deteção de objetos. | Colab Ficha do modelo |
| Acompanhamento de objetos de vídeo ByteTrack | Vision | Execute a previsão em lote para o acompanhamento de objetos de vídeo através do rastreador ByteTrack. | Colab Ficha do modelo |
| ResNeSt (TIMM) | Vision | Ajuste e implemente a implementação do PyTorch do modelo de classificação de imagens ResNeSt. | Colab Cartão de modelo |
| ConvNeXt (TIMM) | Vision | Ajuste e implemente o ConvNeXt, um modelo puramente convolucional para a classificação de imagens inspirado no design dos Vision Transformers. | Colab Cartão de modelo |
| CspNet (TIMM) | Vision | Ajuste e implemente o modelo de classificação de imagens CSPNet (Cross Stage Partial Network). | Colab Cartão de modelo |
| Inception (TIMM) | Vision | Ajuste e implemente o modelo de classificação de imagens Inception. | Colab Cartão de modelo |
| DeepLabv3+ (com ponto de verificação) | Vision | Ajuste e implemente o modelo DeepLab-v3 Plus para a segmentação semântica de imagens. | Colab Cartão de modelo |
| Faster R-CNN (Detectron2) | Vision | Ajuste e implemente a implementação do Detectron2 do modelo Faster R-CNN para a deteção de objetos em imagens. | Colab Cartão de modelo |
| RetinaNet (Detectron2) | Vision | Ajuste e implemente a implementação do Detectron2 do modelo RetinaNet para a deteção de objetos em imagens. | Colab Cartão de modelo |
| Mask R-CNN (Detectron2) | Vision | Ajuste e implemente a implementação do Detectron2 do modelo Mask R-CNN para a deteção e segmentação de objetos de imagem. | Colab Cartão de modelo |
| ControlNet | Vision | Ajuste e implemente o modelo de geração de texto para imagem ControlNet. | Colab Cartão de modelo |
| MobileNet (TIMM) | Vision | Ajuste e implemente a implementação do PyTorch do modelo de classificação de imagens MobileNet. | Colab Cartão de modelo |
| Classificação de imagens MobileNetV2 (MediaPipe) | Vision | Ajuste o modelo de classificação de imagens MobileNetV2 com o MediaPipe Model Maker. | Colab Cartão de modelo |
| Deteção de objetos MobileNetV2 (MediaPipe) | Vision | Ajuste o modelo de deteção de objetos MobileNetV2 através do MediaPipe Model Maker. | Colab Cartão de modelo |
| MobileNet-MultiHW-AVG (MediaPipe) | Vision | Ajuste o modelo de deteção de objetos MobileNet-MultiHW-AVG usando o MediaPipe Model Maker. | Colab Cartão de modelo |
| DeiT | Vision | Ajuste e implemente o modelo DeiT (Data-efficient Image Transformers) para a classificação de imagens. | Colab Cartão de modelo |
| BEiT | Vision | Ajuste e implemente o modelo BEiT (Bidirectional Encoder representation from Image Transformers) para a classificação de imagens. | Colab Cartão de modelo |
| Reconhecimento de gestos com a mão (MediaPipe) | Vision | Ajuste e implemente no dispositivo os modelos de reconhecimento de gestos com as mãos através do MediaPipe. | Colab Ficha do modelo |
| Classificador de incorporação de palavras médio (MediaPipe) | Vision | Ajuste e implemente no dispositivo os modelos de classificador de incorporação de palavras média através do MediaPipe. | Colab Ficha do modelo |
| Classificador MobileBERT (MediaPipe) | Vision | Ajuste e implemente no dispositivo os modelos do classificador MobileBERT através do MediaPipe. | Colab Ficha do modelo |
| Classificação de clipes de vídeo com a MoViNet | Vídeo | Ajuste e implemente modelos de classificação de clipes de vídeo MoViNet. | Colab Ficha do modelo |
| Reconhecimento de ações de vídeo MoViNet | Vídeo | Ajuste e implemente modelos MoViNet para a inferência de reconhecimento de ações. | Colab Ficha do modelo |
| Stable Diffusion XL LCM | Vision | Implemente este modelo que usa o modelo de consistência latente (LCM) para melhorar a geração de texto em imagens nos modelos de difusão latente, permitindo a criação de imagens mais rápida e de alta qualidade com menos passos. | Colab Ficha do modelo |
| LLaVA 1.5 | Visão, idioma | Implemente modelos LLaVA 1.5. | Colab Ficha do modelo |
| Pytorch-ZipNeRF | Visão, vídeo | Forme o modelo Pytorch-ZipNeRF, que é uma implementação de ponta do algoritmo ZipNeRF na framework Pytorch, concebida para uma reconstrução 3D eficiente e precisa a partir de imagens 2D. | Colab Ficha do modelo |
| Mixtral | Idioma | Implemente o modelo Mixtral, que é um modelo de linguagem (conteúdo extenso) (MDL/CE) de mistura de especialistas (MoE) desenvolvido pela Mistral AI. | Cartão de modelo |
| Llama 2 (quantizado) | Idioma | Ajuste e implemente uma versão quantizada dos modelos Llama 2 da Meta. | Colab Ficha do modelo |
| LaMa (Large Mask Inpainting) | Vision | Implemente o LaMa, que usa convoluções rápidas de Fourier (FFCs), uma perda percetual de campo recetivo elevado e grandes máscaras de preparação, o que permite o preenchimento de imagens robusto em termos de resolução. | Colab Ficha do modelo |
| AutoGluon | Tabular | Com o AutoGluon, pode preparar e implementar modelos de aprendizagem automática e aprendizagem profunda de alta precisão para dados tabulares. | Colab Ficha do modelo |
| MaMMUT | Idioma, visão | Uma arquitetura de codificador de visão e descodificador de texto para tarefas multimodais, como responder a perguntas visuais, obter imagens a partir de texto, obter texto a partir de imagens e gerar incorporações multimodais. | Colab Ficha do modelo |
| Whisper Large | Voz | Implemente o Whisper Large, o modelo de vanguarda da OpenAI para o reconhecimento de voz automático (ASR). | Colab Ficha do modelo |