Modelos da Mistral AI

Os modelos da Mistral AI na Vertex AI oferecem modelos totalmente gerenciados e sem servidor como APIs. Para usar um modelo do Mistral AI na Vertex AI, envie uma solicitação diretamente ao endpoint de API Vertex AI. Devido ao Os modelos de IA do Mistral usam uma API gerenciada. Não é necessário provisionar nem gerenciar a infraestrutura.

É possível transmitir as respostas para reduzir a percepção de latência do usuário final. Uma resposta transmitida usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.

Você paga pelos modelos de IA do Mistral conforme o uso (pagamento por utilização). Para pagamento por utilização, consulte os preços do modelo de IA da Mistral na página de preços da Vertex AI.

page.

Modelos da Mistral AI disponíveis

Os modelos a seguir estão disponíveis na Mistral AI para uso na Vertex AI. Para acessar um modelo do Mistral AI, acesse o card de modelo do Model Garden.

Mistral Medium 3

O Mistral Medium 3 é um modelo versátil projetado para uma ampla variedade de tarefas, incluindo programação, raciocínio matemático, compreensão de documentos longos, resumo e diálogo. Ele se destaca em tarefas complexas que exigem habilidades avançadas de raciocínio, compreensão visual ou um alto nível de especialização (por exemplo, escrita criativa, fluxos de trabalho de agentes, geração de código).

Ele tem recursos multimodais, o que permite processar entradas visuais, e aceita dezenas de idiomas, incluindo mais de 80 linguagens de programação. Além disso, ele oferece chamada de função e fluxos de trabalho de agentes.

O Mistral Medium 3 é otimizado para inferência de nó único, principalmente para aplicativos de contexto longo. O tamanho dele permite alcançar alta capacidade em um único nó.

Acessar o card de modelo do Mistral Medium 3

OCR do Mistral (25/05)

O Mistral OCR (25.05) é uma API de reconhecimento óptico de caracteres para compreensão de documentos. O OCR do Mistral (25.05) é excelente para entender elementos complexos de documentos, incluindo imagens intercaladas, expressões matemáticas, tabelas e layouts avançados, como a formatação LaTeX. O modelo permite uma compreensão mais profunda de documentos avançados, como artigos científicos com gráficos, equações e figuras.

O OCR do Mistral (25.05) é um modelo ideal para usar em combinação com um sistema RAG que recebe documentos multimodais (como slides ou PDFs complexos) como entrada.

Você pode combinar o OCR do Mistral (25.05) com outros modelos do Mistral para reformatar os resultados. Essa combinação garante que o conteúdo extraído não seja apenas preciso, mas também apresentado de maneira estruturada e coerente, tornando-o adequado para várias aplicações e análises downstream.

Acessar o card de modelo do Mistral OCR (25.05)

Mistral Small 3.1 (25/03)

O Mistral Small 3.1 (25/03) tem recursos multimodais e um contexto de até 128.000. O modelo pode processar e entender entradas visuais e documentos longos, ampliando ainda mais o alcance de aplicações em comparação com o modelo anterior Mistral AI Small. O Mistral Small 3.1 (25/03) é um modelo versátil projetado para várias tarefas, como programação, raciocínio matemático, compreensão de documentos e diálogo. O Mistral Small 3.1 (25/03) foi desenvolvido para aplicativos de baixa latência e oferece a melhor eficiência da categoria em comparação com modelos da mesma qualidade.

O Mistral Small 3.1 (25/03) passou por um processo completo de pós-treinamento para alinhar o modelo às preferências e necessidades humanas, tornando-o utilizável imediatamente para aplicativos que exigem chat ou instruções precisas.

Acessar o card de modelo do Mistral Small 3.1 (25.03)

Mistral Large (24.11)

O Mistral Large (24.11) é a versão mais recente do modelo Large da Mistral AI, agora com recursos aprimorados de raciocínio e chamada de função.

  • Focado no agente: os melhores recursos de agente com função integrada de chamada e saídas JSON.
  • Multilíngue por design: há vários idiomas disponíveis, incluindo inglês, francês, alemão, espanhol, italiano, chinês, japonês, coreano, português, holandês e polonês.
  • Proficiência em programação: treinado em mais de 80 linguagens de programação, como Python, Java, C, C++, JavaScript e Bash. Também treinado em linguagens mais específicas como Swift e Fortran
  • Raciocínio avançado: recursos de cálculo e raciocínio de última geração.

Acessar o card de modelo do Mistral Large (24.11)

Codestral 2

O Codestral 2 é o modelo especializado em geração de código da Mistral, criado especificamente para preenchimento de lacunas (FIM) de alta precisão. Ela ajuda os desenvolvedores a escrever e interagir com código usando uma instrução compartilhada e um endpoint de API de conclusão. Como ele domina o código e também pode conversar em vários idiomas, ele pode ser usado para projetar aplicativos de IA avançados para desenvolvedores de software.

A versão mais recente do Codestral 2 oferece upgrades mensuráveis em relação à versão anterior do Codestral (25.01):

  • Aumento de 30% nas conclusões aceitas.
  • 10% mais código retido após a sugestão.
  • 50% menos gerações descontroladas, o que aumenta a confiança em edições mais longas.

Melhoria na performance em comparativos de mercado acadêmicos para conclusão de FIM de contexto curto e longo.

  • Geração de código: preenchimento, sugestões e tradução.
  • Entendimento e documentação de código: resumo e explicação de código.
  • Qualidade do código: revisão, refatoração, correção de bugs e geração de casos de teste.
  • Preenchimento de código: os usuários podem definir o ponto de partida do código usando um comando e o ponto final usando um sufixo opcional e uma parada opcional. O modelo Codestral vai gerar o código que se encaixa entre eles, o que o torna ideal para tarefas que exigem a geração de um trecho de código específico.

Acessar o card do modelo Codestral 2

Codestral (25.01)

O Codestral (25/01) foi projetado para tarefas de geração de código. Ela ajuda os desenvolvedores a escrever e interagir com código usando uma instrução compartilhada e um endpoint de API de conclusão. Como ele domina o código e consegue conversar em várias línguas, você pode usar o Codestral (25.01) para projetar aplicativos de IA avançados para desenvolvedores de software.

  • O Codestral (25.01) é fluente em mais de 80 linguagens de programação, incluindo Python, Java, C, C++, JavaScript e Bash. Ele também tem um bom desempenho em linguagens mais específicas, como Swift e Fortran.
  • O Codestral (25.01) ajuda a melhorar a produtividade dos desenvolvedores e reduzir erros: ele pode concluir funções de programação, escrever testes e completar qualquer código parcial usando um mecanismo de preenchimento no meio.
  • O Codestral (25/01) oferece um novo padrão de desempenho e latência com apenas 24 bilhões de parâmetros e uma janela de contexto de 128.000.

O Codestral (25/01) é otimizado para os seguintes casos de uso:

  • Gera código e oferece preenchimento, sugestões e tradução.
  • Adiciona código entre pontos de início e fim definidos pelo usuário, o que o torna ideal para tarefas que exigem a geração de um trecho de código específico.
  • Resumir e explicar seu código.
  • Revisa a qualidade do código ajudando a refatorá-lo, corrige bugs e gera casos de teste.

Acessar o card do modelo da Codestral (25.01)

Usar modelos da Mistral AI

É possível usar comandos curl para enviar solicitações ao endpoint da Vertex AI usando os seguintes nomes de modelos:

  • Para o Mistral Medium 3, use mistral-medium-3
  • Para o OCR do Mistral (25.05), use mistral-ocr-2505.
  • Para o Mistral Small 3.1 (25/03), use mistral-small-2503
  • Para o Mistral Large (24.11), use mistral-large-2411
  • Para o Codestral 2, use codestral-2
  • Para o Codestral (25/01), use codestral-2501

Para mais informações sobre como usar o SDK da Mistral AI, consulte a documentação da Mistral AI Vertex AI.

Antes de começar

Para usar os modelos do Mistral AI com a Vertex AI, siga as etapas abaixo. A API Vertex AI (aiplatform.googleapis.com) precisa estar ativada para usar a Vertex AI. Se você já tiver um projeto existente com a API do Vertex AI ativada, poderá usar esse projeto em vez de criar um novo.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  8. Acesse um dos seguintes cards de modelo do Model Garden e clique em Ativar:
  9. Fazer uma chamada de streaming para um modelo da Mistral AI

    O exemplo a seguir faz uma chamada de streaming para um modelo de IA do Mistral.

    REST

    Depois de configurou seu ambiente use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher endpoint do modelo.

    Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

    • LOCATION: uma região compatível com modelos da Mistral AI.
    • MODEL: o nome do modelo que você quer usar. No corpo da solicitação, exclua o número da versão do modelo @.
    • ROLE: o papel associado a uma mensagem. É possível especificar user ou assistant. A primeira mensagem precisa usar o papel user. Os modelos funcionam com voltas alternadas de user e assistant. Se a mensagem final usar o papel assistant, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo.
    • STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como true para transmitir a resposta e false para retornar a resposta de uma só vez.
    • CONTENT: o conteúdo, como texto, da mensagem user ou assistant.
    • MAX_OUTPUT_TOKENS: número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente 3,5 caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.

      Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.

    Método HTTP e URL:

    POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

    Corpo JSON da solicitação:

    {
    "model": MODEL,
      "messages": [
       {
        "role": "ROLE",
        "content": "CONTENT"
       }],
      "max_tokens": MAX_TOKENS,
      "stream": true
    }
    

    Para enviar a solicitação, escolha uma destas opções:

    curl

    Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando abaixo:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

    PowerShell

    Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

    Você receberá uma resposta JSON semelhante a seguinte.

    Fazer uma chamada unária para um modelo de IA do Mistral

    O exemplo a seguir faz uma chamada unária para um modelo de IA do Mistral.

    REST

    Depois de configurou seu ambiente use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher endpoint do modelo.

    Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

    • LOCATION: uma região compatível com modelos da Mistral AI.
    • MODEL: o nome do modelo que você quer usar. No corpo da solicitação, exclua o número da versão do modelo @.
    • ROLE: o papel associado a uma mensagem. É possível especificar user ou assistant. A primeira mensagem precisa usar o papel user. Os modelos funcionam com voltas alternadas de user e assistant. Se a mensagem final usar o papel assistant, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo.
    • STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como true para transmitir a resposta e false para retornar a resposta de uma só vez.
    • CONTENT: o conteúdo, como texto, da mensagem user ou assistant.
    • MAX_OUTPUT_TOKENS: número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente 3,5 caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.

      Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.

    Método HTTP e URL:

    POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

    Corpo JSON da solicitação:

    {
    "model": MODEL,
      "messages": [
       {
        "role": "ROLE",
        "content": "CONTENT"
       }],
      "max_tokens": MAX_TOKENS,
      "stream": false
    }
    

    Para enviar a solicitação, escolha uma destas opções:

    curl

    Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando abaixo:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

    PowerShell

    Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

    Você receberá uma resposta JSON semelhante a seguinte.

    Disponibilidade e cotas das regiões do modelo de IA da Mistral

    Para modelos de IA da Mistral, uma cota se aplica a cada região onde o modelo está disponível. A cota é especificada em consultas por minuto (QPM) e tokens por minuto (TPM). O TPM inclui tokens de entrada e saída.

    Modelo Região Cotas Tamanho do contexto
    Mistral Medium 3
    us-central1
    • QPM: 90
    • TPM: 315.000
    128.000
    europe-west4
    • QPM: 90
    • TPM: 315.000
    128.000
    OCR do Mistral (25/05)
    us-central1
    • QPM: 30
    • Páginas por solicitação: 30 (1 página = 1 milhão de tokens de entrada e 1 milhão de tokens de saída)
    30 páginas
    europe-west4
    • QPM: 30
    • Páginas por solicitação: 30 (1 página = 1 milhão de tokens de entrada e 1 milhão de tokens de saída)
    30 páginas
    Mistral Small 3.1 (25/03)
    us-central1
    • QPM: 60
    • TPM: 200.000
    128.000
    europe-west4
    • QPM: 60
    • TPM: 200.000
    128.000
    Mistral Large (24.11)
    us-central1
    • QPM: 60
    • TPM: 400.000
    128.000
    europe-west4
    • QPM: 60
    • TPM: 400.000
    128.000
    Codestral 2
    us-central1
    • QPM: 1.100
    • Entrada de TPM: 1.100.000
    • Saída de TPM: 110.000
    128.000 tokens
    europe-west4
    • QPM: 1.100
    • Entrada de TPM: 1.100.000
    • Saída de TPM: 110.000
    128.000 tokens
    Codestral (25.01)
    us-central1
    • QPM: 60
    • TPM: 400.000
    32.000
    europe-west4
    • QPM: 60
    • TPM: 400.000
    32.000

    Para aumentar alguma das suas cotas de IA generativa na Vertex AI, use o console Google Cloud para solicitar um aumento de cota. Para saber mais sobre cotas, consulte a Visão geral das cotas do Cloud.