Modelos de IA da Mistral

Os modelos de IA da Mistral no Vertex AI oferecem modelos totalmente geridos e sem servidor como APIs. Para usar um modelo de IA da Mistral no Vertex AI, envie um pedido diretamente para o ponto final da API Vertex AI. Uma vez que os modelos de IA da Mistral usam uma API gerida, não é necessário aprovisionar nem gerir a infraestrutura.

Pode transmitir as suas respostas para reduzir a perceção de latência do utilizador final. Uma resposta em stream usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.

Paga os modelos de IA da Mistral à medida que os usa (pagamento mediante utilização). Para os preços de pagamento conforme a utilização, consulte os preços dos modelos de IA da Mistral nos preços do Vertex AI

page.

Modelos de IA da Mistral disponíveis

Os seguintes modelos estão disponíveis na Mistral AI para utilização no Vertex AI. Para aceder a um modelo de IA da Mistral, aceda ao respetivo cartão do modelo do Model Garden.

Mistral Medium 3

O Mistral Medium 3 é um modelo versátil concebido para uma ampla gama de tarefas, incluindo programação, raciocínio matemático, compreensão de documentos longos, resumo e diálogo. É excelente em tarefas complexas que requerem capacidades de raciocínio avançadas, compreensão visual ou um elevado nível de especialização (por exemplo, escrita criativa, fluxos de trabalho de agentes, geração de código).

Tem capacidades multimodais, o que lhe permite processar entradas visuais e suporta dezenas de idiomas, incluindo mais de 80 linguagens de programação. Além disso, apresenta chamadas de funções e fluxos de trabalho de agentes.

O Mistral Medium 3 está otimizado para a inferência de nó único, particularmente para aplicações de contexto longo. O seu tamanho permite alcançar um elevado rendimento num único nó.

Aceda ao cartão do modelo Mistral Medium 3

Mistral OCR (25.05)

O Mistral OCR (25.05) é uma API de reconhecimento ótico de carateres para a compreensão de documentos. O Mistral OCR (25.05) destaca-se na compreensão de elementos de documentos complexos, incluindo imagens intercaladas, expressões matemáticas, tabelas e esquemas avançados, como a formatação LaTeX. O modelo permite uma compreensão mais profunda de documentos complexos, como artigos científicos com tabelas, gráficos, equações e figuras.

O Mistral OCR (25.05) é um modelo ideal para usar em combinação com um sistema RAG que recebe documentos multimodais (como diapositivos ou PDFs complexos) como entrada.

Pode combinar o OCR Mistral (25.05) com outros modelos Mistral para reformatar os resultados. Esta combinação garante que o conteúdo extraído não só é preciso, como também é apresentado de forma estruturada e coerente, o que o torna adequado para várias aplicações e análises posteriores.

Aceda ao cartão do modelo Mistral OCR (25.05)

Mistral Small 3.1 (25/03)

O Mistral Small 3.1 (25.03) inclui capacidades multimodais e um contexto de até 128 000. O modelo pode processar e compreender entradas visuais e documentos longos, o que expande ainda mais o seu leque de aplicações em comparação com o modelo Mistral AI Small anterior. O Mistral Small 3.1 (25/03) é um modelo versátil concebido para várias tarefas, como programação, raciocínio matemático, compreensão de documentos e diálogo. O Mistral Small 3.1 (25/03) foi concebido para aplicações de baixa latência, de modo a oferecer a melhor eficiência da classe em comparação com modelos da mesma qualidade.

O Mistral Small 3.1 (25/03) foi submetido a um processo de pós-preparação completo para alinhar o modelo com as preferências e as necessidades humanas, o que o torna utilizável imediatamente para aplicações que requerem chat ou seguimento preciso de instruções.

Aceda ao cartão do modelo Mistral Small 3.1 (25.03)

Mistral Large (24.11)

O Mistral Large (24.11) é a versão mais recente do modelo Large da Mistral AI, agora com capacidades de raciocínio e chamadas de funções melhoradas.

  • Centrado no agente: capacidades de agente de excelência com chamadas de funções incorporadas e resultados JSON.
  • Multilingue por conceção: dezenas de idiomas suportados, incluindo alemão, chinês, coreano, espanhol, francês, inglês, italiano, japonês, neerlandês, polaco e português
  • Proficiente em programação: foi preparado em mais de 80 linguagens de programação, como Python, Java, C, C++, JavaScript e Bash. Também foi preparado em linguagens mais específicas, como Swift e Fortran
  • Raciocínio avançado: capacidades matemáticas e de raciocínio de última geração.

Aceda ao cartão do modelo Mistral Large (24.11)

Codestral 2

O Codestral 2 é o modelo especializado de geração de código da Mistral criado especificamente para a conclusão de preenchimento do meio (FIM) de alta precisão. Ajuda os programadores a escrever e interagir com código através de um ponto final da API de instruções e preenchimento partilhado. À medida que domina o código e também consegue conversar numa variedade de idiomas, pode ser usado para criar aplicações de IA avançadas para programadores de software.

O lançamento mais recente do Codestral 2 oferece atualizações mensuráveis em relação à versão anterior do Codestral (25.01):

  • Aumento de 30% nas conclusões aceites.
  • 10% mais código retido após a sugestão.
  • 50% menos gerações descontroladas, o que melhora a confiança em edições mais longas.

Desempenho melhorado em referências académicas para a conclusão de FIM de contexto curto e longo.

  • Geração de código: conclusão de código, sugestões e tradução.
  • Compreensão e documentação do código: resumo e explicação do código.
  • Qualidade do código: revisão do código, refatoração, correção de erros e geração de casos de teste.
  • Preenchimento de código: os utilizadores podem definir o ponto de partida do código através de um comando e o ponto final do código através de um sufixo opcional e uma paragem opcional. Em seguida, o modelo Codestral gera o código que se encaixa entre os dois, o que o torna ideal para tarefas que requerem a geração de um fragmento de código específico.

Aceda ao cartão do modelo Codestral 2

Codestral (25.01)

O Codestral (25.01) foi concebido para tarefas de geração de código. Ajuda os programadores a escrever e interagir com código através de um ponto final da API de instruções e preenchimento partilhado. À medida que domina o código, juntamente com a sua capacidade de conversar em vários idiomas, pode usar o Codestral (25.01) para criar aplicações de IA avançadas para programadores de software.

  • O Codestral (25.01) é fluente em mais de 80 linguagens de programação, incluindo Python, Java, C, C++, JavaScript e Bash. Também tem um bom desempenho em linguagens mais específicas, como Swift e Fortran.
  • O Codestral (25.01) ajuda a melhorar a produtividade dos programadores e reduz os erros: o Codestral (25.01) pode concluir funções de programação, escrever testes e concluir qualquer código parcial através de um mecanismo de preenchimento.
  • O Codestral (25.01) oferece um novo padrão no espaço de desempenho e latência com apenas 24 mil milhões de parâmetros e uma janela de contexto de 128 000.

O Codestral (25.01) está otimizado para os seguintes exemplos de utilização:

  • Gera código e oferece conclusão, sugestões e tradução de código.
  • Adiciona código entre pontos de início e fim definidos pelo utilizador, o que o torna ideal para tarefas que requerem a geração de um fragmento de código específico.
  • Resume e explica o seu código.
  • Revisa a qualidade do seu código ajudando a refatorá-lo, corrige erros e gera exemplos de testes.

Aceda ao cartão do modelo Codestral (25.01)

Use modelos de IA da Mistral

Pode usar comandos curl para enviar pedidos para o ponto final da Vertex AI com os seguintes nomes de modelos:

  • Para o Mistral Medium 3, use mistral-medium-3
  • Para o OCR Mistral (25.05), use mistral-ocr-2505
  • Para o Mistral Small 3.1 (25/03), use mistral-small-2503
  • Para o Mistral Large (24.11), use mistral-large-2411
  • Para o Codestral 2, use codestral-2
  • Para o Codestral (25.01), use codestral-2501

Para mais informações sobre a utilização do SDK Mistral AI, consulte a documentação do Mistral AI Vertex AI.

Antes de começar

Para usar os modelos de IA da Mistral com o Vertex AI, tem de realizar os seguintes passos. A API Vertex AI (aiplatform.googleapis.com) tem de estar ativada para usar a Vertex AI. Se já tiver um projeto com a API Vertex AI ativada, pode usá-lo em vez de criar um novo projeto.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  8. Aceda a um dos seguintes cartões de modelos do Model Garden e, de seguida, clique em Ativar:
  9. Faça uma chamada de streaming para um modelo de IA da Mistral

    O exemplo seguinte faz uma chamada de streaming a um modelo de IA da Mistral.

    REST

    Depois de configurar o seu ambiente, pode usar a API REST para testar um comando de texto. O exemplo seguinte envia um pedido para o ponto final do modelo do publicador.

    Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:

    • LOCATION: Uma região que suporta modelos de IA da Mistral.
    • MODEL: o nome do modelo que quer usar. No corpo do pedido, exclua o número da versão do modelo.@
    • ROLE: a função associada a uma mensagem. Pode especificar um user ou um assistant. A primeira mensagem tem de usar a função user. Os modelos funcionam com turnos alternados de user e assistant. Se a mensagem final usar a função assistant, o conteúdo da resposta continua imediatamente a partir do conteúdo dessa mensagem. Pode usar isto para restringir parte da resposta do modelo.
    • STREAM: um valor booleano que especifica se a resposta é transmitida ou não. Transmita a sua resposta para reduzir a perceção de latência do utilizador final. Defina como true para fazer streaming da resposta e false para devolver a resposta de uma só vez.
    • CONTENT: O conteúdo, como o texto, da mensagem user ou assistant.
    • MAX_OUTPUT_TOKENS: Número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente 3,5 carateres. 100 tokens correspondem a aproximadamente 60 a 80 palavras.

      Especifique um valor inferior para respostas mais curtas e um valor superior para respostas potencialmente mais longas.

    Método HTTP e URL:

    POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

    Corpo JSON do pedido:

    {
    "model": MODEL,
      "messages": [
       {
        "role": "ROLE",
        "content": "CONTENT"
       }],
      "max_tokens": MAX_TOKENS,
      "stream": true
    }
    

    Para enviar o seu pedido, escolha uma destas opções:

    curl

    Guarde o corpo do pedido num ficheiro com o nome request.json, e execute o seguinte comando:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

    PowerShell

    Guarde o corpo do pedido num ficheiro com o nome request.json, e execute o seguinte comando:

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

    Deve receber uma resposta JSON semelhante à seguinte.

    Faça uma chamada unária a um modelo de IA da Mistral

    O exemplo seguinte faz uma chamada unária a um modelo de IA da Mistral.

    REST

    Depois de configurar o seu ambiente, pode usar a API REST para testar um comando de texto. O exemplo seguinte envia um pedido para o ponto final do modelo do publicador.

    Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:

    • LOCATION: Uma região que suporta modelos de IA da Mistral.
    • MODEL: o nome do modelo que quer usar. No corpo do pedido, exclua o número da versão do modelo.@
    • ROLE: a função associada a uma mensagem. Pode especificar um user ou um assistant. A primeira mensagem tem de usar a função user. Os modelos funcionam com turnos alternados de user e assistant. Se a mensagem final usar a função assistant, o conteúdo da resposta continua imediatamente a partir do conteúdo dessa mensagem. Pode usar isto para restringir parte da resposta do modelo.
    • STREAM: um valor booleano que especifica se a resposta é transmitida ou não. Transmita a sua resposta para reduzir a perceção de latência do utilizador final. Defina como true para fazer streaming da resposta e false para devolver a resposta de uma só vez.
    • CONTENT: O conteúdo, como o texto, da mensagem user ou assistant.
    • MAX_OUTPUT_TOKENS: Número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente 3,5 carateres. 100 tokens correspondem a aproximadamente 60 a 80 palavras.

      Especifique um valor inferior para respostas mais curtas e um valor superior para respostas potencialmente mais longas.

    Método HTTP e URL:

    POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

    Corpo JSON do pedido:

    {
    "model": MODEL,
      "messages": [
       {
        "role": "ROLE",
        "content": "CONTENT"
       }],
      "max_tokens": MAX_TOKENS,
      "stream": false
    }
    

    Para enviar o seu pedido, escolha uma destas opções:

    curl

    Guarde o corpo do pedido num ficheiro com o nome request.json, e execute o seguinte comando:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

    PowerShell

    Guarde o corpo do pedido num ficheiro com o nome request.json, e execute o seguinte comando:

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

    Deve receber uma resposta JSON semelhante à seguinte.

    Disponibilidade regional e quotas do modelo de IA Mistral

    Para os modelos de IA da Mistral, aplica-se uma quota a cada região onde o modelo está disponível. A quota é especificada em consultas por minuto (QPM) e tokens por minuto (TPM). O TPM inclui tokens de entrada e de saída.

    Modelo Região Quotas Comprimento do contexto
    Mistral Medium 3
    us-central1
    • QPM: 90
    • TPM: 315 000
    128 000
    europe-west4
    • QPM: 90
    • TPM: 315 000
    128 000
    Mistral OCR (25.05)
    us-central1
    • QPM: 30
    • Páginas por pedido: 30 (1 página = 1 milhão de tokens de entrada e 1 milhão de tokens de saída)
    30 páginas
    europe-west4
    • QPM: 30
    • Páginas por pedido: 30 (1 página = 1 milhão de tokens de entrada e 1 milhão de tokens de saída)
    30 páginas
    Mistral Small 3.1 (25/03)
    us-central1
    • QPM: 60
    • TPM: 200 000
    128 000
    europe-west4
    • QPM: 60
    • TPM: 200 000
    128 000
    Mistral Large (24.11)
    us-central1
    • QPM: 60
    • TPM: 400 000
    128 000
    europe-west4
    • QPM: 60
    • TPM: 400 000
    128 000
    Codestral 2
    us-central1
    • QPM: 1100
    • TPM introduzido: 1 100 000
    • TPM de saída: 110 000
    128 000 tokens
    europe-west4
    • QPM: 1100
    • TPM introduzido: 1 100 000
    • TPM de saída: 110 000
    128 000 tokens
    Codestral (25.01)
    us-central1
    • QPM: 60
    • TPM: 400 000
    32 000
    europe-west4
    • QPM: 60
    • TPM: 400 000
    32 000

    Se quiser aumentar alguma das suas quotas para a IA generativa no Vertex AI, pode usar a Google Cloud consola para pedir um aumento da quota. Para saber mais sobre as quotas, consulte a vista geral das quotas do Google Cloud.