Esta página foi traduzida pela API Cloud Translation.

Modelos da Mistral AI

Os modelos da Mistral AI na Vertex AI oferecem modelos totalmente gerenciados e sem servidor como APIs. Para usar um modelo do Mistral AI na Vertex AI, envie uma solicitação diretamente ao endpoint de API Vertex AI. Devido ao Os modelos de IA do Mistral usam uma API gerenciada. Não é necessário provisionar nem gerenciar a infraestrutura.

É possível transmitir as respostas para reduzir a percepção de latência do usuário final. Uma resposta transmitida usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.

Você paga pelos modelos de IA do Mistral conforme o uso (pagamento por utilização). Para pagamento por utilização, consulte os preços do modelo de IA da Mistral na página de preços da Vertex AI.

page.

Modelos da Mistral AI disponíveis

Os modelos a seguir estão disponíveis na Mistral AI para uso na Vertex AI. Para acessar um modelo da Mistral AI, acesse o card de modelo do Model Garden.

Mistral Medium 3

O Mistral Medium 3 é um modelo versátil projetado para uma ampla variedade de tarefas, incluindo programação, raciocínio matemático, compreensão de documentos longos, resumo e diálogo. Ele se destaca em tarefas complexas que exigem habilidades avançadas de raciocínio, compreensão visual ou um alto nível de especialização (por exemplo, escrita criativa, fluxos de trabalho de agentes, geração de código).

Ele tem recursos multimodais, o que permite processar entradas visuais, e aceita dezenas de idiomas, incluindo mais de 80 linguagens de programação. Além disso, ele oferece chamada de função e fluxos de trabalho de agente.

O Mistral Medium 3 é otimizado para inferência de nó único, principalmente para aplicativos de contexto longo. O tamanho dele permite alcançar alta capacidade em um único nó.

Acessar o card de modelo do Mistral Medium 3

OCR do Mistral (25/05)

O Mistral OCR (25.05) é uma API de reconhecimento óptico de caracteres para compreensão de documentos. O OCR do Mistral (25.05) é excelente para entender elementos complexos de documentos, incluindo imagens intercaladas, expressões matemáticas, tabelas e layouts avançados, como a formatação LaTeX. O modelo permite uma compreensão mais profunda de documentos avançados, como artigos científicos com gráficos, equações e figuras.

O OCR do Mistral (25.05) é um modelo ideal para usar em combinação com um sistema RAG que recebe documentos multimodais (como slides ou PDFs complexos) como entrada.

Você pode combinar o OCR da Mistral (25.05) com outros modelos da Mistral para reformatar os resultados. Essa combinação garante que o conteúdo extraído não seja apenas preciso, mas também apresentado de maneira estruturada e coerente, tornando-o adequado para várias aplicações e análises downstream.

Acessar o card de modelo do Mistral OCR (25.05)

Mistral Small 3.1 (25/03)

O Mistral Small 3.1 (25/03) tem recursos multimodais e um contexto de até 128.000. O modelo pode processar e entender entradas visuais e documentos longos, ampliando ainda mais o alcance de aplicações em comparação com o modelo anterior Mistral AI Small. O Mistral Small 3.1 (25/03) é um modelo versátil projetado para várias tarefas, como programação, raciocínio matemático, compreensão de documentos e diálogo. O Mistral Small 3.1 (25/03) foi projetado para aplicativos de baixa latência e oferece a melhor eficiência da categoria em comparação com modelos da mesma qualidade.

O Mistral Small 3.1 (25/03) passou por um processo completo de pós-treinamento para alinhar o modelo às preferências e necessidades humanas, tornando-o utilizável imediatamente para aplicativos que exigem chat ou instruções precisas.

Acessar o card do modelo Mistral Small 3.1 (25.03)

Codestral 2

O Codestral 2 é o modelo especializado em geração de código da Mistral, criado especificamente para preenchimento de lacunas (FIM) de alta precisão. Ela ajuda os desenvolvedores a escrever e interagir com código usando uma instrução compartilhada e um endpoint de API de conclusão. Como ele domina o código e também pode conversar em vários idiomas, ele pode ser usado para projetar aplicativos de IA avançados para desenvolvedores de software.

A versão mais recente do Codestral 2 oferece upgrades mensuráveis em relação à versão anterior do Codestral (25.01):

Aumento de 30% nas conclusões aceitas.
10% mais código retido após a sugestão.
50% menos gerações descontroladas, o que aumenta a confiança em edições mais longas.

Melhoria na performance em comparativos de mercado acadêmicos para conclusão de FIM de contexto curto e longo.

Geração de código: preenchimento, sugestões e tradução.
Entendimento e documentação de código: resumo e explicação de código.
Qualidade do código: revisão, refatoração, correção de bugs e geração de casos de teste.
Preenchimento de código no meio: os usuários podem definir o ponto de partida do código usando um comando e o ponto final usando um sufixo opcional e uma parada opcional. O modelo Codestral vai gerar o código que se encaixa entre eles, o que o torna ideal para tarefas que exigem a geração de um trecho de código específico.

Acessar o card do modelo Codestral 2

Usar modelos da Mistral AI

É possível usar comandos curl para enviar solicitações ao endpoint da Vertex AI usando os seguintes nomes de modelos:

Para o Mistral Medium 3, use mistral-medium-3
Para o OCR do Mistral (25.05), use mistral-ocr-2505.
Para o Mistral Small 3.1 (25/03), use mistral-small-2503
Para o Codestral 2, use codestral-2

Para mais informações sobre como usar o SDK da Mistral AI, consulte a documentação da Mistral AI Vertex AI.

Antes de começar

Para usar os modelos do Mistral AI com a Vertex AI, siga as etapas abaixo. A API Vertex AI (aiplatform.googleapis.com) precisa estar ativada para usar a Vertex AI. Se você já tiver um projeto existente com a API do Vertex AI ativada, poderá usar esse projeto em vez de criar um novo.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Acesse um dos seguintes cards de modelo do Model Garden e clique em Ativar:

Fazer uma chamada de streaming para um modelo da Mistral AI

O exemplo a seguir faz uma chamada de streaming para um modelo de IA do Mistral.

REST

Depois de configurou seu ambiente use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher endpoint do modelo.

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

LOCATION: uma região compatível com modelos da Mistral AI.
MODEL: o nome do modelo que você quer usar. No corpo da solicitação, exclua o número da versão do modelo @.
ROLE: o papel associado a uma mensagem. É possível especificar user ou assistant. A primeira mensagem precisa usar o papel user. Os modelos funcionam com voltas alternadas de user e assistant. Se a mensagem final usar o papel assistant, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo.
STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como true para transmitir a resposta e false para retornar a resposta de uma só vez.
CONTENT: o conteúdo, como texto, da mensagem user ou assistant.
MAX_OUTPUT_TOKENS: número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente 3,5 caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.
Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.

Método HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

Corpo JSON da solicitação:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

Para enviar a solicitação, escolha uma destas opções:

curl

Observação: o comando a seguir pressupõe que você tenha feito login na gcloud CLI com sua conta de usuário executando gcloud init ou gcloud auth login ou usando o Cloud Shell, que faz login automaticamente na gcloud CLI. Para saber qual é a conta ativa no momento, execute o comando gcloud auth list.

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando abaixo:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

PowerShell

Observação: o comando a seguir pressupõe que você fez login na gcloud CLI com sua conta de usuário executando gcloud init ou gcloud auth login. Para saber qual é a conta ativa no momento, execute o comando gcloud auth list.

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Você receberá uma resposta JSON semelhante a seguinte.

Resposta

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}
...

Fazer uma chamada unária para um modelo de IA do Mistral

O exemplo a seguir faz uma chamada unária para um modelo de IA do Mistral.

REST

Depois de configurou seu ambiente use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher endpoint do modelo.

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

LOCATION: uma região compatível com modelos da Mistral AI.
MODEL: o nome do modelo que você quer usar. No corpo da solicitação, exclua o número da versão do modelo @.
ROLE: o papel associado a uma mensagem. É possível especificar user ou assistant. A primeira mensagem precisa usar o papel user. Os modelos funcionam com voltas alternadas de user e assistant. Se a mensagem final usar o papel assistant, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo.
STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como true para transmitir a resposta e false para retornar a resposta de uma só vez.
CONTENT: o conteúdo, como texto, da mensagem user ou assistant.
MAX_OUTPUT_TOKENS: número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente 3,5 caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.
Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.

Método HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

Corpo JSON da solicitação:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

Para enviar a solicitação, escolha uma destas opções:

curl

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando abaixo:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

Você receberá uma resposta JSON semelhante a seguinte.

Resposta

{
    "id": "e71d13ffb77344a08e34e0a22ea84458",
    "object": "chat.completion",
    "created": 1720806624,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "OUTPUT",
                "tool_calls": null
            },
            "finish_reason": "stop",
            "logprobs": null
        }
    ],
    "usage": {
        "prompt_tokens": 17,
        "total_tokens": 295,
        "completion_tokens": 278
    }
}

Disponibilidade e cotas das regiões do modelo de IA da Mistral

Para modelos de IA da Mistral, uma cota se aplica a cada região onde o modelo está disponível. A cota é especificada em consultas por minuto (QPM) e tokens por minuto (TPM). O TPM inclui tokens de entrada e saída.

Modelo	Região	Cotas	Tamanho do contexto
Mistral Medium 3
	`us-central1`	QPM: 90 TPM: 315.000	128.000
	`europe-west4`	QPM: 90 TPM: 315.000	128.000
OCR do Mistral (25/05)
	`us-central1`	QPM: 30 Páginas por solicitação: 30 (1 página = 1 milhão de tokens de entrada e 1 milhão de tokens de saída)	30 páginas
	`europe-west4`	QPM: 30 Páginas por solicitação: 30 (1 página = 1 milhão de tokens de entrada e 1 milhão de tokens de saída)	30 páginas
Mistral Small 3.1 (25/03)
	`us-central1`	QPM: 60 TPM: 200.000	128.000
	`europe-west4`	QPM: 60 TPM: 200.000	128.000
Codestral 2
	`us-central1`	QPM: 1.100 Entrada de TPM: 1.100.000 Saída de TPM: 110.000	128.000 tokens
	`europe-west4`	QPM: 1.100 Entrada de TPM: 1.100.000 Saída de TPM: 110.000	128.000 tokens

Para aumentar alguma das suas cotas de IA generativa na Vertex AI, use o console Google Cloud para solicitar um aumento de cota. Para saber mais sobre cotas, consulte a Visão geral das cotas do Cloud.

Modelos da Mistral AI Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Modelos da Mistral AI disponíveis

Mistral Medium 3

OCR do Mistral (25/05)

Mistral Small 3.1 (25/03)

Codestral 2

Usar modelos da Mistral AI

Antes de começar

Fazer uma chamada de streaming para um modelo da Mistral AI

REST

curl

PowerShell

Resposta

Fazer uma chamada unária para um modelo de IA do Mistral

REST

curl

PowerShell

Resposta

Disponibilidade e cotas das regiões do modelo de IA da Mistral

Modelos da Mistral AI