O Hipercomputador de IA é um sistema de supercomputação otimizado para oferecer suporte às suas cargas de trabalho de inteligência artificial (IA) e machine learning (ML). É um sistema integrado de hardware otimizado para desempenho, software aberto, frameworks de ML e modelos de consumo flexíveis.
O sistema Hipercomputador de IA incorpora práticas recomendadas e design no nível do sistema para aumentar a eficiência e a produtividade em pré-treinamento, ajuste e disponibilização de IA.
Arquitetura do sistema
O Hipercomputador de IA é composto pelas seguintes camadas:
- Infraestrutura otimizada para performance: contém aceleradores, recursos de rede e armazenamento que oferecem as capacidades de computação para dar suporte às suas cargas de trabalho.
- Software aberto: versões otimizadas de frameworks de machine learning conhecidos, como TensorFlow, PyTorch e JAX. O Google oferece sistemas operacionais (SO) configurados com software essencial para aproveitar os recursos de computação provisionados nos seus clusters. Para implantar e gerenciar diversos aceleradores como uma única unidade, você pode usar o Cluster Director, o Google Kubernetes Engine ou o Slurm. Como alternativa, é possível implantar manualmente os recursos usando as APIs do Compute Engine.
- Opções de consumo: várias opções para provisionar clusters que otimizam custos e disponibilidade de hardware com base nas suas necessidades específicas e padrões de carga de trabalho.
Vantagens
O Hipercomputador de IA tem os seguintes benefícios:
- Alto desempenho e goodput: as métricas de Goodput medem a produtividade de ML. O Hipercomputador de IA otimiza as camadas de programação, ambiente de execução e orquestração.
- Comece a usar rapidamente: o Hipercomputador de IA oferece ferramentas, como o Cluster Director e blueprints, que permitem implantar de maneira confiável e repetida um grande número de recursos otimizados para aceleradores configurados para oferecer suporte às cargas de trabalho de IA e ML mais exigentes.
Casos de uso
O Hipercomputador de IA foi projetado para atender às necessidades dos seguintes casos de uso:
Caso de uso |
Exemplo de cargas de trabalho |
|---|---|
Cargas de trabalho de IA e ML em grande escala |
|
Computação de alto desempenho (HPC) |
|
A seguir
- Confira a infraestrutura otimizada para desempenho.
- Consulte a visão geral da rede de GPU.
- Analise os modelos de consumo.
- Saiba mais sobre o gerenciamento de clusters.