AI Hypercomputer è un sistema di supercomputing ottimizzato per supportare i workload di intelligenza artificiale (AI) e machine learning (ML). Si tratta di un sistema integrato di hardware ottimizzato per le prestazioni, software open source, framework ML e modelli di consumo flessibili.
Il sistema AI Hypercomputer incorpora best practice e progettazione a livello di sistema per aumentare l'efficienza e la produttività durante il pre-addestramento, l'ottimizzazione e la distribuzione dell'AI.
Architettura di sistema
AI Hypercomputer è composto dai seguenti livelli:
- Infrastruttura ottimizzata per il rendimento: contiene risorse di accelerazione, networking e archiviazione che forniscono le funzionalità di computing per supportare i tuoi carichi di lavoro.
- Software open source: versioni ottimizzate dei framework di machine learning più diffusi, come TensorFlow, PyTorch e JAX. Google fornisce sistemi operativi (OS) configurati con software essenziali per sfruttare le risorse di calcolo di cui è stato eseguito il provisioning nei cluster. Per eseguire il deployment e gestire un numero elevato di acceleratori come singola unità, puoi utilizzare Cluster Director, Google Kubernetes Engine o Slurm. In alternativa, puoi eseguire il deployment manuale delle risorse utilizzando le API Compute Engine.
- Opzioni di consumo: più opzioni per il provisioning dei cluster che ottimizzano i costi e la disponibilità dell'hardware in base alle tue esigenze specifiche e ai pattern di workload.
Vantaggi
AI Hypercomputer offre i seguenti vantaggi:
- Rendimento e goodput elevati: le metriche Goodput misurano la produttività ML. AI Hypercomputer ottimizza i livelli di pianificazione, runtime e orchestrazione.
- Inizia rapidamente: AI Hypercomputer fornisce strumenti, come Cluster Director e blueprint, che ti consentono di eseguire il deployment in modo affidabile e ripetuto di un numero elevato di risorse ottimizzate per l'acceleratore configurate per supportare i tuoi workload di AI e ML più impegnativi.
Casi d'uso
AI Hypercomputer è stato progettato per soddisfare le esigenze dei seguenti casi d'uso:
Caso d'uso |
Carichi di lavoro di esempio |
|---|---|
Workload di AI e ML su larga scala |
|
Computing ad alte prestazioni (HPC) |
|
Passaggi successivi
- Esamina l'infrastruttura ottimizzata per il rendimento.
- Esamina la panoramica del networking GPU.
- Esamina i modelli di consumo.
- Scopri di più sulla gestione dei cluster.