Scopri di più su ricerca applicata e ingegneria su Cloud AI
Articolo in primo piano
Ridurre il divario di efficienza nel servizio LLM con l'hosting congiunto di modelli con Vertex AI
Nel panorama in continua evoluzione dei modelli linguistici di grandi dimensioni (LLM), il pattern di deployment "un modello per macchina" sta diventando un collo di bottiglia significativo per l'efficienza dei costi di serving degli LLM nelle aziende. Il co-hosting dei modelli colma questa lacuna di efficienza consentendo a più istanze di modelli di condividere le stesse risorse di macchine virtuali e GPU. Questo blog tecnico descrive in dettaglio la procedura di Vertex AI Engineering per portare il co-hosting dei modelli a un servizio cloud pronto per la produzione.