Saiba mais sobre pesquisa aplicada e engenharia na IA do Google Cloud
Artigo em destaque
Como reduzir a diferença de eficiência na veiculação de LLMs com a co-organização de modelos na Vertex AI
No cenário em evolução dos modelos de linguagem grandes (LLMs), o padrão de implantação "um modelo por máquina" está se tornando um gargalo significativo para a eficiência de custos de disponibilização de LLMs em empresas. A co-hospedagem de modelos resolve essa lacuna de eficiência permitindo que várias instâncias de modelo compartilhem a mesma máquina virtual e os mesmos recursos de GPU. Este blog técnico detalha o processo da engenharia da Vertex AI para trazer a hospedagem conjunta de modelos a um serviço de nuvem pronto para produção.