Informationen zu angewandter Forschung und Entwicklung im Bereich Cloud AI
Empfohlener Artikel
Effizienzlücke bei der LLM-Bereitstellung durch gemeinsames Hosten von Modellen mit Vertex AI schließen
In der sich ständig weiterentwickelnden Landschaft von Large Language Models (LLMs) wird das Bereitstellungsmuster „ein Modell pro Maschine“ zu einem erheblichen Engpass für die Kosteneffizienz der LLM-Bereitstellung in Unternehmen. Mit dem Co-Hosting von Modellen wird diese Effizienzlücke geschlossen, da mehrere Modellinstanzen dieselbe VM- und GPU-Ressourcen nutzen können. In diesem technischen Blog wird der Prozess von Vertex AI Engineering beschrieben, um das gemeinsame Hosten von Modellen in einem produktionsreifen Clouddienst zu ermöglichen.