Dokumentation zur KI‑/ML-Orchestrierung in Cloud Run

Cloud Run ist eine vollständig verwaltete Plattform, mit der Sie Ihre containerisierten Anwendungen, einschließlich KI-/ML-Arbeitslasten, direkt auf der skalierbaren Infrastruktur von Google ausführen können. Die Infrastruktur wird für Sie verwaltet, sodass Sie sich auf das Schreiben von Code konzentrieren können, anstatt Zeit mit dem Betreiben, Konfigurieren und Skalieren Ihrer Cloud Run-Ressourcen zu verbringen. Die Funktionen von Cloud Run bieten Folgendes:

  • Hardwarebeschleuniger: Zugriff auf GPUs für die Inferenz im großen Maßstab.
  • Framework-Unterstützung: Integration mit den Frameworks für die Modellbereitstellung, die Sie bereits kennen und denen Sie vertrauen, z. B. Hugging Face, TGI und vLLM.
  • Verwaltete Plattform: Nutzen Sie alle Vorteile einer verwalteten Plattform, um den gesamten KI-/ML-Lebenszyklus zu automatisieren, zu skalieren und die Sicherheit zu verbessern, ohne dabei die Flexibilität zu verlieren.

In unseren Tutorials und Best Practices erfahren Sie, wie Sie Ihre KI-/ML-Arbeitslasten mit Cloud Run optimieren können.

  • Mit unseren neuesten Modellen und Tools für generative KI entwickeln
  • Sie können mehr als 20 beliebte Produkte wie Compute Engine und KI-APIs kostenlos nutzen.
  • Keine automatischen Abbuchungen, keine Verpflichtung.

Mehr als 20 Produkte immer kostenlos nutzen

Sie haben Zugriff auf mehr als 20 kostenlose Produkte für gängige Anwendungsfälle, darunter KI-APIs, VMs, Data Warehouses und mehr.

Entdecken Sie Schulungen, Anwendungsfälle, Referenzarchitekturen und Codebeispiele mit Details zur Verwendung und Verbindung von Google Cloud -Diensten.
Anwendungsfall
Anwendungsfälle

NVIDIA L4-GPUs in Cloud Run für KI-Echtzeitinferenzen verwenden, einschließlich der Vorteile von schnellem Kaltstart und Scale-to-Zero für Large Language Models (LLMs).

GPUs LLMs

Anwendungsfall
Anwendungsfälle

Informationen zur Verwendung von Cloud Run für produktionsreife KI-Anwendungen In diesem Leitfaden werden Anwendungsfälle wie Traffic-Splitting für A/B-Tests von Prompts, RAG-Muster (Retrieval-Augmented Generation) und die Verbindung zu Vektorspeichern beschrieben.

KI-Anwendungen Traffic-Aufteilung für A/B-Tests RAG-Muster Vektorspeicher Verbindung zu Vektorspeichern

Anwendungsfall
Anwendungsfälle

Bereitstellung mit nur einem Klick von Google AI Studio in Cloud Run und auf dem Cloud Run MCP-Server (Model Context Protocol), um KI-Agents in IDEs oder Agent-SDKs zu aktivieren und Apps bereitzustellen.

MCP-Server Bereitstellungen Cloud Run

Anwendungsfall
Anwendungsfälle

NVIDIA L4-GPUs in Cloud Run einbinden, um LLMs kostengünstig bereitzustellen. In diesem Leitfaden wird der Fokus auf das Herunterskalieren auf null gelegt. Außerdem werden Bereitstellungsschritte für Modelle wie Gemma 2 mit Ollama beschrieben.

LLMs GPU Ollama Kostenoptimierung

Anwendungsfall
Anwendungsfälle

Große Modelldateien mit Cloud Storage FUSE vom Container-Image entkoppeln Durch die Entkopplung werden die Build-Zeiten verkürzt, Updates vereinfacht und eine besser skalierbare Bereitstellungsarchitektur geschaffen.

Modellverpackung Cloud Storage FUSE Best Practices Große Modelle

Anwendungsfall
Anwendungsfälle

Verwenden Sie das Cog-Framework, das für ML-Serving optimiert ist, um das Verpacken und Bereitstellen von Containern in Cloud Run zu vereinfachen.

Cog Modellverpackung Bereitstellung Anleitung

Anwendungsfall
Anwendungsfälle

Verwenden Sie Cloud Run für die einfache ML-Inferenz und erstellen Sie einen kostengünstigen Monitoring-Stack mit nativen GCP-Diensten wie Cloud Logging und BigQuery.

Monitoring MLOps Kosteneffizienz Inferenz

Anwendungsfall
Anwendungsfälle

Stellen Sie eine einfache Flask-Anwendung bereit, die die Vertex AI Generative AI API in einem skalierbaren Cloud Run-Dienst aufruft.

Generative AI Vertex AI Flask Bereitstellung

Anwendungsfall
Anwendungsfälle

Verwenden Sie den Gemma-Python-Code aus AI Studio und stellen Sie ihn direkt in einer Cloud Run-Instanz bereit. Secret Manager wird für die sichere Verarbeitung von API-Schlüsseln verwendet.

AI Studio Gemma Bereitstellung Anleitung

Ähnliche Videos