Dokumentation zur KI‑/ML-Orchestrierung in Cloud Run
Cloud Run ist eine vollständig verwaltete Plattform, mit der Sie Ihre containerisierten Anwendungen, einschließlich KI-/ML-Arbeitslasten, direkt auf der skalierbaren Infrastruktur von Google ausführen können. Die Infrastruktur wird für Sie verwaltet, sodass Sie sich auf das Schreiben von Code konzentrieren können, anstatt Zeit mit dem Betreiben, Konfigurieren und Skalieren Ihrer Cloud Run-Ressourcen zu verbringen. Die Funktionen von Cloud Run bieten Folgendes:
- Hardwarebeschleuniger: Zugriff auf GPUs für die Inferenz im großen Maßstab.
- Framework-Unterstützung: Integration mit den Frameworks für die Modellbereitstellung, die Sie bereits kennen und denen Sie vertrauen, z. B. Hugging Face, TGI und vLLM.
- Verwaltete Plattform: Nutzen Sie alle Vorteile einer verwalteten Plattform, um den gesamten KI-/ML-Lebenszyklus zu automatisieren, zu skalieren und die Sicherheit zu verbessern, ohne dabei die Flexibilität zu verlieren.
In unseren Tutorials und Best Practices erfahren Sie, wie Sie Ihre KI-/ML-Arbeitslasten mit Cloud Run optimieren können.
Proof of Concept mit einem Guthaben in Höhe von 300 $ starten
- Mit unseren neuesten Modellen und Tools für generative KI entwickeln
- Sie können mehr als 20 beliebte Produkte wie Compute Engine und KI-APIs kostenlos nutzen.
- Keine automatischen Abbuchungen, keine Verpflichtung.
Mehr als 20 Produkte immer kostenlos nutzen
Sie haben Zugriff auf mehr als 20 kostenlose Produkte für gängige Anwendungsfälle, darunter KI-APIs, VMs, Data Warehouses und mehr.
Dokumentationsressourcen
KI-Lösungen ausführen
- Konzept
- Konzept
- Anleitung
- Anleitung
- Anleitung
- Tutorial
- Konzept
- Konzept
Inferenz mit GPUs
- Tutorial
- Anleitung
- Tutorial
- Best Practice
- Tutorial
- Tutorial
- Best Practice
- Best Practice
Fehlerbehebung
- Konzept
- Anleitung
- Anleitung
- Anleitung
Weitere Informationen
KI-Inferenzanwendungen in Cloud Run mit NVIDIA-GPUs ausführen
NVIDIA L4-GPUs in Cloud Run für KI-Echtzeitinferenzen verwenden, einschließlich der Vorteile von schnellem Kaltstart und Scale-to-Zero für Large Language Models (LLMs).
Cloud Run: der schnellste Weg, um Ihre KI-Anwendungen in die Produktion zu bringen
Informationen zur Verwendung von Cloud Run für produktionsreife KI-Anwendungen In diesem Leitfaden werden Anwendungsfälle wie Traffic-Splitting für A/B-Tests von Prompts, RAG-Muster (Retrieval-Augmented Generation) und die Verbindung zu Vektorspeichern beschrieben.
KI-Bereitstellung leicht gemacht: Stellen Sie Ihre App über AI Studio oder MCP-kompatible KI-Agents in Cloud Run bereit.
Bereitstellung mit nur einem Klick von Google AI Studio in Cloud Run und auf dem Cloud Run MCP-Server (Model Context Protocol), um KI-Agents in IDEs oder Agent-SDKs zu aktivieren und Apps bereitzustellen.
Cloud Run mit GPU-Leistung optimieren: Eine neue Ära für KI-Arbeitslasten
NVIDIA L4-GPUs in Cloud Run einbinden, um LLMs kostengünstig bereitzustellen. In diesem Leitfaden wird der Fokus auf das Herunterskalieren auf null gelegt. Außerdem werden Bereitstellungsschritte für Modelle wie Gemma 2 mit Ollama beschrieben.
Verpacken Sie KI-Modelle immer noch in Containern? So gehen Sie stattdessen in Cloud Run vor:
Große Modelldateien mit Cloud Storage FUSE vom Container-Image entkoppeln Durch die Entkopplung werden die Build-Zeiten verkürzt, Updates vereinfacht und eine besser skalierbare Bereitstellungsarchitektur geschaffen.
Machine-Learning-Modelle mit Cog in Google Cloud verpacken und bereitstellen
Verwenden Sie das Cog-Framework, das für ML-Serving optimiert ist, um das Verpacken und Bereitstellen von Containern in Cloud Run zu vereinfachen.
ML-Modelle mit Cloud Run bereitstellen und überwachen – leichtgewichtig, skalierbar und kosteneffizient
Verwenden Sie Cloud Run für die einfache ML-Inferenz und erstellen Sie einen kostengünstigen Monitoring-Stack mit nativen GCP-Diensten wie Cloud Logging und BigQuery.
Generative KI-App von Google Cloud mit Cloud Run auf einer Website bereitstellen
Stellen Sie eine einfache Flask-Anwendung bereit, die die Vertex AI Generative AI API in einem skalierbaren Cloud Run-Dienst aufruft.
Gemma direkt aus AI Studio in Cloud Run bereitstellen
Verwenden Sie den Gemma-Python-Code aus AI Studio und stellen Sie ihn direkt in einer Cloud Run-Instanz bereit. Secret Manager wird für die sichere Verarbeitung von API-Schlüsseln verwendet.