Dokumentation zur KI‑/ML-Orchestrierung in Cloud Run
Cloud Run ist eine vollständig verwaltete Plattform, mit der Sie Ihre containerisierten Anwendungen, einschließlich KI-/ML-Arbeitslasten, direkt auf der skalierbaren Infrastruktur von Google ausführen können. Die Infrastruktur wird für Sie verwaltet, sodass Sie sich auf das Schreiben von Code konzentrieren können, anstatt Zeit mit dem Betrieb, der Konfiguration und der Skalierung Ihrer Cloud Run-Ressourcen zu verbringen. Die Funktionen von Cloud Run bieten Folgendes:
- Hardwarebeschleuniger: Zugriff auf GPUs für die Inferenz im großen Maßstab.
- Framework-Unterstützung: Integration in die Modellbereitstellungs-Frameworks, die Sie bereits kennen und denen Sie vertrauen, z. B. Hugging Face, TGI und vLLM.
- Verwaltete Plattform: Profitieren Sie von allen Vorteilen einer verwalteten Plattform, um den gesamten KI-/ML-Lebenszyklus zu automatisieren, zu skalieren und die Sicherheit zu erhöhen, ohne dabei an Flexibilität zu verlieren.
In unseren Tutorials und Best Practices erfahren Sie, wie Sie Ihre KI-/ML-Arbeitslasten mit Cloud Run optimieren können.
Proof of Concept mit einem Guthaben in Höhe von 300 $ starten
- Nutzen Sie unsere neuesten generativen KI-Modelle und Tools für die Entwicklung.
- Sie können mehr als 20 beliebte Produkte wie Compute Engine und KIAI APIs kostenlos nutzen.
- Keine automatischen Abbuchungen, keine Verpflichtung.
Mehr als 20 Produkte immer kostenlos nutzen.
Sie haben Zugriff auf mehr als 20 kostenlose Produkte für gängige Anwendungsfälle, darunter KI-APIs, VMs, Data Warehouses und mehr.
Dokumentationsressourcen
KI-Lösungen ausführen
- Konzept
- Konzept
- Anleitung
- Anleitung
- Anleitung
- Tutorial
- Konzept
- Konzept
- Tutorial
- Tutorial
Inferenz mit GPUs
- Tutorial
- Anleitung
- Tutorial
- Best Practice
- Tutorial
- Tutorial
- Best Practice
- Best Practice
Fehlerbehebung
- Konzept
- Anleitung
- Anleitung
- Anleitung
Weitere Informationen
Leitfaden für KI-Kaltstarts auf
Optimieren Sie die Kaltstartlatenz für die containerisierte LLM-Inferenz auf mit serverlosen Konfigurationseinstellungen und der Optimierung des Architekturdesignmusters.
KI-Agents mit der MCP-Autorisierung schützen
Konfigurieren und erzwingen Sie Autorisierungsregeln für das Model Context Protocol (MCP), um die Remote-Tool-Verbindung für KI-Agents zu sichern, die auf bereitgestellt werden.
Mit AI Studio können Sie Full-Stack-Vibe-Code mit , Firebase und erstellen – ganz ohne Kreditkarte
Full-Stack-Anwendungen direkt aus dem Build-Modus von Google AI Studio in bereitstellen – mit integrierter Firebase- und Backup-Unterstützung.
KI-Inferenzanwendungen auf mit NVIDIA-GPUs ausführen
Verwenden Sie NVIDIA L4-GPUs auf für KI-Echtzeitinferenzen, einschließlich der Vorteile von schnellem Kaltstart und Skalierung auf null für Large Language Models (LLMs).
: der schnellste Weg, Ihre KI-Anwendungen in die Produktion zu bringen
für produktionsreife KI-Anwendungen verwenden In diesem Leitfaden werden Anwendungsfälle wie das Aufteilen von Traffic für A/B-Tests von Prompts, RAG-Muster (Retrieval-Augmented Generation) und die Verbindung zu Vektorspeichern beschrieben.
KI-Bereitstellung leicht gemacht: Stellen Sie Ihre App in aus AI Studio oder MCP-kompatiblen KI-Agents bereit.
Bereitstellung mit nur einem Klick von Google AI Studio in und MCP-Server (Model Context Protocol) zur Aktivierung von KI-Agenten in IDEs oder Agent-SDKs und zur Bereitstellung von Apps.
mit GPU-Leistung: Eine neue Ära für KI-Arbeitslasten
NVIDIA L4-GPUs in integrieren, um LLMs kostengünstig bereitzustellen. In diesem Leitfaden wird der Schwerpunkt auf die Skalierung auf null gelegt. Außerdem werden Bereitstellungsschritte für Modelle wie 2 mit Ollama beschrieben.
Verpacken Sie KI‑Modelle immer noch in Containern? Gehen Sie stattdessen so vor:
Entkoppeln Sie große Modelldateien mithilfe von vom Container-Image. Durch die Entkopplung werden die Build-Zeiten verkürzt, Updates vereinfacht und eine besser skalierbare Bereitstellungsarchitektur geschaffen.
Modelle für maschinelles Lernen mit Cog verpacken und bereitstellen
Verwenden Sie das Cog-Framework, das für ML-Serving optimiert ist, um das Verpacken und Bereitstellen von Containern in zu vereinfachen.
ML-Modelle mit bereitstellen und überwachen – schlank, skalierbar und kosteneffizient
Verwenden Sie für einfache ML-Inferenz und erstellen Sie einen kostengünstigen Monitoring-Stack mit nativen -Diensten wie und .