Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Dokumentation zur KI‑/ML-Orchestrierung in Cloud Run

Produktdokumentation lesen

Cloud Run ist eine vollständig verwaltete Plattform, mit der Sie Ihre containerisierten Anwendungen, einschließlich KI-/ML-Arbeitslasten, direkt auf der skalierbaren Infrastruktur von Google ausführen können. Die Infrastruktur wird für Sie verwaltet, sodass Sie sich auf das Schreiben von Code konzentrieren können, anstatt Zeit mit dem Betrieb, der Konfiguration und der Skalierung Ihrer Cloud Run-Ressourcen zu verbringen. Die Funktionen von Cloud Run bieten Folgendes:

Hardwarebeschleuniger: Zugriff auf GPUs für die Inferenz im großen Maßstab.
Framework-Unterstützung: Integration in die Modellbereitstellungs-Frameworks, die Sie bereits kennen und denen Sie vertrauen, z. B. Hugging Face, TGI und vLLM.
Verwaltete Plattform: Nutzen Sie alle Vorteile einer verwalteten Plattform, um den gesamten KI-/ML-Lebenszyklus zu automatisieren, zu skalieren und die Sicherheit zu erhöhen, während Sie gleichzeitig flexibel bleiben.

In unseren Tutorials und Best Practices erfahren Sie, wie Sie Ihre KI-/ML-Arbeitslasten mit Cloud Run optimieren können.

Jetzt kostenlos starten

Proof of Concept mit einem Guthaben in Höhe von 300 $ starten

Nutzen Sie unsere neuesten generativen KI-Modelle und Tools für die Entwicklung.
Sie können mehr als 20 beliebte Produkte wie Compute Engine und KIAI APIs kostenlos nutzen.
Keine automatischen Abbuchungen, keine Verpflichtung.

Angebote für kostenlose Produkte ansehen

Mehr als 20 Produkte immer kostenlos nutzen.

Sie haben Zugriff auf mehr als 20 kostenlose Produkte für gängige Anwendungsfälle, darunter KI-APIs, VMs, Data Warehouses und mehr.

Dokumentationsressourcen

Finden Sie Kurzanleitungen und Leitfäden, prüfen Sie wichtige Referenzen und erhalten Sie Hilfe bei häufigen Problemen.

Entdecken Sie Schulungen, Anwendungsfälle, Referenzarchitekturen und Codebeispiele mit Details zur Verwendung und Verbindung von Google Cloud -Diensten.

Anwendungsfall

KI-generierten Code sicher in Cloud Run-Sandboxes ausführen

Sie können nicht vertrauenswürdigen, KI-generierten Code sicher ausführen, indem Sie Cloud Run-Sandboxes bereitstellen, in denen Ausführungsumgebungen in isolierten gVisor-basierten Containern ausgeführt werden.

Sicherheit Sandboxes KI-Codeausführung

Anwendungsfall

Leitfaden zu KI-Kaltstarts auf

Optimieren Sie die Kaltstartlatenz für die containerisierte LLM-Inferenz auf mit serverlosen Konfigurationseinstellungen und der Optimierung des Architekturdesignmusters.

Kaltstarts Latenz Optimierung LLMs

Anwendungsfall

KI-Agents mit der MCP-Autorisierung schützen

Konfigurieren und erzwingen Sie Autorisierungsregeln für das Model Context Protocol (MCP), um die Remote-Tool-Verbindung für KI-Agents zu sichern, die auf bereitgestellt werden.

Sicherheit MCP Agents

Anwendungsfall

AI Studio ermöglicht Full-Stack-Vibe-Coding mit , Firebase und – ohne Kreditkarte

Full-Stack-Anwendungen direkt aus dem Build-Modus von Google AI Studio in bereitstellen – mit integrierter Firebase- und Backup-Unterstützung.

AI Studio Firebase Vibe-Coding

Anwendungsfall

KI-Inferenzanwendungen auf mit NVIDIA-GPUs ausführen

Verwenden Sie NVIDIA L4-GPUs auf für KI-Echtzeitinferenzen, einschließlich der Vorteile von schnellem Kaltstart und Skalierung auf null für Large Language Models (LLMs).

GPUs LLMs

Anwendungsfall

: der schnellste Weg, Ihre KI-Anwendungen in die Produktion zu bringen

für produktionsreife KI-Anwendungen verwenden In diesem Leitfaden werden Anwendungsfälle wie das Aufteilen von Traffic für A/B-Tests von Prompts, RAG-Muster (Retrieval-Augmented Generation) und die Verbindung zu Vektorspeichern beschrieben.

KI-Anwendungen Traffic-Aufteilung für A/B-Tests RAG-Muster Vektorspeicher Verbindung zu Vektorspeichern

Anwendungsfall

KI-Bereitstellung leicht gemacht: Stellen Sie Ihre App in aus AI Studio oder MCP-kompatiblen KI-Agents bereit.

Bereitstellung mit nur einem Klick von Google AI Studio in und MCP-Server (Model Context Protocol), um KI-Agenten in IDEs oder Agent-SDKs zu aktivieren und Apps bereitzustellen.

MCP-Server Bereitstellungen

Anwendungsfall

mit GPU-Leistung: Eine neue Ära für KI-Arbeitslasten

NVIDIA L4-GPUs in integrieren, um LLMs kostengünstig bereitzustellen. In diesem Leitfaden wird der Schwerpunkt auf die Skalierung auf null gelegt. Außerdem werden Bereitstellungsschritte für Modelle wie 2 mit Ollama beschrieben.

LLMs GPU Ollama Kostenoptimierung

Anwendungsfall

Verpacken Sie KI‑Modelle immer noch in Containern? Gehen Sie stattdessen so vor:

Entkoppeln Sie große Modelldateien mithilfe von vom Container-Image. Durch die Entkopplung werden die Build-Zeiten verkürzt, Updates vereinfacht und eine besser skalierbare Bereitstellungsarchitektur geschaffen.

Modellverpackung Best Practices Große Modelle

Anwendungsfall

Modelle für maschinelles Lernen mit Cog verpacken und bereitstellen

Verwenden Sie das Cog-Framework, das für ML-Serving optimiert ist, um das Verpacken und Bereitstellen von Containern in zu vereinfachen.

Cog Modellverpackung Bereitstellung Anleitung

Anwendungsfall

ML-Modelle mit bereitstellen und überwachen – schlank, skalierbar und kostengünstig

Verwenden Sie für einfache ML-Inferenz und erstellen Sie einen kostengünstigen Monitoring-Stack mit nativen -Diensten wie und .

Monitoring MLOps Kosteneffizienz Inferenz

Dokumentation zur KI‑/ML-Orchestrierung in Cloud Run

Proof of Concept mit einem Guthaben in Höhe von 300 $ starten

Mehr als 20 Produkte immer kostenlos nutzen.

KI-Lösungen ausführen

Inferenz mit GPUs

Fehlerbehebung

Ähnliche Videos