Dokumentation zur KI‑/ML-Orchestrierung in Cloud Run

Cloud Run ist eine vollständig verwaltete Plattform, mit der Sie Ihre containerisierten Anwendungen, einschließlich KI-/ML-Arbeitslasten, direkt auf der skalierbaren Infrastruktur von Google ausführen können. Die Infrastruktur wird für Sie verwaltet, sodass Sie sich auf das Schreiben von Code konzentrieren können, anstatt Zeit mit dem Betrieb, der Konfiguration und der Skalierung Ihrer Cloud Run-Ressourcen zu verbringen. Die Funktionen von Cloud Run bieten Folgendes:

  • Hardwarebeschleuniger: Zugriff auf GPUs für die Inferenz im großen Maßstab.
  • Framework-Unterstützung: Integration in die Modellbereitstellungs-Frameworks, die Sie bereits kennen und denen Sie vertrauen, z. B. Hugging Face, TGI und vLLM.
  • Verwaltete Plattform: Profitieren Sie von allen Vorteilen einer verwalteten Plattform, um den gesamten KI-/ML-Lebenszyklus zu automatisieren, zu skalieren und die Sicherheit zu erhöhen, ohne dabei an Flexibilität zu verlieren.

In unseren Tutorials und Best Practices erfahren Sie, wie Sie Ihre KI-/ML-Arbeitslasten mit Cloud Run optimieren können.

  • Nutzen Sie unsere neuesten generativen KI-Modelle und Tools für die Entwicklung.
  • Sie können mehr als 20 beliebte Produkte wie Compute Engine und KIAI APIs kostenlos nutzen.
  • Keine automatischen Abbuchungen, keine Verpflichtung.

Mehr als 20 Produkte immer kostenlos nutzen.

Sie haben Zugriff auf mehr als 20 kostenlose Produkte für gängige Anwendungsfälle, darunter KI-APIs, VMs, Data Warehouses und mehr.

Entdecken Sie Schulungen, Anwendungsfälle, Referenzarchitekturen und Codebeispiele mit Details zur Verwendung und Verbindung von Google Cloud -Diensten.
Anwendungsfall
Anwendungsfälle

Optimieren Sie die Kaltstartlatenz für die containerisierte LLM-Inferenz auf mit serverlosen Konfigurationseinstellungen und der Optimierung des Architekturdesignmusters.

Kaltstarts Latenz Optimierung LLMs

Anwendungsfall
Anwendungsfälle

Konfigurieren und erzwingen Sie Autorisierungsregeln für das Model Context Protocol (MCP), um die Remote-Tool-Verbindung für KI-Agents zu sichern, die auf bereitgestellt werden.

Sicherheit MCP Agents

Anwendungsfall
Anwendungsfälle

Full-Stack-Anwendungen direkt aus dem Build-Modus von Google AI Studio in bereitstellen – mit integrierter Firebase- und Backup-Unterstützung.

AI Studio Firebase Vibe-Coding

Anwendungsfall
Anwendungsfälle

Verwenden Sie NVIDIA L4-GPUs auf für KI-Echtzeitinferenzen, einschließlich der Vorteile von schnellem Kaltstart und Skalierung auf null für Large Language Models (LLMs).

GPUs LLMs

Anwendungsfall
Anwendungsfälle

für produktionsreife KI-Anwendungen verwenden In diesem Leitfaden werden Anwendungsfälle wie das Aufteilen von Traffic für A/B-Tests von Prompts, RAG-Muster (Retrieval-Augmented Generation) und die Verbindung zu Vektorspeichern beschrieben.

KI-Anwendungen Traffic-Aufteilung für A/B-Tests RAG-Muster Vektorspeicher Verbindung zu Vektorspeichern

Anwendungsfall
Anwendungsfälle

Bereitstellung mit nur einem Klick von Google AI Studio in und MCP-Server (Model Context Protocol) zur Aktivierung von KI-Agenten in IDEs oder Agent-SDKs und zur Bereitstellung von Apps.

MCP-Server Bereitstellungen

Anwendungsfall
Anwendungsfälle

NVIDIA L4-GPUs in integrieren, um LLMs kostengünstig bereitzustellen. In diesem Leitfaden wird der Schwerpunkt auf die Skalierung auf null gelegt. Außerdem werden Bereitstellungsschritte für Modelle wie 2 mit Ollama beschrieben.

LLMs GPU Ollama Kostenoptimierung

Anwendungsfall
Anwendungsfälle

Entkoppeln Sie große Modelldateien mithilfe von vom Container-Image. Durch die Entkopplung werden die Build-Zeiten verkürzt, Updates vereinfacht und eine besser skalierbare Bereitstellungsarchitektur geschaffen.

Modellverpackung Best Practices Große Modelle

Anwendungsfall
Anwendungsfälle

Verwenden Sie das Cog-Framework, das für ML-Serving optimiert ist, um das Verpacken und Bereitstellen von Containern in zu vereinfachen.

Cog Modellverpackung Bereitstellung Anleitung

Anwendungsfall
Anwendungsfälle

Verwenden Sie für einfache ML-Inferenz und erstellen Sie einen kostengünstigen Monitoring-Stack mit nativen -Diensten wie und .

Monitoring MLOps Kosteneffizienz Inferenz

Ähnliche Videos