In diesem Leitfaden finden Sie einen Überblick über die Verwendung von Cloud Run zum Hosten von Apps, zum Ausführen von Inferenz und zum Erstellen von KI-Workflows.
Cloud Run zum Hosten von KI-Anwendungen, ‑Agents und skalierbaren API-Endpunkten
Cloud Run bietet eine vollständig verwaltete Plattform, die Ihre KI-Anwendungen und ‑Arbeitslasten skaliert.
Wenn Sie KI-Apps in Cloud Run hosten, haben Sie in der Regel die folgenden Architekturkomponenten:
- Bereitstellung und Orchestrierung: Sie stellen Ihren Anwendungscode oder Container in Cloud Run bereit.
- KI-Modelle: Sie verwenden KI-Modelle von Google, Open-Source-Modelle oder benutzerdefinierte Modelle mit Ihrer App.
- Integrationen: Sie können eine Verbindung zu Google Cloud Diensten oder Drittanbieterdiensten für Arbeitsspeicher, Datenbanken, Speicher, Sicherheit und mehr herstellen.
- Tools: Sie können eine Verbindung zu Tools für andere Aufgaben und Vorgänge herstellen.
Das folgende Diagramm bietet eine allgemeine Übersicht über die Verwendung von Cloud Run als Hostingplattform für KI-Apps:
Wie im Diagramm dargestellt:
In der Serving- und Orchestrierungsebene fungiert ein Cloud Run-Dienst als skalierbarer API-Endpunkt für die Kernlogik Ihrer Anwendung. Es verwaltet mehrere gleichzeitige Nutzer effizient durch automatisches, bedarfsgesteuertes und schnelles Skalieren von Instanzen.
Sie stellen den Container bereit, der in Cloud Run bereitgestellt werden soll. Sie können Ihre Anwendung und ihre Abhängigkeit entweder in einem Container verpacken oder Ihren Quellcode bereitstellen und Cloud Run Ihren Code automatisch in einen Container für die Bereitstellung erstellen lassen. Für die Bereitstellung von Quellcode können Sie beliebige Sprachen, Open-Source-Frameworks oder SDKs verwenden, um Ihre KI-Apps zu erstellen.
Ihre KI-App fungiert als skalierbarer API-Endpunkt, der eingehende Anfragen verarbeitet und Daten zur Verarbeitung an ein vortrainiertes KI-Modell sendet. Anschließend werden die Ergebnisse zurückgegeben.
Cloud Run ist in die Modelle von Google wie Gemini und Vertex AI integriert und kann in Open-Source-Modelle wie Llama und Gemma eingebunden werden. Wenn Sie ein benutzerdefiniertes Modell haben, das Sie selbst trainiert haben, können Sie es auch mit Ihrer Cloud Run-Ressource verwenden.
Google Cloud bietet eine Vielzahl von Lösungen zur Unterstützung der Infrastruktur Ihrer KI-Anwendung. Einige Google Cloud Integrationen, die gut mit Ihrer KI-App funktionieren, sind:
- Arbeitsspeicher und Datenbanken
- Kurzfristig
- Memorystore ist ein Dienst für das Caching und die temporäre Verwaltung von Daten mit hohem Zugriff, der einen schnellen und externen Cache für die kurzfristige Datenspeicherung bietet.
- Langfristig
- AlloyDB for PostgreSQL
ist eine PostgreSQL-kompatible Datenbank für anspruchsvolle Transaktions- und Analysearbeitslasten. Sie bietet eine integrierte Generierung von Vektoreinbettungen und einen Hochgeschwindigkeits-Vektorindex, wodurch die semantische Suche im Vergleich zur Standardimplementierung von
pgvectorschnell durchgeführt werden kann. - Cloud SQL ist ein relationaler Datenbankdienst für MySQL, PostgreSQL und SQL Server, der mit der
pgvector-Erweiterung für PostgreSQL auch als Vektorspeicher verwendet werden kann. - Firestore ist ein skalierbarer NoSQL-Dokumentendatenbankdienst mit integrierten Vektorsuchfunktionen.
- AlloyDB for PostgreSQL
ist eine PostgreSQL-kompatible Datenbank für anspruchsvolle Transaktions- und Analysearbeitslasten. Sie bietet eine integrierte Generierung von Vektoreinbettungen und einen Hochgeschwindigkeits-Vektorindex, wodurch die semantische Suche im Vergleich zur Standardimplementierung von
- Kurzfristig
- Speicher
- Cloud Storage ist eine Objektspeicherlösung zum Speichern großer Datasets für das Modelltraining, von Ein-/Ausgabedateien für Ihre Anwendung oder von Modellartefakten.
- Sicherheit
- Secret Manager ist ein Dienst zur Verwaltung von Secrets und Anmeldedaten, der eine sichere und zentrale Möglichkeit zum Speichern sensibler Daten wie API-Schlüssel, Passwörter und Anmeldedaten bietet, die häufig für KI-Anwendungen erforderlich sind, um mit externen Diensten zu interagieren.
Weitere Informationen finden Sie unter Mit Google Cloud -Diensten verbinden.
- Arbeitsspeicher und Datenbanken
Mit Tools können Ihre KI-Apps und ‑Modelle mit Diensten, APIs oder Websites interagieren, die extern oder in Cloud Run ausgeführt werden.
Wenn Ihre KI-App beispielsweise ein KI-Agent ist, kann Ihr Agent eine Anfrage an einen MCP-Server senden, um ein externes Tool auszuführen, oder Tools verwenden, die in Ihrem Container ausgeführt werden, z. B. Codeausführung, Computernutzung oder Informationsabruf.
Modelle in Cloud Run für KI-Inferenz hosten
Sie können nicht nur Anwendungen und Agents erstellen, die ein Large Language Model (LLM) verwenden, sondern auch GPUs mit Cloud Run aktivieren, um vortrainierte oder benutzerdefinierte selbst bereitgestellte Modelle für KI-Inferenz auszuführen.
Mit Cloud Run-GPUs können Sie die große Anzahl von Vorgängen verarbeiten, die zum Ausführen rechenintensiver Aufgaben für KI-Inferenz-Arbeitslasten erforderlich sind. Stellen Sie KI-Modelle als Container-Images oder aus Quellcode bereit und verwenden Sie verschiedene Methoden, um Ihre Cloud Run-Ressourcen bereitzustellen.