Recetario de IA de Cloud Run

En esta página, se proporciona una lista seleccionada de recursos para ayudarte a compilar e implementar soluciones de IA en Cloud Run.

Cloud Run es una plataforma de aplicaciones completamente administrada para ejecutar tu código, función o contenedor sobre la infraestructura altamente escalable de Google. Puedes usar Cloud Run para ejecutar varias soluciones de IA, como extremos de inferencia de IA, APIs de modelos generativos, canalizaciones completas de generación mejorada por recuperación (RAG) y mucho más.

Usa las categorías y los vínculos que se muestran a continuación para navegar por las guías oficiales, las guías de inicio rápido y el valioso contenido de la comunidad. Para obtener documentación y recomendaciones sobre Cloud Run, consulta Explora soluciones de IA en Cloud Run.

Nota sobre los recursos de la comunidad

El contenido etiquetado como "Comunidad" son recursos seleccionados de la comunidad de desarrolladores y Google no los desarrolla ni mantiene. Ten en cuenta estas precauciones cuando uses estos recursos:

  • Auditoría de seguridad: Siempre revisa con cuidado el código, en especial cómo maneja la información privada, la entrada del usuario y el acceso a la red.
  • Obsolescencia y actualizaciones: Es posible que el código de la comunidad quede obsoleto o deje de funcionar con las nuevas funciones de Cloud Run o las versiones de IA sin previo aviso. Verifica la fecha de su última actualización y si aún se mantiene de forma activa.
  • Eficiencia en los costos: Si bien estos parámetros de configuración suelen tener como objetivo un costo bajo, es posible que no sigan las prácticas recomendadas de Google para ahorrar dinero en proyectos activos. Supervisa tu facturación de cerca.
  • Cumplimiento de la licencia: Asegúrate de comprender y seguir la licencia de código abierto de cualquier código o biblioteca de la comunidad que agregues a tu aplicación.
  • Prueba antes de implementar: Verifica todos los parámetros de configuración importantes y prueba las soluciones de la comunidad en un entorno de pruebas antes de usarlas en proyectos activos.

Cómo filtrar por categoría o palabra clave

Usa los filtros o el cuadro de búsqueda para encontrar contenido por categoría o palabra clave.


Filtrar por:
Categorías Título y descripción Fecha de publicación
Blog
Gemma 3

Experiencia práctica con Gemma 3 en Google Cloud

En esta entrada de blog, se anuncian dos codelabs que muestran a los desarrolladores cómo implementar Gemma 3 en Google Cloud con Cloud Run para un enfoque sin servidores o Google Kubernetes Engine (GKE) para un enfoque de plataforma.

2025-11-17
Blog
Herramientas

Automatización sencilla del flujo de trabajo de IA: Implementa n8n en Cloud Run

En esta entrada de blog, se explica cómo implementar agentes con la herramienta de automatización de flujos de trabajo n8n en Cloud Run para crear flujos de trabajo potenciados por IA y realizar integraciones con herramientas como Google Workspace.

2025-11-07
Blog
Extensiones
Gemini

Automatiza la implementación de apps y el análisis de seguridad con las nuevas extensiones de Gemini CLI

En esta entrada de blog, se anuncia la extensión de Cloud Run en Gemini CLI para simplificar la implementación de aplicaciones con un solo comando /deploy.

2025-09-10
Blog
Extensiones
Gemini

De localhost a lanzamiento: Simplifica la implementación de apps de IA con Cloud Run y Docker Compose

En esta entrada de blog, se anuncia una colaboración entre Google Cloud y Docker que simplifica la implementación de aplicaciones de IA complejas, ya que permite a los desarrolladores usar el comando gcloud run compose up para implementar sus archivos compose.yaml directamente en Cloud Run.

2025-07-10
Blog
MCP

Compila e implementa un servidor de MCP remoto en Google Cloud Run en menos de 10 minutos

En esta entrada de blog, se proporciona una guía paso a paso para compilar e implementar un servidor seguro y remoto del Protocolo de contexto del modelo (MCP) en Google Cloud Run en menos de 10 minutos con FastMCP y, luego, probarlo desde un cliente local.

2025-06-07
Agentes
AI Studio
Blog
MCP

Implementación de IA simplificada: Implementa tu app en Cloud Run desde AI Studio o agentes de IA compatibles con MCP

En esta entrada de blog, se presentan formas de simplificar las implementaciones de IA con la implementación con un solo clic de AI Studio en Cloud Run, la implementación directa de modelos de Gemma 3 y un servidor de MCP para implementaciones basadas en agentes.

2025-05-20
Agentes
Blog
Casos de uso

Fusión un 50% más rápida y un 50% menos de errores: Cómo CodeRabbit compiló su agente de revisión de código basado en IA con Google Cloud Run

En este artículo, se muestra cómo CodeRabbit, una herramienta de revisión de código basada en IA, utiliza Cloud Run para compilar una plataforma escalable y segura para ejecutar código no confiable, lo que, en última instancia, reduce a la mitad el tiempo de revisión de código y los errores.

2025-04-22
Blog
Vertex AI

Crea apps de IA generativa que se puedan compartir en menos de 60 segundos con Vertex AI y Cloud Run

En este artículo, se presenta una función de Vertex AI que permite implementar aplicaciones web en Cloud Run con un solo clic. Usa instrucciones de IA generativa para optimizar el proceso de convertir un concepto de IA generativa en un prototipo que se pueda compartir.

2025-02-20
Blog
Deployment

Cómo implementar IA sin servidores con Gemma 3 en Cloud Run

En esta entrada de blog, se anuncia Gemma 3, una familia de modelos de IA abiertos y ligeros, y se explica cómo implementarlos en Cloud Run para crear aplicaciones de IA sin servidores escalables y rentables.

2025-03-12
Blog
GPUs
Inferencia
RAG
Vertex AI

Desbloquea la inferencia como servicio con Cloud Run y Vertex AI

En esta entrada de blog, se explica cómo los desarrolladores pueden acelerar el desarrollo de aplicaciones de IA generativa adoptando un modelo de inferencia como servicio en Cloud Run. Esto permite alojar y escalar LLMs con compatibilidad con GPU, y también integrarlos con la generación mejorada por recuperación (RAG) para obtener respuestas específicas del contexto.

2025-02-20
Arquitectura
RAG
Vertex AI

Infraestructura de RAG para la IA generativa con Vertex AI y Vector Search

En este documento, se presenta una arquitectura de referencia para compilar una aplicación de IA generativa con generación aumentada por recuperación (RAG) en Google Cloud, que utiliza Vector Search para la correlación de similitud a gran escala y Vertex AI para administrar los modelos y las incorporaciones.

2025-03-07
Agentes
Antigravity
Video

Deja de programar y comienza a diseñar arquitecturas: Google Antigravity y Cloud Run

En este video, se presenta Antigravity, el IDE basado en agentes de Google. Úsalo para compilar e implementar una app de pila completa en Cloud Run desde cero. Mira este video para escribir una hoja de especificaciones para la IA, obligarla a usar Node.js moderno (sin pasos de compilación) y ver cómo depura de forma autónoma una discrepancia de puertos durante la implementación que afecta un archivo de configuración.

2025-12-08
Agentes
GPUs
Ollama
Video

Este agente de IA se ejecuta en Cloud Run con GPUs de NVIDIA

En este video, se muestra cómo compilar una aplicación de agente de IA real en una GPU de NVIDIA sin servidores. Mira una demostración de un agente de salud inteligente que usa modelos de código abierto como Gemma con Ollama en Cloud Run y LangGraph para compilar un flujo de trabajo de varios agentes (RAG + herramientas).

2025-11-13
MCP
Video

Potencia tus agentes de IA con herramientas de MCP en Google Cloud Run

En este video, se presenta el MCP (Protocolo de contexto del modelo) y cómo facilita la vida de los desarrolladores de agentes de IA. Obtén una guía para crear un servidor de MCP con FastMCP y, luego, implementar un agente de ADK en Cloud Run. Observa cómo el código controla la autenticación de servicio a servicio con los tokens de OIDC integrados de Cloud Run.

2025-11-06
Model Armor
Seguridad
Video

Intentamos vulnerar nuestra IA (y Model Armor lo impidió)

En este video, se muestra un ejemplo del uso de Model Armor de Google para bloquear amenazas con una llamada a la API.

2025-10-30
Comparativas
Vertex AI
Video

No adivines: Cómo comparar tus instrucciones de IA

En este video, se muestra cómo usar Vertex AI para crear aplicaciones de IA generativa confiables con las herramientas de Google Cloud. Los desarrolladores aprenderán a usar las herramientas de Google Cloud para crear prototipos rápidamente, obtener cifras concretas con comparativas basadas en datos y, por último, crear una canalización de CI/CD automatizada para un verdadero control de calidad, todo esto sin caer en errores comunes.

2025-10-23
ADK
Multiagente
Video

Cómo crear una app de varios agentes con el ADK y Gemini

En este video, se muestra cómo crear una app con el ADK (Agent Development Toolkit) de Google que te ayuda a definir y colaborar en el contenido. Explora cómo los multiagentes con estado funcionan mejor que un solo agente.

2025-10-16
Gemini
Video

Crea una app de IA que mire videos con Gemini

En este video, se muestra cómo crear una app que mira y comprende videos de YouTube con Gemini 2.5 Pro. Usa instrucciones inteligentes para personalizar el resultado de tu app en entradas de blog, resúmenes, cuestionarios y mucho más. En este video, se explica cómo integrar Gemini para generar contenido de texto e imágenes de encabezado a partir de la entrada de video, se analizan las consideraciones de costos y se explica cómo controlar videos más largos con solicitudes por lotes.

2025-10-06
GenAI
Video

Creemos una app de IA generativa en Cloud Run

En este video, se explica la arquitectura y el código, y se usa la IA para ayudar en cada paso.

2025-07-17
Agentes
Firebase
Video

Crea agentes de IA con Cloud Run y Firebase Genkit

En este video, se muestra cómo compilar agentes de IA con Cloud Run y Firebase Genkit, un compilador de agentes de IA sin servidores.

2025-07-10
AI Studio
Firebase
Gemini
LLMs
Video

Cloud AI: Es solo una API

En este video, se proporciona una demostración sobre cómo compilar rápidamente una aplicación de asistencia técnica con AI Studio, Cloud Functions y Firebase Hosting. Aprende a aprovechar los modelos de lenguaje grandes (LLM) y consulta un ejemplo práctico de cómo integrar la IA en una aplicación web tradicional.

2025-06-19
ADK
Agentes
Frameworks
LangGraph
Vertex AI
Video

Creación de agentes de IA en Google Cloud

En este video, se muestra cómo compilar e implementar agentes basados en IA con Cloud Run y Vertex AI. Explora conceptos clave, como la llamada a herramientas, el agnosticismo del modelo y el uso de frameworks como LangGraph y el Kit de desarrollo de agentes (ADK).

2025-05-21
Modelos de IA
GPUs
Ollama
Video

Cómo alojar DeepSeek con GPU de Cloud Run en 3 pasos

En este video, se muestra cómo simplificar el alojamiento del modelo de IA de DeepSeek con las GPUs de Cloud Run. Aprende a implementar y administrar modelos de lenguaje grandes (LLM) en Google Cloud con tres comandos. Mira el video y descubre las capacidades de Cloud Run y la herramienta de línea de comandos de Ollama, que permiten a los desarrolladores operar aplicaciones de IA rápidamente con asignación y escalamiento de recursos según demanda.

2025-04-24
Llamada a función
Gemini
Video

Cómo usar la llamada a funciones de Gemini con Cloud Run

En este video, se explora el poder de las llamadas a funciones de Gemini y se explica cómo integrar APIs externas en tus aplicaciones de IA. Crea una app del clima que aproveche la comprensión del lenguaje natural de Gemini para procesar las solicitudes de los usuarios y recuperar datos del clima de una API externa, lo que proporciona un ejemplo práctico de la llamada a funciones en acción.

2025-01-23
Generación de imágenes
Vertex AI
Video

Texto a imagen con Vertex AI de Google Cloud en Cloud Run

En este video, se muestra cómo compilar una app de generación de imágenes con Vertex AI en Google Cloud. Con el modelo de generación de imágenes de Vertex AI, los desarrolladores pueden crear imágenes impresionantes sin necesidad de una infraestructura compleja ni de administrar modelos.

2025-01-16
GPUs
Ollama
Video

Ollama y Cloud Run con GPUs

En este video, se explica cómo usar Ollama para implementar fácilmente modelos de lenguaje grandes en Cloud Run con GPUs para la implementación eficiente y escalable de modelos de IA en la nube.

2024-12-02
Protección de datos
Seguridad
Video

Protección de datos sensibles en apps basadas en IA

En este video, se muestra cómo proteger los datos sensibles en las aplicaciones basadas en IA. Explora conceptos clave, prácticas recomendadas y herramientas para proteger los datos durante todo el ciclo de vida de la IA.

2024-11-21
LangChain
RAG
Video

RAG con LangChain en Google Cloud

En este video, se muestra cómo mejorar la precisión de tus aplicaciones de IA con la generación aumentada por recuperación (RAG). Crea una aplicación web que aproveche el poder de la RAG con LangChain, una técnica que hace que las respuestas de la IA sean más exactas y precisas.

2024-11-07
Ventana de mensaje grande
Ajuste del modelo
RAG
Video

Comparación entre RAG, ajuste del modelo y ventana de instrucciones grande

En este video, se analizan los tres métodos principales para integrar tus datos en las aplicaciones de IA: instrucciones con ventanas de contexto largas, generación mejorada por recuperación (RAG) y ajuste del modelo. En este episodio de Serverless Expeditions, conoce las fortalezas, las limitaciones y los casos de uso ideales de cada enfoque para tomar decisiones fundamentadas en tus proyectos de IA.

2024-11-14
Ingeniería de instrucciones
Video

Ingeniería de instrucciones para desarrolladores

En este video, se muestra cómo usar la ingeniería de instrucciones para mejorar la calidad de las respuestas de la IA. Mira el video para aprender a obtener respuestas más precisas y pertinentes de la IA generativa con técnicas de instrucciones de cadena de pensamiento, de pocos ejemplos y de varios ejemplos.

2024-10-31
Modelos de IA
GPUs
LLMs
Video

Implementa un LLM potenciado por GPU en Cloud Run

En este video, se muestra cómo puedes implementar tu propio modelo de lenguaje grande (LLM) potenciado por GPU en Cloud Run. En este video, se explica cómo tomar un modelo de código abierto, como Gemma, y, luego, implementarlo como un servicio escalable y sin servidores con aceleración por GPU.

2024-10-06
GPUs
LLMs
Ollama
Video

Usa GPUs en Cloud Run

En este video, se muestra una demostración de la implementación de Gemma 2 de Google, un modelo de lenguaje grande de código abierto, a través de Ollama en Cloud Run.

2024-10-03
Gemini
LLMs
Video

Compila apps de chat de IA en Google Cloud

En este video, se muestra cómo compilar una app de chat con un modelo de lenguaje grande (LLM) en Gemini.

2024-08-29
Multimodal
Vertex AI
Video

IA multimodal

En este video, se muestra una demostración del uso de Vertex AI para compilar una aplicación multimodal que procesa video, audio y texto para crear resultados.

2024-08-15
Modelos de IA
Vertex AI
Video

Uso de la IA generativa sin servidores | Google Vertex AI

En este video, se muestra cómo compilar e implementar apps de IA generativa ultrarrápidas con Vertex AI Studio, Cloud Run y modelos de IA generativa.

2024-02-22
Codelab
Herramientas

Implementa y ejecuta n8n en Google Cloud Run

En este codelab, se muestra cómo implementar una instancia lista para la producción de la herramienta de automatización de flujos de trabajo n8n en Cloud Run, con una base de datos de Cloud SQL para la persistencia y Secret Manager para los datos sensibles.

2025-11-20
Codelab
GPUs
LLM

Cómo ejecutar la inferencia de LLM en GPUs de Cloud Run con vLLM y el SDK de Python de OpenAI

En este codelab, se muestra cómo implementar el modelo ajustado para instrucciones Gemma 2 2b de Google en Cloud Run con GPUs, usando vLLM como motor de inferencia y el SDK de OpenAI Python para completar oraciones.

2025-11-13
ADK
Agentes
Codelab

Implementa, administra y observa el agente del ADK en Cloud Run

En este codelab, se te guía para implementar, administrar y supervisar un agente potente creado con el Kit de desarrollo de agentes (ADK) en Cloud Run.

2025-11-12
Codelab
CLI de Gemini
MCP

Cómo implementar un servidor de MCP seguro en Cloud Run

En este codelab, se explica cómo implementar un servidor de Protocolo de contexto del modelo (MCP) seguro en Cloud Run y conectarte a él desde Gemini CLI.

2025-10-28
ADK
Agentes
Codelab
MCP

Compila e implementa un agente de ADK que use un servidor de MCP en Cloud Run

En este codelab, se explica cómo compilar y, luego, implementar un agente de IA que usa herramientas con el Kit de desarrollo de agentes (ADK). El agente se conecta a un servidor de MCP remoto para acceder a sus herramientas y se implementa como un contenedor en Cloud Run.

2025-10-27
Modelos de IA
Trabajos de Cloud Run
Codelab
Ajuste del modelo

Cómo ajustar un LLM con trabajos de Cloud Run

En este codelab, se proporciona una guía paso a paso para usar Cloud Run Jobs con GPUs para ajustar un modelo de Gemma 3 en el conjunto de datos de Text2Emoji y, luego, entregar el modelo resultante en un servicio de Cloud Run con vLLM.

2025-10-21
Inferencia por lotes
Trabajos de Cloud Run
Codelab

Cómo ejecutar la inferencia por lotes en trabajos de Cloud Run

En este codelab, se muestra cómo usar un trabajo de Cloud Run potenciado por GPU para ejecutar la inferencia por lotes en un modelo de Llama 3.2-1b y escribir los resultados directamente en un bucket de Cloud Storage.

2025-10-21
ADK
Agentes
Codelab
GPUs
LLMs
MCP

Lab 3: Del prototipo a la producción: Implementa tu agente del ADK en Cloud Run con GPU

En este codelab, se muestra cómo implementar un agente del Agent Development Kit (ADK) listo para producción con un backend de Gemma acelerado por GPU en Cloud Run. En este codelab, se abordan las pruebas de implementación, integración y rendimiento.

2025-10-03
Agentes
Codelab

Cómo implementar una app de frontend de Gradio que llama a un agente de ADK de backend, ambos ejecutándose en Cloud Run

En este codelab, se muestra cómo implementar una aplicación de dos niveles en Cloud Run, que consta de un frontend de Gradio y un backend de agente de ADK, con un enfoque en la implementación de una comunicación segura y autenticada entre servicios.

2025-09-29
Codelab
Gemini

Cómo implementar una app de chatbot de FastAPI en Cloud Run con Gemini

En este codelab, se muestra cómo implementar una app de chatbot de FastAPI en Cloud Run.

2025-04-02
Cloud Run Functions
Codelab
LLMs

Cómo alojar un LLM en un proceso secundario para una función de Cloud Run

En este codelab, se muestra cómo alojar un modelo de gemma3:4b en un sidecar para una función de Cloud Run.

2025-03-27
Comunidad
Seguridad

Llama de forma segura a tu servicio de Cloud Run desde cualquier lugar

En este artículo, se proporciona un ejemplo de código en Python que adquiere un token de identidad para llamar de forma segura a un servicio autenticado de Cloud Run desde cualquier entorno. En el ejemplo, se usan credenciales predeterminadas de la aplicación (ADC) para autenticar la llamada.

2025-10-15
Modelos de IA
Comunidad
RAG

IA sin servidores: EmbeddingGemma con Cloud Run

En este artículo, se proporciona una guía paso a paso para crear un contenedor del modelo EmbeddingGemma y, luego, implementarlo en Cloud Run con GPUs, y, por último, usarlo para compilar una aplicación de RAG.

2025-09-24
Comunidad
Seguridad

Cadena de confianza para la IA: Protección de la arquitectura de la caja de herramientas de MCP en Cloud Run

En este artículo, se desglosa una aplicación simple de reserva de hoteles creada en Google Cloud. Demuestra un modelo de seguridad sólido de confianza cero que usa identidades de servicio y muestra cómo se establece una cadena de confianza segura desde el usuario final hasta la base de datos.

3-9-2025
Modelos de IA
Comunidad
Creación de contenedores
Docker
Ollama
RAG

IA sin servidores: Incorporaciones de Qwen3 con Cloud Run

En este artículo, se proporciona un instructivo para implementar el modelo de incorporación de Qwen3 en Cloud Run con GPUs. El artículo también abarca la contenerización con Docker y Ollama, y proporciona un ejemplo de cómo usarla en una aplicación de RAG.

2025-08-20
Arquitectura
Comunidad
LLMs

¿Aún empaquetas modelos de IA en contenedores? Haz esto en su lugar en Cloud Run

En este artículo, se propone una arquitectura más eficiente y escalable para entregar modelos de lenguaje grandes (LLMs) en Cloud Run. Para ello, se desacoplan los archivos del modelo del contenedor de la aplicación y, en su lugar, se usa Cloud Storage FUSE.

2025-08-11
Modelos de IA
Comunidad

Cómo crear un generador de podcasts potenciado por IA con Gemini y Cloud Run

En este artículo, se detalla cómo compilar un generador de podcasts sin servidores potenciado por IA que usa Gemini para resumir contenido y Cloud Run. En el ejemplo, se coordina la canalización automatizada para generar y entregar resúmenes de audio diarios a partir de feeds RSS.

2025-08-11
Comunidad
MCP

Potencia tus servidores de MCP con Google Cloud Run

En este artículo, se explica el propósito del Protocolo de contexto del modelo (MCP) y se proporciona un instructivo para compilar e implementar un servidor de MCP en Cloud Run para exponer recursos como herramientas para aplicaciones de IA.

2025-07-09
Comunidad
Modelos de AA
Monitoring

Implementación y supervisión de modelos de AA con Cloud Run: ligeros, escalables y rentables

En este artículo, se explica cómo implementar, supervisar y ajustar automáticamente la escala de un modelo de aprendizaje automático en Cloud Run, utilizando una pila de supervisión liviana con servicios de Google Cloud para hacer un seguimiento del rendimiento y controlar los costos.

2025-05-29
Modelos de IA
AI Studio
Comunidad
LLMs

Implementa Gemma directamente desde AI Studio en Cloud Run

En este artículo, se proporciona un instructivo paso a paso para tomar un modelo de Gemma de AI Studio, adaptar su código para la producción y, luego, implementarlo como una aplicación web en contenedores en Cloud Run.

2025-05-29
ADK
Agentes
Comunidad
MCP

La tríada de la arquitectura del agente: ADK, MCP y Cloud Run

En este artículo, se muestra cómo compilar una arquitectura basada en agentes de IA configurando un flujo de trabajo del Kit de desarrollo de agentes (ADK) que se comunica con un servidor del Protocolo de contexto del modelo (MCP) alojado en Cloud Run para administrar las reservas de vuelos.

2025-05-27
A2A
Agentes
Comunidad
Frameworks
Casos de uso

Exploración del protocolo Agent2Agent (A2A) con el caso de uso de asistente de compras en Cloud Run

En este artículo, se explica el protocolo Agent2Agent (A2A) y se demuestra su uso con una aplicación de asistente de compras. La app de Cloud Run contiene varios agentes de IA, creados con diferentes frameworks, que colaboran entre sí para completar el pedido de un usuario.

2025-05-15
Modelos de IA
Automatización
CI/CD
Comunidad
GitHub

Automatiza la implementación de modelos de AA con GitHub Actions y Cloud Run

En este artículo, se proporciona una guía integral para crear una canalización de CI/CD con GitHub Actions y automatizar la compilación y la implementación de modelos de aprendizaje automático como servicios en contenedores en Cloud Run.

2025-05-08
Comunidad
LLMs
Seguridad

Building Sovereign AI Solutions with Google Cloud - Cloud Run (Cómo compilar soluciones de IA soberana con Google Cloud: Cloud Run)

En este artículo, se proporciona una guía paso a paso para compilar e implementar una solución de IA soberana en Google Cloud con los Controles de soberanía de socios. En los ejemplos, se ejecuta un modelo de Gemma en Cloud Run, lo que garantiza la residencia de los datos y el cumplimiento de las reglamentaciones europeas.

2025-04-03
Comunidad
LLMs

De cero a Deepseek en Cloud Run durante mi viaje matutino

En este artículo, se muestra cómo implementar rápidamente el modelo Deepseek R1 en Cloud Run con GPUs usando Ollama durante un viaje matutino. En este artículo, se exploran temas avanzados, como la incorporación del modelo en el contenedor, las pruebas A/B con división del tráfico y la adición de una IU web con un contenedor secundario.

2025-02-11
Comunidad
LLMs
Ollama

Cómo ejecutar (cualquier) LLM abierto con Ollama en Google Cloud Run [paso a paso]

En este artículo, se muestra cómo alojar cualquier LLM abierto, como Gemma 2, en Google Cloud Run con Ollama. El artículo también incluye instrucciones para crear un bucket de Cloud Storage para la persistencia del modelo y probar la implementación.

2025-01-20
Comunidad
Modelos de AA

Implementación de modelos de aprendizaje automático sin servidores con GPUs usando Google Cloud: Cloud Run

En este artículo, se proporciona una guía paso a paso para implementar un modelo de aprendizaje automático (AA) con compatibilidad con GPU en Cloud Run. En el artículo, se abarca todo, desde la configuración del proyecto y la contenerización hasta la implementación automatizada con Cloud Build y las pruebas con curl y JavaScript.

2025-01-17