Zonas de IA

Las zonas de IA son zonas especializadas que se utilizan para las cargas de trabajo de entrenamiento y de inferencia de la Inteligencia Artificial y el Aprendizaje Automático (IA y AA). Proporcionan una capacidad significativa de aceleradores de AA (GPU y TPU).

Dentro de una región, las zonas de IA se encuentran geográficamente alejadas de las zonas estándar (sin IA). En la siguiente figura, se muestra un ejemplo de una zona de IA (us-central1-ai1a) ubicada más lejos en relación con las zonas estándar de la región us-central1.

Zona de padres

Cada zona de IA está asociada a una zona estándar de la región, a la que se hace referencia como su zona principal. Una zona principal es una zona estándar con el mismo sufijo que la zona de IA. Por ejemplo, en el diagrama, us-central1-a es la zona principal de us-central1-ai1a. Comparten cronogramas de actualizaciones de software y, a veces, infraestructura. Esto significa que cualquier problema de software o infraestructura que afecte a una zona principal también podría afectar a la zona de IA. Cuando diseñes tus soluciones de alta disponibilidad, revisa las Consideraciones de alta disponibilidad (HA) para tener en cuenta la dependencia de la zona principal.

Cuándo usar las zonas de IA

Las zonas de IA están optimizadas para cargas de trabajo de IA y AA. Usa la siguiente guía para determinar cuáles de tus cargas de trabajo son más adecuadas para las zonas de IA y cuáles se benefician más de las zonas estándar.

Se recomienda para lo siguiente:

  • Entrenamiento a gran escala: Es ideal para cargas de trabajo de entrenamiento a gran escala, como el entrenamiento de modelos de lenguaje grandes (LLM) y modelos de base, debido a la disponibilidad de una gran cantidad de aceleradores.

  • Entrenamiento, ajuste, inferencia masiva y reentrenamiento a pequeña escala: Las zonas de IA funcionan bien para las cargas de trabajo que requieren una capacidad de aceleración considerable.

  • Inferencia de AA en tiempo real: Las zonas de IA admiten cargas de trabajo de inferencia en tiempo real. El rendimiento depende del diseño de la aplicación y los requisitos de latencia del modelo, en especial si la carga de trabajo requiere solicitudes de ida y vuelta a la región principal.

No se recomienda para lo siguiente:

  • Cargas de trabajo que no son de AA: Dado que las zonas de IA no ofrecen todos los servicios de forma local, recomendamos ejecutar tus cargas de trabajo que no son de AA en las zonas estándar. Google Cloud

Cómo acceder a servicios desde una zona de IA

Puedes acceder a todos los productos Google Cloud en una región Google Cloud desde su zona de IA. Sin embargo, acceder a los servicios en una región Google Cloud desde una zona de IA puede agregar latencia de red, ya que la zona de IA está físicamente separada de las ubicaciones de las zonas estándar de la región.

Algunos productos específicos admiten la creación o el acceso a recursos zonales de forma local en una zona de IA. Para obtener más información sobre estos servicios, consulta la siguiente tabla:

Producto Descripción
Google Kubernetes Engine (GKE) Configuración para usar zonas de IA en clústeres de GKE, incluida la configuración con ComputeClasses, el aprovisionamiento automático de nodos y los grupos de nodos de GKE Standard

Usa zonas de IA en GKE
Cloud Storage Configuración del almacenamiento de objetos para las cargas de trabajo en zonas de IA, incluido el almacenamiento zonal para maximizar el rendimiento durante los trabajos activos y el almacenamiento persistente para los conjuntos de datos y los puntos de control del modelo

Usa zonas de IA con Cloud Storage
Compute Engine Métodos para identificar las zonas de IA disponibles con la consola, Google Cloud CLI y la API de REST, incluido cómo filtrar por convención de nomenclatura, tipo de acelerador o máquina

Cómo encontrar zonas de IA disponibles

Ubicaciones

Las zonas de IA están disponibles en las siguientes ubicaciones:

Zona de IA Ubicación de la zona de IA Google Cloud región Ubicación de la regiónGoogle Cloud Zona principal
us-south1-ai1b Austin, Texas, Norteamérica us-south1 Dallas, Texas, Norteamérica us-south1-b
us-central1-ai1a Lincoln, Nebraska, Norteamérica us-central1 Council Bluffs, Iowa, Norteamérica us-central1-a

Cómo usar las zonas de IA

Se puede acceder a las zonas de IA a través de la Google Cloud consola, Google Cloud CLI o REST. Sin embargo, cuando usas la consola deGoogle Cloud para crear tus VMs, debes seleccionar manualmente una zona de IA. No se selecciona automáticamente, como sucede con las zonas estándar. Para usar las zonas de IA con las siguientes funciones, debes seleccionar explícitamente una zona de IA mientras configuras estos recursos.

  • Ciertas funciones de Compute Engine y GKE: Las zonas de IA no se seleccionan automáticamente en ciertas funciones regionales de Compute Engine y GKE (por ejemplo, grupos de instancias administrados regionales y clústeres regionales de GKE). Para obtener más detalles sobre GKE, consulta la documentación de GKE.

  • Restricciones de cargas de trabajo sin acelerador: Cuando ejecutes VMs solo con CPU en zonas de IA, ten en cuenta las restricciones que aplica Compute Engine. Estos pueden incluir requisitos para las proporciones de GPU:CPU y las reservaciones.

  • Vertex AI: Los productos regionales de Vertex AI basados en GKE deben configurar GKE para incluir zonas de IA en los clústeres regionales. No es necesario que habilites Vertex AI. Vertex AI administra esta configuración.

  • Google Cloud API de Service Metadata Locations: Debes habilitar la marca --extraLocationTypes cuando uses la API de locations.list para garantizar que las zonas de IA aparezcan solo para quienes tengan la intención de usarlas.

Usa zonas de IA en GKE

De forma predeterminada, GKE no implementa tus cargas de trabajo en zonas de IA. Para usar una zona de IA, debes configurar una de las siguientes opciones:

  • ComputeClasses: Establece la prioridad más alta para solicitar TPU según demanda en una zona de IA. Las ComputeClasses te ayudan a definir una lista priorizada de configuraciones de hardware para tus cargas de trabajo. Para ver un ejemplo, consulta Acerca de ComputeClasses.

  • Aprovisionamiento automático de nodos: Usa un nodeSelector o un nodeAffinity en la especificación de tu pod para indicarle al aprovisionamiento automático de nodos que cree un grupo de nodos en la zona de IA. Si tu carga de trabajo no se orienta de forma explícita a una zona de IA, el aprovisionamiento automático de nodos solo considera las zonas estándar cuando crea grupos de nodos nuevos. Esta configuración garantiza que las cargas de trabajo que no ejecutan modelos de IA/AA permanezcan en zonas estándar, a menos que configures explícitamente lo contrario. Para ver un ejemplo de un manifiesto que usa un nodeSelector, consulta Cómo establecer las zonas predeterminadas para los nodos creados automáticamente.

  • GKE Standard: Si administras directamente tus grupos de nodos, usa una zona de IA en la marca --node-locations cuando crees un grupo de nodos. Para ver un ejemplo, consulta Implementa cargas de trabajo de TPU en GKE Standard.

Limitaciones

Los siguientes elementos no están disponibles en las zonas de IA:

Consideraciones de diseño con zonas de IA

Ten en cuenta lo siguiente cuando diseñes tus aplicaciones para usar zonas de IA.

Consideraciones sobre la alta disponibilidad (HA)

Las zonas de IA comparten lanzamientos de software e infraestructura con sus zonas principales. Para garantizar la alta disponibilidad de tus cargas de trabajo, evita estos patrones de implementación cuando selecciones zonas, ya sea de forma automática o manual:

  • Evita implementar cargas de trabajo de HA en una zona de IA y su zona principal.

  • Evita implementar cargas de trabajo de HA en dos zonas de IA que compartan la misma zona principal.

Prácticas recomendadas de almacenamiento

Recomendamos una arquitectura de almacenamiento por niveles para equilibrar el costo, la durabilidad y el rendimiento:

  1. Capa de almacenamiento en frío: Usa buckets regionales de Cloud Storage en zonas estándar para el almacenamiento persistente y altamente duradero de tus conjuntos de datos de entrenamiento y puntos de control del modelo.
  2. Capa de rendimiento: Usa servicios de almacenamiento zonales especializados para que actúen como caché de alta velocidad o espacio provisorio temporal. Este enfoque elimina la latencia entre zonas y maximiza el rendimiento útil durante los trabajos activos.

    Para asegurarte de que las GPU y las TPU permanezcan completamente saturadas y maximizar el buen rendimiento, aprovisiona tu capa de rendimiento en la misma zona de IA que tus recursos de procesamiento.

Se recomiendan las siguientes soluciones de almacenamiento para optimizar el rendimiento del sistema de IA y AA con zonas de IA:

Servicio de almacenamiento Descripción Casos de uso
Función Anywhere Cache de Cloud Storage Es una caché de lectura zonal completamente administrada y respaldada por SSD que lleva los datos que se leen con frecuencia desde un bucket a la zona de IA. Recomendado para:
  • Cargas de trabajo con mucha carga de lectura
  • Entrenamiento y entrega de modelos de latencia baja
No se recomienda para lo siguiente:
  • Aplicaciones que requieren cumplimiento total con POSIX

¿Qué sigue?