En este documento, se explican las diferencias clave entre el entrenamiento de un modelo en Vertex AI con AutoML, el entrenamiento personalizado, Ray en Vertex AI o el entrenamiento de un modelo con BigQuery ML.
Con AutoML, puedes crear y entrenar un modelo con un esfuerzo técnico mínimo. Puedes usar AutoML para prototipar modelos con rapidez y explorar conjuntos de datos nuevos antes de invertir en el desarrollo. Por ejemplo, puedes usarlo para saber qué atributos son mejores en un conjunto de datos determinado.
Con el entrenamiento personalizado, puedes crear una aplicación de entrenamiento optimizada para tu resultado objetivo. Tienes el control completo sobre la funcionalidad de la aplicación de entrenamiento. Es decir, puedes fijar cualquier objetivo, usar cualquier algoritmo, desarrollar tus propias funciones o métricas de pérdida, o hacer cualquier otra personalización.
Con Ray en Vertex AI, puedes usar el framework de procesamiento distribuido de Ray en la infraestructura de Google Cloud . Ray en Vertex AI proporciona un entorno administrado con recursos de procesamiento configurables, integración con servicios como Vertex AI Inference y BigQuery, y opciones de redes flexibles para desarrollar y ejecutar cargas de trabajo distribuidas.
Con BigQuery, puedes entrenar modelos con tus datos de BigQuery directamente en BigQuery. Con los comandos de SQL, puedes crear rápidamente un modelo y usarlo para obtener inferencias por lotes.
Para comparar la funcionalidad y experiencia diferentes que se requieren para cada servicio, revisa la siguiente tabla.
AutoML | Entrenamiento personalizado | Ray on Vertex AI | BigQuery ML | |
---|---|---|---|---|
Experiencia necesaria en ciencia de datos | No | Sí, para desarrollar la aplicación de entrenamiento y también algo de la preparación de datos, como la ingeniería de atributos. | Es beneficioso tener un conocimiento básico de los conceptos de aprendizaje automático y los flujos de trabajo de ciencia de datos. | No |
Habilidad de programación necesaria | No, AutoML no requiere código. | Sí, para desarrollar la aplicación de entrenamiento. | Sí. | Sí. |
Tiempo para entrenar el modelo | Menor. Se requiere menos preparación de datos y no se necesita desarrollo. | Mayor. Se requiere más preparación de datos y se necesita desarrollar aplicaciones de entrenamiento. El uso del entrenamiento distribuido puede reducir el tiempo que lleva entrenar un modelo. | El tiempo de entrenamiento depende de la lógica del código (preparación y entrenamiento de datos) y del tiempo de aprovisionamiento de recursos. | Menor. La velocidad de desarrollo de modelos aumenta, ya que no necesitas compilar la infraestructura necesaria para las inferencias por lotes o el entrenamiento de modelos, ya que BigQuery ML aprovecha el motor de procesamiento de BigQuery. Esto aumenta la velocidad del entrenamiento, la evaluación y la inferencia. |
Límites de los objetivos de aprendizaje automático | Sí. Debes fijar uno de los objetivos predefinidos de AutoML. | No | No | Sí |
Se puede optimizar el rendimiento de los modelos de forma manual con el ajuste de hiperparámetros | No. AutoML realiza un ajuste de hiperparámetros automatizado, pero no puedes modificar los valores usados. | Sí. Puedes ajustar el modelo durante cada ejecución de entrenamiento para la experimentación y la comparación. | Sí. Como proporcionas el código de entrenamiento personalizado, puedes establecer o ajustar manualmente los valores de tus hiperparámetros antes de iniciar un trabajo de Ray en Vertex AI. | Sí. BigQuery ML admite el ajuste de hiperparámetros cuando se entrenan modelos de AA con sentencias`CREATE MODEL`. |
Se pueden controlar aspectos del entorno de entrenamiento | Limitado. Para los conjuntos de datos tabulares y de imágenes, puedes especificar la cantidad de horas de procesamiento de nodo que se entrenarán y si permitirás la detención anticipada del entrenamiento. | Sí. Puedes especificar aspectos del entorno, como el tipo de máquina de Compute Engine, el tamaño del disco, el framework de aprendizaje automático y la cantidad de nodos, así como la imagen de Docker que deseas usar para el entrenamiento. | Sí. Tienes un control significativo sobre varios aspectos del entorno de entrenamiento. Por ejemplo, puedes usar tus propias imágenes de contenedor de Docker personalizadas en tu clúster de Ray en Vertex AI. Cuando creas un clúster de Ray, puedes especificar el tipo de máquina para el nodo principal y los nodos trabajadores, incluida la cantidad y el tipo de aceleradores (GPUs) que deseas usar, y mucho más. | No |
Límites de tamaño de los datos |
Sí. AutoML usa conjuntos de datos administrados. Las limitaciones de tamaño de los datos varían según el tipo de conjunto de datos. Consulta uno de los siguientes temas para obtener información específica: |
En el caso de los conjuntos de datos no administrados, no. Los conjuntos de datos administrados tienen los mismos límites que los objetos de conjuntos de datos administrados que crea y aloja BigQuery y se usan para entrenar modelos de AutoML. | No. Sin embargo, hay un tamaño máximo de respuesta a una consulta de 10 GB para las lecturas de BigQuery. Esta es una limitación del tamaño de la respuesta de la API de BigQuery, no necesariamente un límite en la cantidad total de datos que Ray en Vertex AI puede procesar desde BigQuery a través de consultas iterativas o paralelas. | Sí. BigQuery ML aplica las cuotas adecuadas para cada proyecto. Para obtener más información, consulta Cuotas y límites. |
¿Qué sigue?
- Elige un instructivo introductorio para comenzar con Vertex AI Training.
- Obtén más información sobre el entrenamiento de un modelo de AutoML.
- Obtén más información sobre cómo crear un trabajo de entrenamiento personalizado con Python.
- Obtén más información sobre Ray en Vertex AI.