Aprende a entrenar modelos de IA y AA en la extensión del kit de agentes de datos de Google Cloud para Visual Studio Code.
En esta guía de inicio rápido, usarás una plantilla de sesión y un notebook de Jupyter de muestra para predecir los importes de las propinas de los taxis de la ciudad de Nueva York. Con un kernel de Jupyter remoto con PySpark, pruebas varios modelos, como regresión lineal, bosque aleatorio y XGBoost. Este proceso te permite realizar inferencias y entrenamientos distribuidos. Demuestra la escalabilidad en varias máquinas con Spark ML y la biblioteca XGBoost.
Si bien no se abordan en este inicio rápido, existen varias formas de entrenar modelos de IA y AA con la extensión del kit de agentes de datos de Google Cloud para Visual Studio Code:
- Si tu conjunto de datos de entrenamiento es grande o deseas usar las capacidades de entrenamiento distribuido que ofrece Apache Spark, puedes usar notebooks de Spark con kernels remotos.
- Si tu conjunto de datos está en BigQuery y BigQuery ML admite tu caso de uso, puedes usar un notebook de BigQuery DataFrames.
- Si tu conjunto de datos es pequeño y quieres entrenar tu modelo de forma local, puedes usar un notebook de Python.
Crea una plantilla de entorno de ejecución de Spark
Las plantillas de entorno de ejecución de Spark sin servidores te permiten iniciar una sesión de Apache Spark con un conjunto determinado de configuraciones. Para crear una nueva plantilla de entorno de ejecución sin servidores, completa los siguientes pasos:
- En la barra de actividades del IDE, haz clic en el ícono de Google Cloud Data Agent Kit.
- En el menú de Google Cloud Data Agent Kit, expande Apache Spark.
- Expande Sin servidores y, luego, haz clic en + Crear tiempos de ejecución sin servidores. Aparecerá un formulario de creación de entorno de ejecución sin servidores.
- En el campo Nombre visible, escribe
ai-ml-tutorial. - Ve a la sección Auto Scaling.
- Establece
spark.dynamicAllocation.enabledcomo falso en la lista desplegable. Este parámetro de configuración es necesario para que XGBoost funcione con Apache Spark. - Deja todos los demás campos con la configuración predeterminada.
- Haz clic en Enviar.
Crear un notebook nuevo
A continuación, crea un nuevo notebook de Spark:
- En Apache Spark, en la pestaña Kit de herramientas de Google Cloud Data Agent, haz clic en + New Spark Notebook.
- Elige Remote Kernel para el tipo de kernel.
- Haz clic en Comienza con un notebook de muestra.
- En la lista de muestras, selecciona Ciencia de datos con PySpark y XGBoost distribuido. Aparecerá un notebook de Jupyter sin título.
Entrena tu modelo
- En la pestaña del notebook, haz clic en Ejecutar todo. El selector de kernel te pide que elijas un kernel con el que ejecutar el notebook.
- Haz clic en Select Another Kernel.
- Haz clic en Remote Spark Kernels.
- Selecciona ai-ml-tutorial on Serverless Spark, la plantilla de entorno de ejecución que creaste antes.
Verás la siguiente notificación mientras el sistema crea tu sesión de Spark sin servidores: Connecting to kernel: ai-ml-tutorial on Serverless Spark. Cuando el notebook se conecta al kernel remoto de PySpark, la ejecución comienza en la primera celda. Este proceso tarda entre dos y tres minutos aproximadamente.
Inspecciona tu sesión de Spark
- En la pestaña Google Cloud Data Agent Kit, en Apache Spark, expande la plantilla de tiempo de ejecución ai-ml-tutorial. El IDE muestra la lista de sesiones interactivas que creaste con esta plantilla de entorno de ejecución.
- Busca la sesión que creó el sistema ejecutando el notebook en la parte superior de la lista. Haz clic en la sesión para ver sus detalles. Puedes revisar la configuración de la sesión y los recursos que consumió el sistema para ejecutar tu notebook.
Realiza una limpieza
Después de ejecutar el notebook correctamente, realiza los siguientes pasos de limpieza.
- En la pestaña Google Cloud Data Agent Kit, en Apache Spark, haz clic con el botón derecho en Serverless y selecciona List Serverless Runtimes. Aparecerá la lista de entornos de ejecución sin servidor.
- Haz clic en el menú Acción de
ai-ml-tutorialpara enumerar todas las sesiones interactivas que el sistema creó a partir de tu plantilla. - En Acciones, haz clic en Borrar.
- Regresa a la ventana de Serverless Runtimes.
- En Acciones para
ai-ml-tutorial, haz clic en Borrar. - Haz clic en Confirmar para borrar la plantilla que creaste para este instructivo.