Aprende a entrenar modelos de IA y AA en la extensión Google Cloud Data Agent Kit para Visual Studio Code.
En esta guía de inicio rápido, usarás una plantilla de sesión y un notebook de Jupyter de muestra para predecir los importes de las propinas de los taxis de la ciudad de Nueva York. Con un kernel de Jupyter remoto con PySpark, probarás varios modelos, como la regresión lineal, el bosque aleatorio y XGBoost. Este proceso te permite realizar entrenamiento e inferencia distribuidos. Demuestra la escalabilidad en varias máquinas con Spark ML y la biblioteca XGBoost.
Aunque no se abordan en esta guía de inicio rápido, existen varias formas de entrenar modelos de IA y AA con la extensión Google Cloud Data Agent Kit para Visual Studio Code:
- Si tu conjunto de datos de entrenamiento es grande o deseas las capacidades de entrenamiento distribuido que ofrece Apache Spark, puedes usar notebooks de Spark con kernels remotos.
- Si tu conjunto de datos está en BigQuery y BigQuery ML admite tu caso de uso, puedes usar un notebook de BigQuery DataFrames.
- Si tu conjunto de datos es pequeño y deseas entrenar tu modelo de forma local, puedes usar un notebook de Python.
Antes de comenzar
Antes de comenzar, haz lo siguiente:
- Instala la extensión.
- Define la configuración de extensiones.
- Revisa la guía en Cómo encontrar y explorar datos.
Crea una plantilla de entorno de ejecución de Spark
Las plantillas de entorno de ejecución de Spark sin servidores te permiten iniciar una sesión de Apache Spark con un conjunto determinado de configuraciones. Para crear una plantilla de entorno de ejecución sin servidores nueva, completa los siguientes pasos:
- En la barra de actividades del IDE, haz clic en el ícono de Google Cloud Data Agent Kit.
- En el menú de Google Cloud Data Agent Kit, expande Apache Spark.
- Expande Serverless y, luego, haz clic en + Create serverless runtimes. Aparecerá un formulario de creación de entorno de ejecución sin servidores.
- En el campo Nombre visible, ingresa
ai-ml-tutorial. - Ve a la sección Auto Scaling.
- Establece
spark.dynamicAllocation.enableden false en la lista desplegable. Este parámetro de configuración es necesario para que XGBoost funcione con Apache Spark. - Deja todos los demás campos establecidos en el valor predeterminado.
- Haz clic en Enviar.
Crear un notebook nuevo
A continuación, crea un notebook de Spark nuevo:
- En Apache Spark, en la pestaña Google Cloud Data Agent Kit, haz clic en + New Spark Notebook.
- Elige Remote Kernel para el tipo de kernel.
- Haz clic en Start with a sample notebook.
- En la lista de muestras, selecciona Ciencia de datos con PySpark y XGBoost distribuido. Aparecerá un notebook de Jupyter sin título.
Entrena tu modelo
- En la pestaña del notebook, haz clic en Ejecutar todo. El selector de kernel te pedirá que selecciones un kernel para ejecutar el notebook.
- Haz clic en Seleccionar otro kernel.
- Haz clic en Kernels de Spark remotos.
- Selecciona ai-ml-tutorial en Spark sin servidores, la plantilla de entorno de ejecución que creaste antes.
Verás la siguiente notificación mientras el sistema crea tu sesión de Spark sin servidores: Connecting to kernel: ai-ml-tutorial on Serverless Spark. Cuando el notebook se conecta al kernel de PySpark remoto, la ejecución comienza en la primera celda. Este proceso tarda aproximadamente de dos a tres minutos.
Inspecciona tu sesión de Spark
- En la pestaña Google Cloud Data Agent Kit, en Apache Spark, expande la plantilla de entorno de ejecución ai-ml-tutorial. El IDE muestra la lista de sesiones interactivas que creaste con esta plantilla de entorno de ejecución.
- Ubica la sesión que creó el sistema mediante la ejecución del notebook en la parte superior de la lista. Haz clic en la sesión para ver los detalles. Puedes revisar la configuración de la sesión y los recursos que consumió el sistema para ejecutar tu notebook.
Limpia
Después de ejecutar el notebook correctamente, realiza los siguientes pasos de limpieza.
- En la pestaña Google Cloud Data Agent Kit, en Apache Spark, haz clic con el botón derecho en Serverless y selecciona List Serverless Runtimes. Aparecerá la lista de entornos de ejecución sin servidores.
- Haz clic en el menú Acción para
ai-ml-tutorialpara enumerar todas las sesiones interactivas que creó el sistema a partir de tu plantilla. - En Acciones, haz clic en Borrar.
- Regresa a la ventana de entornos de ejecución sin servidores.
- En Acciones para
ai-ml-tutorial, haz clic en Borrar. - Haz clic en Confirmar para borrar la plantilla que creaste para este instructivo.