Obtén información para entrenar modelos de IA y AA en la extensión Google Cloud Data Agent Kit para Antigravity.
En esta guía de inicio rápido, usarás una plantilla de sesión y un notebook de Jupyter de muestra para predecir los importes de las propinas de los taxis de la ciudad de Nueva York. Con un kernel de Jupyter remoto con PySpark, probarás varios modelos, como la regresión lineal, el bosque aleatorio y XGBoost. Este proceso te permite realizar entrenamiento e inferencia distribuidos. Demuestra la escalabilidad en varias máquinas con Spark ML y la biblioteca XGBoost.
Aunque no se abordan en esta guía de inicio rápido, existen varias formas de entrenar modelos de IA y AA con la extensión Google Cloud Data Agent Kit para Antigravity:
- Si tu conjunto de datos de entrenamiento es grande o quieres las capacidades de entrenamiento distribuido que ofrece Apache Spark, puedes usar notebooks de Spark con kernels remotos.
- Si tu conjunto de datos está en BigQuery y BigQuery ML admite tu caso de uso, puedes usar un notebook de BigQuery DataFrames.
- Si tu conjunto de datos es pequeño y quieres entrenar tu modelo de forma local, puedes usar un notebook de Python.
Crea una plantilla de entorno de ejecución de Spark
Las plantillas de entorno de ejecución de Spark sin servidores te permiten iniciar una sesión de Apache Spark con un conjunto determinado de configuraciones. Para crear una plantilla de entorno de ejecución sin servidores nueva, completa los siguientes pasos:
- En la barra de actividades del IDE, haz clic en el ícono de Google Cloud Data Agent Kit.
- En el menú de Google Cloud Data Agent Kit, expande Apache Spark.
- Expande Serverless y, luego, haz clic en + Create serverless runtimes. Aparecerá un formulario de creación de entorno de ejecución sin servidores.
- En el campo Nombre visible, ingresa
ai-ml-tutorial. - Ve a la sección Auto Scaling.
- Establece
spark.dynamicAllocation.enableden false en la lista desplegable. Este parámetro de configuración es necesario para que XGBoost funcione con Apache Spark. - Deja todos los demás campos establecidos en el valor predeterminado.
- Haz clic en Enviar.
Crear un notebook nuevo
A continuación, crea un notebook de Spark nuevo:
- En Apache Spark, en la pestaña Google Cloud Data Agent Kit, haz clic en + New Spark Notebook.
- Elige Remote Kernel para el tipo de kernel.
- Haz clic en Start with a sample notebook.
- En la lista de muestras, selecciona Data Science with PySpark and Distributed XGBoost. Aparecerá un notebook de Jupyter sin título.
Entrena tu modelo
- En la pestaña del notebook, haz clic en Run All. El selector de kernel te pedirá que selecciones un kernel para ejecutar el notebook.
- Haz clic en Select Another Kernel.
- Haz clic en Remote Spark Kernels.
- Selecciona ai-ml-tutorial on Serverless Spark, la plantilla de entorno de ejecución que creaste antes.
Verás la siguiente notificación mientras el sistema crea tu sesión de Spark sin servidores: Connecting to kernel: ai-ml-tutorial on Serverless Spark. Cuando el notebook se conecta al kernel de PySpark remoto, la ejecución comienza en la primera celda. Este proceso tarda aproximadamente de dos a tres minutos.
Inspecciona tu sesión de Spark
- En la pestaña Google Cloud Data Agent Kit, en Apache Spark, expande la plantilla de entorno de ejecución ai-ml-tutorial. El IDE muestra la lista de sesiones interactivas que creaste con esta plantilla de entorno de ejecución.
- Ubica la sesión que creó el sistema mediante la ejecución del notebook en la parte superior de la lista. Haz clic en la sesión para ver los detalles. Puedes revisar la configuración de la sesión y los recursos que consumió el sistema para ejecutar tu notebook.
Liberar espacio
Después de ejecutar el notebook correctamente, realiza los siguientes pasos de limpieza.
- En la pestaña Google Cloud Data Agent Kit, en Apache Spark, haz clic con el botón derecho en Serverless y selecciona List Serverless Runtimes. Aparecerá la lista de entornos de ejecución sin servidores.
- Haz clic en el menú Action para
ai-ml-tutorialy enumera todas las sesiones interactivas que creó el sistema a partir de tu plantilla. - En Actions, haz clic en Delete.
- Regresa a la ventana Serverless Runtimes.
- En Actions para
ai-ml-tutorial, haz clic en Delete. - Haz clic en Confirm para borrar la plantilla que creaste para este instructivo.