En esta página se explica cómo eliminar errores comunes de un conjunto de datos al preparar datos en el espacio de trabajo de Wrangler de Cloud Data Fusion Studio.
En los conjuntos de datos se producen los siguientes tipos de errores:
- Errores sistémicos, como fallos de servicios o instancias
- Errores lógicos, como fallos en la ejecución de la canalización
- Errores en los datos, como números de tarjetas de crédito no válidos, formatos de fecha no válidos o códigos postales no válidos
Wrangler ofrece un conjunto de más de 50 directivas que te ayudan a eliminar los errores habituales de un conjunto de datos.
Para enviar registros a error, sigue estos pasos:
- Ve al espacio de trabajo de Wrangler en Cloud Data Fusion.
- En la pestaña Datos, vaya al nombre de una columna y haga clic en la flecha de expansión arrow_drop_down.
- Selecciona Enviar a error y, a continuación, la condición que envía los registros incorrectos a error.
Wrangler elimina los valores que coinciden con la condición especificada de la muestra y añade la directiva send to error a la receta. Cuando ejecutas la
pipeline de datos, la transformación se aplica a todos los valores de la columna.
Añadir un complemento de recopilador de errores a un flujo de procesamiento de datos
Cuando añades una transformación de Wrangler con una receta que incluye la directiva send to
error a una canalización de datos, puedes conectarla al complemento ErrorCollector. El complemento Error Collector suele estar conectado a un complemento de receptor de nivel inferior, como un receptor de BigQuery.
Cuando ejecutas el flujo de procesamiento, los registros marcados por la directiva send to error pasan del paso de transformación de Wrangler del flujo de procesamiento al paso de Error Collector y, después, al paso de receptor. Cuando finalice la ejecución, podrá examinar los registros marcados que se hayan escrito en el receptor.
Si tu receta incluye la transformación send to error, pero la canalización no incluye el complemento Error Collector, los registros marcados por la directiva send to
error se eliminan durante la ejecución de la canalización.