En este caso, mantienes una base de datos que almacena registros sobre cómo se usan los diversos servicios que proporciona un proveedor de atención médica. Para que los datos sean más fáciles de usar, explora las tablas para identificar posibles cambios. Antes de implementar los cambios, identifica si alguna mejora afecta los flujos de trabajo existentes y si es necesario realizar ajustes adicionales.
En este instructivo, usarás el linaje de datos para identificar cómo las transformaciones de datos afectan los recursos posteriores y los flujos de trabajo de los que forman parte los recursos.
Comenzar
Para completar el caso de uso, primero configura el entorno y ejecuta las transformaciones de datos. Usa la página requisitos previos y configuración para conectar un repositorio remoto a Dataform. Este repositorio contiene el código necesario para configurar el conjunto de datos y transformar los datos.
Después de completar la configuración del entorno, usa BigQuery y el Explorador de linaje para hacer un seguimiento de las transformaciones de datos y el efecto que tienen en los flujos de trabajo.
Analiza las transformaciones de datos con el Explorador de linaje
Después de preparar el conjunto de datos, analiza el impacto de la transformación de datos con la pestaña Lineage de BigQuery.
Verificar la integridad de los datos
En este ejemplo, examina la columna medicare_participation_indicator, que indica si un médico o proveedor acepta brindar servicios para Medicare. El gráfico de linaje muestra cómo las transformaciones de datos entre las tablas derivadas generan cambios en los tipos de datos de las columnas:
- En la consola de Google Cloud , ve a la página BigQuery.
- Usa el campo de búsqueda para encontrar la tabla
physicians_and_other_supplier_2012_original. - Haz clic en la pestaña Linaje.
- En el panel Explorador de linaje, haz lo siguiente:
- En la sección Column Level Lineage, selecciona el nombre de la columna
medicare_participation_indicatorde la lista. - En la sección Dirección, selecciona la dirección Descendente.
- Haz clic en Aplicar.
- En la sección Column Level Lineage, selecciona el nombre de la columna
- Expande la ruta de linaje hasta llegar a
vertex_ai_model_final_features. Analiza los cambios de ruta entre la tabla
supplier_stg3y la tablasupplier_transform1:
Visualización del seguimiento del linaje para la columna medicare_participation_indicator- La marca de ruta Copia exacta indica que la columna pasa sin cambios.
- La marca de ruta Otro indica una transformación. En esta ruta, el tipo de datos
Stringse trata comoBoolean.
La ruta muestra que los tipos de datos de las columnas cambian, lo que podría requerir ajustes en los flujos de trabajo que usan estas tablas.
Identifica columnas redundantes
En este ejemplo, se examina la columna nppes_credentials, en la que se enumeran los números de registro nacional del proveedor que los profesionales tienen en el Sistema Nacional de Enumeración de Planes y Proveedores (NPPES):
- En la consola de Google Cloud , ve a la página BigQuery.
- Usa el campo de búsqueda para encontrar la tabla
physicians_and_other_supplier_2012_original. - Haz clic en la pestaña Linaje.
- En el panel Explorador de linaje, haz lo siguiente:
- En la sección Column Level Lineage, selecciona el nombre de la columna
nppes_credentialsde la lista. - En la sección Dirección, selecciona la dirección Descendente.
- Haz clic en Aplicar.
- En la sección Column Level Lineage, selecciona el nombre de la columna
- Expande la ruta para verificar si existe un linaje posterior que conduzca a
vertex_ai_model_final_features.
La ausencia de linaje significa que esta columna podría no ser relevante en este flujo de trabajo en particular y que incluso se puede borrar.
Para obtener más información sobre cómo visualizar datos con el gráfico de linaje de datos, consulta Vista del gráfico de linaje.