이 시나리오에서는 의료 서비스 제공업체에서 제공하는 다양한 서비스가 사용되는 방식에 관한 기록을 저장하는 데이터베이스를 유지합니다. 데이터를 더 쉽게 사용할 수 있도록 테이블을 탐색하여 잠재적인 변경사항을 파악합니다. 변경사항을 구현하기 전에 개선사항이 기존 워크플로에 영향을 미치는지, 추가 조정이 필요한지 확인합니다.
이 튜토리얼에서는 데이터 계보를 사용하여 데이터 변환이 다운스트림 리소스와 리소스가 속한 워크플로에 미치는 영향을 파악합니다.
시작하기
사용 사례를 완료하려면 먼저 환경을 설정하고 데이터 변환을 실행합니다. 기본 요건 및 설정 페이지를 사용하여 원격 저장소를 Dataform에 연결합니다. 이 저장소에는 데이터 세트를 설정하고 데이터를 변환하는 데 필요한 코드가 포함되어 있습니다.
환경 설정을 완료한 후 BigQuery와 계보 탐색기를 사용하여 데이터 변환과 워크플로에 미치는 영향을 추적합니다.
계보 탐색기로 데이터 변환 분석
데이터 세트를 준비한 후 BigQuery 계보 탭을 사용하여 데이터 변환의 영향을 분석합니다.
데이터 무결성 확인
이 예에서는 의사 또는 공급업체가 Medicare 서비스를 제공하는 데 동의하는지 여부를 나타내는 medicare_participation_indicator 열을 살펴봅니다. 계보 그래프는 파생 테이블 간의 데이터 변환으로 인해 열 데이터 유형이 어떻게 변경되는지 보여줍니다.
- Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.
- 검색창을 사용하여
physicians_and_other_supplier_2012_original표를 찾습니다. - 계보 탭을 클릭합니다.
- 계보 탐색기 창에서 다음을 수행합니다.
- 열 수준 계보 섹션의 목록에서
medicare_participation_indicator열 이름을 선택합니다. - 방향 섹션에서 다운스트림 방향을 선택합니다.
- 적용을 클릭합니다.
- 열 수준 계보 섹션의 목록에서
vertex_ai_model_final_features에 도달할 때까지 계보 경로를 확장합니다.supplier_stg3테이블과supplier_transform1테이블 간의 경로 변경사항을 분석합니다.
medicare_participation_indicator열의 계보 추적 시각화- 정확한 사본 경로 표시는 열이 변경되지 않고 통과하고 있음을 나타냅니다.
- 기타 경로 표시에는 변환이 표시됩니다. 이 경로에서 데이터 유형
String은Boolean처럼 취급됩니다.
경로를 보면 열 데이터 유형이 변경되어 이러한 테이블을 사용하는 워크플로를 조정해야 할 수 있습니다.
중복 열 식별
이 예에서는 의료인이 국가 계획 및 의료인 열거 시스템 (NPPES)에 보유한 국가 의료인 식별자를 나열하는 nppes_credentials 열을 검사합니다.
- Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.
- 검색창을 사용하여
physicians_and_other_supplier_2012_original표를 찾습니다. - 계보 탭을 클릭합니다.
- 계보 탐색기 창에서 다음을 수행합니다.
- 열 수준 계보 섹션의 목록에서
nppes_credentials열 이름을 선택합니다. - 방향 섹션에서 다운스트림 방향을 선택합니다.
- 적용을 클릭합니다.
- 열 수준 계보 섹션의 목록에서
- 경로를 펼쳐
vertex_ai_model_final_features로 이어지는 다운스트림 계보가 있는지 확인합니다.
계보가 없다는 것은 이 열이 특정 워크플로와 관련이 없을 수 있으며 삭제해도 된다는 의미입니다.
데이터 계보 그래프로 데이터를 시각화하는 방법에 대한 자세한 내용은 계보 그래프 보기를 참고하세요.