데이터 변경이 워크플로에 미치는 영향 분석

이 시나리오에서는 의료 서비스 제공업체에서 제공하는 다양한 서비스가 사용되는 방식에 관한 기록을 저장하는 데이터베이스를 유지합니다. 데이터를 더 쉽게 사용할 수 있도록 테이블을 탐색하여 잠재적인 변경사항을 파악합니다. 변경사항을 구현하기 전에 개선사항이 기존 워크플로에 영향을 미치는지, 추가 조정이 필요한지 확인합니다.

이 튜토리얼에서는 데이터 계보를 사용하여 데이터 변환이 다운스트림 리소스와 리소스가 속한 워크플로에 미치는 영향을 파악합니다.

시작하기

사용 사례를 완료하려면 먼저 환경을 설정하고 데이터 변환을 실행합니다. 기본 요건 및 설정 페이지를 사용하여 원격 저장소를 Dataform에 연결합니다. 이 저장소에는 데이터 세트를 설정하고 데이터를 변환하는 데 필요한 코드가 포함되어 있습니다.

환경 설정을 완료한 후 BigQuery와 계보 탐색기를 사용하여 데이터 변환과 워크플로에 미치는 영향을 추적합니다.

계보 탐색기로 데이터 변환 분석

데이터 세트를 준비한 후 BigQuery 계보 탭을 사용하여 데이터 변환의 영향을 분석합니다.

데이터 무결성 확인

이 예에서는 의사 또는 공급업체가 Medicare 서비스를 제공하는 데 동의하는지 여부를 나타내는 medicare_participation_indicator 열을 살펴봅니다. 계보 그래프는 파생 테이블 간의 데이터 변환으로 인해 열 데이터 유형이 어떻게 변경되는지 보여줍니다.

  1. Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.
  2. 검색창을 사용하여 physicians_and_other_supplier_2012_original 표를 찾습니다.
  3. 계보 탭을 클릭합니다.
  4. 계보 탐색기 창에서 다음을 수행합니다.
    1. 열 수준 계보 섹션의 목록에서 medicare_participation_indicator 열 이름을 선택합니다.
    2. 방향 섹션에서 다운스트림 방향을 선택합니다.
    3. 적용을 클릭합니다.
  5. vertex_ai_model_final_features에 도달할 때까지 계보 경로를 확장합니다.
  6. supplier_stg3 테이블과 supplier_transform1 테이블 간의 경로 변경사항을 분석합니다.

    medicare_participation_indicator 열의 계보 추적
    medicare_participation_indicator 열의 계보 추적 시각화
    • 정확한 사본 경로 표시는 열이 변경되지 않고 통과하고 있음을 나타냅니다.
    • 기타 경로 표시에는 변환이 표시됩니다. 이 경로에서 데이터 유형 StringBoolean처럼 취급됩니다.

경로를 보면 열 데이터 유형이 변경되어 이러한 테이블을 사용하는 워크플로를 조정해야 할 수 있습니다.

중복 열 식별

이 예에서는 의료인이 국가 계획 및 의료인 열거 시스템 (NPPES)에 보유한 국가 의료인 식별자를 나열하는 nppes_credentials 열을 검사합니다.

  1. Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.
  2. 검색창을 사용하여 physicians_and_other_supplier_2012_original 표를 찾습니다.
  3. 계보 탭을 클릭합니다.
  4. 계보 탐색기 창에서 다음을 수행합니다.
    1. 열 수준 계보 섹션의 목록에서 nppes_credentials 열 이름을 선택합니다.
    2. 방향 섹션에서 다운스트림 방향을 선택합니다.
    3. 적용을 클릭합니다.
  5. 경로를 펼쳐 vertex_ai_model_final_features로 이어지는 다운스트림 계보가 있는지 확인합니다.

계보가 없다는 것은 이 열이 특정 워크플로와 관련이 없을 수 있으며 삭제해도 된다는 의미입니다.

데이터 계보 그래프로 데이터를 시각화하는 방법에 대한 자세한 내용은 계보 그래프 보기를 참고하세요.