이 시나리오에서는 Quarterly Census of Employment and Wages (QCEW)에서 파생된 데이터 세트가 포함된 BigQuery 프로젝트를 관리합니다. 프로젝트에는 고용 추세 추적 또는 임금 비교와 같은 다양한 대시보드 및 분석을 위한 수많은 테이블과 뷰가 포함되어 있습니다. 따라서 스토리지 비용이 증가합니다. 비용을 절감하기 위해 BigQuery 내에서 작업 또는 애셋의 소스로 활발하게 사용되지 않는 테이블 또는 뷰를 식별하여 삭제 후보로 지정합니다.
데이터 계보를 사용하여 다른 BigQuery 작업에서 소스로 사용되지 않는 애셋을 식별합니다. 각 애셋에서 다운스트림 링크를 확인하여 미사용 리소스에 삭제 플래그를 체계적으로 지정하여 스토리지 비용을 절감합니다.
시작하기
사용 사례를 완료하려면 먼저 환경을 설정하고 데이터 변환을 실행합니다. 기본 요건 및 설정 페이지를 사용하여 원격 저장소를 Dataform에 연결합니다. 이 저장소에는 데이터 세트를 설정하고 데이터를 변환하는 데 필요한 코드가 포함되어 있습니다.
환경 설정을 완료한 후 BigQuery 및 계보 탐색기를 사용하여 다운스트림 종속 항목이 없는 애셋을 시각적으로 식별합니다.
계보 탐색기로 사용되지 않는 애셋 식별
데이터 세트가 준비되면 다운스트림 종속 항목이 없는 애셋을 식별합니다. 개별 테이블의 경우 시각적으로 이 작업을 수행할 수 있지만 대규모 데이터 세트의 경우 프로그래매틱 방식을 사용할 수도 있습니다.
이 예에서는 활성 애셋과 독립형 애셋을 비교하여 안전하게 삭제할 수 있는 애셋을 확인합니다.
- Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.
- 검색창을 사용하여 독립형 표 (예: 특정 연도의 이전 분석 표)를 찾습니다.
- 계보 탭을 클릭합니다.
- 계보 탐색기 창에서 다음을 수행합니다.
- 방향 섹션에서 다운스트림 방향을 선택합니다.
- 적용을 클릭합니다.
그래프를 관찰합니다. 다운스트림 노드가 없으면 애셋이 추적된 다른 BigQuery 작업의 소스로 사용되지 않습니다. 데이터 계보 그래프로 데이터를 시각화하는 방법에 대한 자세한 내용은 계보 그래프 보기를 참고하세요.