데이터를 다룰 때 '이 열 이름은 무슨 의미인가요?'와 같은 질문을 해 본 적이 있을 것입니다. '이 손상된 데이터 세트의 소유자는 누구야?' 또는 '이 테이블은 사용이 승인되었어?' 메타데이터 태그는 이러한 질문에 답하려고 하지만 빠르게 오래되거나 일관성이 없어집니다. Knowledge Catalog (이전 명칭: Dataplex Universal Catalog)를 사용하면 구조화된 메타데이터와 명확한 비즈니스 정의를 데이터 애셋에 직접 연결할 수 있으므로 이 문제가 해결됩니다. 명확한 데이터 컨텍스트를 제공하면 AI 에이전트의 근거가 되고 데이터와 상호작용하는 모든 사용자를 위한 신뢰의 기반이 구축됩니다.
이 튜토리얼에서는 Knowledge Catalog에서 데이터 컨텍스트를 설정하는 방법을 보여줍니다. 데이터 관리자, 비즈니스 분석가와 같은 사용자를 위해 설계된 이 튜토리얼에서는 이러한 워크플로를 자동화하기 전에 표준 비즈니스 용어와 컨텍스트를 빌드하는 UI 기반 단계를 안내합니다. 이 튜토리얼에서는 주요 Knowledge Catalog 개념 간의 관계를 설명합니다. 이 과정을 마치면 데이터를 검색 가능하고 신뢰할 수 있게 만드는 방법을 알게 됩니다.
목표
이 튜토리얼에서는 다음을 수행하는 방법을 알아봅니다.
- 비즈니스 용어집을 사용하여 비즈니스 용어에 대한 신뢰할 수 있는 단일 소스를 만드세요.
- 관점 유형을 사용하여 메타데이터를 구조화하고 정리합니다.
- 관점을 사용하여 데이터 애셋에 메타데이터를 연결합니다.
- Knowledge Catalog 검색을 사용하여 이 새로운 구조화된 메타데이터를 통해 필요한 정보를 정확하게 찾으세요.
시작하기 전에
시작하기 전에 다음을 수행합니다.
- 이 튜토리얼의 Google Cloud 프로젝트를 선택합니다.
- 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.
환경 설정
이 튜토리얼에서는 클라우드에서 실행되는 명령줄 환경인 Cloud Shell을 사용합니다.
Google Cloud 콘솔의 오른쪽 상단 툴바에서 Cloud Shell 활성화를 클릭합니다. 환경을 프로비저닝하고 연결하는 데 몇 분 정도 소요됩니다.
Cloud Shell에서 모든 후속 명령어가 특정 Google Cloud 프로젝트를 타겟팅하도록
PROJECT_ID및LOCATION변수를 설정합니다.export PROJECT_ID=$(gcloud config get-value project) gcloud config set project $PROJECT_ID export LOCATION="us-central1"필요한 Google Cloud 서비스를 사용 설정합니다.
gcloud services enable \ dataplex.googleapis.com \ bigquery.googleapis.com \ datacatalog.googleapis.com
BigQuery 데이터 세트 만들기 및 샘플 데이터 준비
다음 코드를 사용하여 BigQuery 데이터 세트를 만들고 샘플 CSV 거래를 테이블에 로드합니다. 표를 만들면 Knowledge Catalog에서 이를 검색하고 카탈로그에 항목을 만듭니다.
항목은 Knowledge Catalog의 데이터 애셋 표현이라고 생각하면 됩니다. 메타데이터를 연결할 수 있는 카탈로그의 레코드와 같습니다. BigQuery 테이블에 직접 컨텍스트를 추가 (또는 강화)하는 대신 Knowledge Catalog의 항목에 추가합니다.
# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
--description "Sample retail data for foundational data context tutorial" \
$PROJECT_ID:retail_data
# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv
# Load the data from the temporary CSV file into a BigQuery table
bq load \
--source_format=CSV \
--autodetect \
retail_data.transactions \
/tmp/transactions.csv
# (Optional) Clean up the temporary file
rm /tmp/transactions.csv
SELECT 쿼리를 실행하여 설정을 확인합니다.
bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"
출력 예시:
+----------------+------------------+-------+------------------+
| transaction_id | user_email | gmv | transaction_date |
+----------------+------------------+-------+------------------+
| 1001 | test@example.com | 150.5 | 2025-08-28 |
| 1002 | user@example.com | 75.0 | 2025-08-28 |
+----------------+------------------+-------+------------------+
비즈니스 용어집으로 공통 용어 설정하기
유용한 데이터 컨텍스트는 명확한 정의에 기반합니다. 예를 들어 개발자는 gmv라는 열이 총 상품 가치를 의미하는지, 세금과 반품이 포함되는지 추측할 필요가 없습니다. 비즈니스 용어집은 조직 전체에서 이러한 정의에 대한 단일 정보 소스를 만듭니다. 팀원이나 AI 에이전트가 데이터를 분석할 때 이 정확한 비즈니스 컨텍스트가 상속됩니다. 공유 정의는 재무, 영업, 운영과 같은 팀 간에 측정항목을 조정하고 AI 에이전트가 환각을 일으키지 않도록 지원합니다.
다음 단계에 따라 용어집을 만들고 첫 번째 용어를 정의합니다.
Google Cloud 콘솔에서 Knowledge Catalog 용어집 페이지로 이동합니다.
비즈니스 용어집 만들기를 클릭합니다.
다음 세부정보를 입력합니다.
- Display name(표시 이름):
Retail Business Glossary - 위치:
us-central1 (Iowa)
- Display name(표시 이름):
만들기를 클릭합니다.
카테고리 만들기를 클릭합니다.
카테고리 이름을
Sales Metrics로 지정하고 만들기를 클릭합니다.판매 측정항목 카테고리를 선택하고 용어 추가를 클릭합니다.
용어 이름을
Gross Merchandise Value로 지정하고 만들기를 클릭합니다.총 상품 가치 용어를 클릭하여 세부정보 페이지를 엽니다.
개요 옆의 추가를 클릭합니다. 다음 세부정보를 입력합니다.
The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.저장을 클릭합니다.
이제 조직 전체의 데이터 항목에 연결할 수 있는 용어집 용어를 만들었습니다.
관점 유형으로 기술 메타데이터 정의
비구조화된 메타데이터 태그를 사용하면 카탈로그 항목이 일관되지 않는 경우가 많습니다. 예를 들어 한 테이블은 owner:bob로 태그되고 다른 테이블은 steward:alice@example.com로 태그될 수 있습니다. 대규모로 메타데이터를 정리하려면 일관된 스키마가 필요합니다.
이때 관점 유형이 유용합니다. 관점 유형은 명확한 규칙과 필수 필드를 설정할 수 있는 메타데이터 청사진입니다. 데이터 스튜어드에 유효한 이메일 주소와 같은 표준 필드를 요구하면 다운스트림 스크립트에서 메타데이터를 자동으로 검증하고 보호할 수 있습니다.
관점 유형을 만들려면 다음 단계를 따르세요.
Google Cloud 콘솔의 메타데이터 유형 페이지에서 Knowledge Catalog 측면 유형 탭으로 이동합니다.
맞춤 탭에서 만들기를 클릭합니다.
다음 세부정보를 입력합니다.
- Display name(표시 이름):
Data Asset Context - 위치:
us-central1 (Iowa)
- Display name(표시 이름):
템플릿 섹션에서 필드 추가를 클릭하여 다음 세 필드를 만듭니다.
필드 1:
- Display name(표시 이름):
Data Steward - 유형:
Text - 필수: 체크박스를 선택합니다.
- 텍스트 유형:
Plain text
- Display name(표시 이름):
필드 2 (필드 추가 클릭):
- Display name(표시 이름):
Data Sensitivity - 유형:
Enum - 필수: 선택사항으로 둡니다.
- 값:
Public,Internal,Confidential추가
- Display name(표시 이름):
필드 3 (필드 추가 클릭):
- Display name(표시 이름):
Last Review Date - 필수: 선택사항으로 둡니다.
- 유형:
Date and time
- Display name(표시 이름):
저장을 클릭합니다.
이제 데이터 스튜어드, 민감도 수준, 검토 날짜와 같은 데이터 거버넌스 관련 메타데이터 필드의 관점 유형이 있습니다. 다음 섹션에서는 이러한 필드의 특정 값이 있는 측면을 연결하여 이 스키마를 테이블 항목에 적용합니다.
비즈니스 및 기술 컨텍스트로 항목 보강
열 이름이 약어로 표시되거나 모호한 경우가 많습니다. 비즈니스 용어집의 용어에 열을 연결하면 명확하고 일관된 정의를 제공할 수 있습니다. 이 단계에서는 Gross Merchandise Value 용어를 gmv이라는 열에 연결하고 관점 유형을 사용하여 테이블 항목에 관점을 연결하여 retail_data.transactions 테이블의 항목을 보강합니다.
열을 비즈니스 용어에 연결
retail_data.transactions의 gmv 열이 무엇인지 명확히 하려면 Gross Merchandise Value 용어에 연결하세요.
Google Cloud 콘솔에서 Knowledge Catalog 검색 페이지로 이동합니다.
필터를 클릭하여 필터 패널을 엽니다.
범위에서 현재 프로젝트를 선택합니다.
retail_data.transactions를 검색하고 반환된 거래 표를 클릭합니다.스키마 탭을 클릭합니다.
gmv열 옆의 체크박스를 선택하고 비즈니스 용어 추가를 클릭합니다.Gross Merchandise Value을 선택합니다.
표 항목에 관점 연결
비즈니스 용어를 열에 연결하는 것 외에도 관점을 표 항목에 연결하여 데이터 소유권 및 민감도와 같은 표 수준 메타데이터를 캡처할 수 있습니다.
관점은 메타데이터 필드의 특정 값을 갖는 관점 유형의 인스턴스입니다. 항목에 관점을 연결하면 Knowledge Catalog에서 제공된 정보가 관점 유형에 정의된 스키마와 일치하는지 확인하여 일관성을 유지합니다.
retail_data.transactions 테이블의 소유권과 민감도를 정의하려면 Data Asset Context 측면을 연결하세요.
retail_data.transactions항목 페이지의 세부정보 탭에서 선택적 관점 옆에 있는 추가를 클릭합니다.- 목록에서
Data Asset Context를 선택합니다. 필드에 값을 입력합니다.
- 데이터 스튜어드:
finance-team@example.com - 데이터 민감도: 내부를 선택합니다.
- 최종 검토일: 오늘 날짜를 선택합니다.
- 데이터 스튜어드:
저장을 클릭합니다.
샘플 소매 거래 데이터를 보강하여 Knowledge Catalog에서 데이터 컨텍스트의 견고한 기반을 설정했습니다.
보강된 메타데이터를 사용하여 항목 검색
이제 Knowledge Catalog 검색을 사용하여 설정한 비즈니스 컨텍스트를 기반으로 항목을 찾을 수 있습니다. 예를 들어 특정 민감도 수준이 있는 모든 애셋을 찾거나 용어집 용어를 검색하여 기본 테이블을 찾을 수 있습니다.
Google Cloud 콘솔에서 Knowledge Catalog 검색 페이지로 이동합니다.
필터를 클릭하여 필터 패널을 엽니다.
범위에서 현재 프로젝트를 선택합니다.
검색창에
Find tables where the Data Asset Context aspect has Internal sensitivity.를 입력합니다.결과 목록에
retail_data.transactions테이블이 표시됩니다.검색창을 지우고
Find tables with the Gross Merchandise Value term attached.를 입력합니다.gmv열이 이 비즈니스 용어에 직접 연결되어 있으므로 결과에retail_data.transactions표가 다시 표시됩니다.
AI 에이전트를 Knowledge Catalog에 연결하면 이 풍부한 메타데이터가 자동으로 상속됩니다. 예를 들어 상담사에게 내부 판매 측정항목을 가져오라고 요청하면 데이터 민감도 측면 (내부로 설정됨)과 연결된 총 상품 가치 용어를 읽습니다. 이 공유 컨텍스트는 에이전트가 데이터 소스를 확인하고, 액세스 정책을 준수하고, 환각 현상을 방지하는 데 도움이 됩니다.
삭제
요금이 발생하지 않도록 하려면 이 튜토리얼에서 만든 리소스를 삭제합니다.
샘플 데이터 세트 삭제
샘플 BigQuery 데이터 세트와 모든 테이블을 삭제하려면 다음 명령어를 사용하세요. 이 작업은 되돌릴 수 없습니다.
# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)
# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data
Knowledge Catalog 아티팩트 삭제
Google Cloud 콘솔의 메타데이터 유형 페이지에서 Knowledge Catalog 측면 유형 탭으로 이동합니다.
Data Asset Context관점 유형을 선택하고 삭제를 클릭합니다.Google Cloud 콘솔에서 Knowledge Catalog 용어집 페이지로 이동합니다.
Gross Merchandise Value용어를 선택하고 삭제를 클릭합니다.Sales Metrics카테고리를 선택하고 삭제를 클릭합니다.Retail Business Glossary를 선택하고 삭제를 클릭합니다.
다음 단계
카탈로그 선별 및 Knowledge Catalog를 사용한 에이전트 빌드에 대해 자세히 알아보려면 다음 리소스를 참고하세요.
- 관점 관리 및 메타데이터 보강: 관점 관리 및 메타데이터 보강에서 맞춤 스키마를 정의하고 구조화된 메타데이터를 첨부하는 방법을 알아봅니다.
- 비즈니스 용어집 관리: 비즈니스 용어집 관리에서 조직의 표준화된 어휘를 설정하는 방법을 알아보세요.
- Terraform으로 관리: Terraform을 사용하여 맞춤 관점 유형과 용어를 프로비저닝하는 방법을 알아봅니다.
- 대규모로 용어집 용어 작업: 용어집 및 항목 링크 가져오기 및 내보내기 정보의 JSON 파일을 사용하여 대량 메타데이터 보강을 실행합니다.
- 에이전트로 메타데이터 보강: 메타데이터를 보강하는 에이전트 빌드에서 컨텍스트를 추출하고 데이터 애셋을 보강하는 AI 에이전트를 빌드합니다.
- 더 둘러보기: 사용 사례에서 추가 실습 워크플로와 시나리오를 확인하세요.