COUNT_DISTINCT 함수는 필드 하나에 있는 고유 항목의 개수를 집계합니다.
구문
COUNT_DISTINCT(X)
매개변수
X- 계산할 항목을 포함하는 필드 또는 표현식
COUNT_DISTINCT 함수의 작동 방식
COUNT_DISTINCT 함수는 매개변수 하나를 사용하며, 측정기준 이름 또는 집계를 생성하지 않는 표현식이 매개변수로 사용될 수 있습니다. COUNT_DISTINCT는 이러한 필드 또는 표현식에 있는 고유 항목의 총 개수를 반환합니다.
중복 항목을 포함한 모든 항목을 집계하려면 COUNT를 사용하세요.
예시
| Example formula | Output |
|---|---|
COUNT_DISTINCT(user_id) |
22,854,921 |
COUNT_DISTINCT(order_id) |
497,091,812 |
COUNT_DISTINCT의 제한사항
COUNT_DISTINCT 함수를 사용할 때는 다음 사항에 유의하세요.
COUNT_DISTINCT는 집계되지 않은 데이터와 함께 작동합니다.
**집계** 유형이 **자동** 인 필드를 포함한 측정항목이나 다른 집계 함수의 결과인 표현식에는 이 함수를 적용할 수 없습니다. 예를 들어 Google 애널리틱스 데이터 소스에서 COUNT_DISTINCT(Sessions)와 같은 수식을 사용하면 Sessions가 자동 집계된 필드이므로 오류가 발생합니다.
BigQuery 데이터에 APPROX_COUNT_DISTINCT 사용 고려
BigQuery 데이터 소스를 사용할 때 더 높은 쿼리 비용이 발생할 가능성을 없애려면 APPROX_COUNT_DISTINCT 함수를 사용해 보세요.
함수 푸시다운의 가변 결과
성능을 최적화하기 위해 데이터 스튜디오는 가능한 경우 COUNT_DISTINCT 계산을 기본 데이터 소스에 위임 (또는 '푸시다운')하려고 시도합니다. 실제 집계는 데이터 스튜디오가 아닌 연결된 시스템에서 실행되므로 결과는 해당 시스템에서 고유 집계를 구현하는 방식에 따라 달라질 수 있습니다.
예를 들어 고유 집계의 차이를 유발할 수 있는 요인은 다음과 같습니다.
- SQL 데이터베이스: SQL 언어에 따라 대소문자 구분, 후행 공백 비교 또는 null 값 집계를 고유한 방식으로 처리할 수 있습니다.
- 파일 기반 소스: CSV 파일과 같은 파일 커넥터의 경우 결과는 대상 사이트 파싱 동작 및 내부 엔진 작업에 따라 달라집니다.
- SaaS API: 클라우드 서비스 및 SaaS 커넥터는 대략적인 집계를 반환하거나 특정 필터링 로직을 적용할 수 있는 API 기능에 의해 제한됩니다.