차원 축소 개요

차원 축소는 고차원 공간에서 데이터의 모양과 관계를 포착하고 이 정보를 저차원 공간으로 변환하는 데 사용되는 일련의 수학적 기법을 나타내는 일반적인 용어입니다.

수천 개의 특징이 포함될 수 있는 대규모 데이터 세트로 작업할 때는 차원을 줄이는 것이 중요합니다. 이러한 대규모 데이터 공간에서는 데이터 포인트 간 거리가 넓어 모델 출력을 해석하기가 어려울 수 있습니다. 예를 들어 어떤 데이터 포인트가 더 가까이 위치하여 더 유사한 데이터를 나타내는지 이해하기가 어렵습니다. 차원 축소를 사용하면 데이터 세트의 가장 중요한 특성을 유지하면서 특성 수를 줄일 수 있습니다. 특성 수를 줄이면 데이터를 입력으로 사용하는 모델의 학습 시간도 줄일 수 있습니다.

BigQuery ML은 차원 축소를 위해 다음과 같은 모델을 제공합니다.

ML.PREDICT 또는 AI.GENERATE_EMBEDDING 함수와 함께 PCA 및 자동 인코더 모델을 사용하여 데이터를 하위 차원 공간에 삽입하고 ML.DETECT_ANOMALIES 함수와 함께 사용하여 이상 감지를 실행할 수 있습니다.

차원 축소 모델의 출력을 다음과 같은 작업에 사용할 수 있습니다.

  • 유사성 검색: 임베딩을 기반으로 서로 유사한 데이터 포인트를 찾습니다. 이는 관련 제품을 찾거나, 유사한 콘텐츠를 추천하거나, 중복되거나 비정상적인 항목을 식별하는 데 유용합니다.
  • 클러스터링: 유사성을 기반으로 데이터 포인트를 그룹화하기 위해 k-평균 모델의 입력 기능으로 임베딩을 사용합니다. 이를 통해 데이터에 숨겨진 패턴과 인사이트를 발견할 수 있습니다.
  • 머신러닝: 임베딩을 분류 또는 회귀 모델의 입력 특성으로 사용합니다.

추론 함수와 CREATE MODEL 문의 기본 설정을 사용하면 ML 지식이 많지 않더라도 차원 축소 모델을 만들고 사용할 수 있습니다. 하지만 ML 개발에 대한 기본 지식이 있으면 데이터와 모델을 모두 최적화하여 더 나은 결과를 얻을 수 있습니다. 다음 리소스를 사용하여 ML 기법과 프로세스에 익숙해지는 것이 좋습니다.