Apache Spark용 관리형 서비스 서버리스 배포 개요

Apache Spark용 관리형 서비스 서버리스 배포를 사용하면 자체 Apache Spark용 관리형 서비스 클러스터를 프로비저닝하고 관리하지 않고도 Spark 워크로드를 실행할 수 있습니다. Apache Spark용 관리형 서비스 워크로드를 실행하는 방법에는 일괄 워크로드와 대화형 세션의 두 가지가 있습니다.

일괄 워크로드

콘솔, Google Cloud CLI 또는 REST API를 사용하여 일괄 워크로드를 제출합니다.Google Cloud Apache Spark용 관리형 서비스는 관리형 컴퓨팅 인프라에서 워크로드를 실행하고 필요에 따라 리소스를 자동 확장합니다. 요금은 워크로드가 실행될 때만 적용됩니다.

일괄 워크로드 기능

다음 일괄 워크로드 유형을 실행할 수 있습니다.

  • PySpark
  • Spark SQL
  • Spark R
  • Spark (자바 또는 Scala)

일괄 워크로드를 제출할 때 Spark 속성 을 지정할 수 있습니다.

일괄 워크로드 예약

Airflow 자세한 내용은 Cloud Composer로 Apache Spark용 관리형 서비스 워크로드 실행을 참고하세요.

시작하기

시작하려면 Apache Spark 일괄 워크로드 실행을 참고하세요.

대화형 세션

대화형 세션 중에 Jupyter 노트북에서 코드를 작성하고 실행합니다. 다음과 같은 방법으로 노트북 세션을 만들 수 있습니다.

  • BigQuery Studio 노트북에서 PySpark 코드를 실행합니다. BigQuery Python 노트북을 열어 Spark Connect 기반 Apache Spark용 관리형 서비스 대화형 세션을 만듭니다. 각 BigQuery 노트북에는 연결된 활성 Apache Spark용 관리형 서비스 세션이 하나만 있을 수 있습니다.

  • JupyterLab 플러그인 을 사용하여 자신이 만들고 관리하는 템플릿에서 여러 Jupyter 노트북 세션을 만듭니다. 로컬 머신 또는 Compute Engine VM에 플러그인을 설치하면 다양한 Spark 커널 구성에 해당하는 다양한 카드가 JupyterLab 런처 페이지에 표시됩니다. 카드를 클릭하여 Apache Spark용 관리형 서비스 노트북 세션을 만든 후 노트북에서 코드 작성 및 테스트를 시작합니다.

    JupyterLab 플러그인을 사용하면 JupyterLab 런처 페이지를 사용하여 다음 작업을 수행할 수도 있습니다.

    • Apache Spark용 관리형 서비스 클러스터를 만듭니다.
    • 클러스터에 작업을 제출합니다.
    • Spark 로그를 봅니다 Google Cloud .

보안 규정 준수

Apache Spark용 관리형 서비스는 Apache Spark용 관리형 서비스가 준수하는 모든 데이터 상주, CMEK, VPC-SC, 기타 보안 요구사항을 준수합니다.