Apache Spark용 서버리스 개요

Google Cloud Apache Spark용 서버리스를 사용하면 자체 Dataproc 클러스터를 프로비저닝하고 관리할 필요 없이 Spark 워크로드를 실행할 수 있습니다. Apache Spark용 서버리스 워크로드를 실행하는 방법에는 일괄 워크로드와 대화형 세션의 두 가지가 있습니다.

일괄 워크로드

콘솔, Google Cloud CLI 또는 Dataproc API를 사용하여 Apache Spark용 서버리스 서비스에 일괄 워크로드를 제출합니다.Google Cloud 이 서비스는 관리되는 컴퓨팅 인프라에서 워크로드를 실행하여 필요에 따라 리소스를 자동 확장합니다. Apache Spark용 서버리스 요금은 워크로드가 실행될 때만 적용 됩니다.

일괄 워크로드 기능

다음과 같은 Apache Spark용 서버리스 일괄 워크로드 유형을 실행할 수 있습니다.

  • PySpark
  • Spark SQL
  • Spark R
  • Spark (자바 또는 Scala)

Apache Spark용 서버리스 일괄 워크로드를 제출할 때 Spark 속성 을 지정할 수 있습니다.

일괄 워크로드 예약

Airflow 자세한 내용은 Cloud Composer로 Apache Spark용 서버리스 워크로드 실행을 참조하세요.

시작하기

시작하려면 Apache Spark 일괄 워크로드 실행을 참조하세요.

대화형 세션

Apache Spark용 서버리스 대화형 세션 중에 Jupyter 노트북에서 코드를 작성하고 실행합니다. 다음과 같은 방법으로 노트북 세션를 만들 수 있습니다.

  • BigQuery Studio 노트북에서 PySpark 코드를 실행합니다. BigQuery Python 노트북을 열어 Spark Connect 기반 Apache Spark용 서버리스 대화형 세션을 만듭니다. 각 BigQuery 노트북에는 연결된 활성 Apache Spark용 서버리스 세션 하나만 있을 수 있습니다.

  • Dataproc JupyterLab 플러그인 을 사용하여 자신이 만들고 관리하는 템플릿에서 여러 Jupyter 노트북 세션을 만듭니다. 로컬 머신 또는 Compute Engine VM에 플러그인을 설치하면 다양한 Spark 커널 구성에 해당하는 다양한 카드가 JupyterLab 런처 페이지에 표시됩니다. 카드를 클릭하여 Apache Spark용 서버리스 노트북 세션을 만든 후 노트북에서 코드 작성 및 테스트를 시작합니다.

    Dataproc JupyterLab 플러그인을 사용하면 JupyterLab 런처 페이지를 사용하여 다음 작업을 수행할 수도 있습니다.

    • Compute Engine 클러스터 기반 Dataproc을 만듭니다.
    • Compute Engine 클러스터 기반 Dataproc에 작업을 제출합니다.
    • Spark 로그를 확인합니다. Google Cloud

보안 규정 준수

Apache Spark용 서버리스는 Dataproc이 준수하는 모든 데이터 상주, CMEK, VPC-SC, 기타 보안 요구사항을 준수합니다.