Apache Spark용 관리형 서비스 서버리스 배포를 사용하면 Apache Spark용 관리형 서비스 클러스터를 프로비저닝하고 관리할 필요 없이 Spark 워크로드를 실행할 수 있습니다. Apache Spark용 관리형 서비스 워크로드를 실행하는 방법에는 일괄 워크로드와 대화형 세션의 두 가지가 있습니다.
일괄 워크로드
Google Cloud 콘솔, Google Cloud CLI 또는 REST API를 사용하여 일괄 워크로드를 제출합니다. Managed Service for Apache Spark는 관리형 컴퓨팅 인프라에서 워크로드를 실행하고 필요에 따라 리소스를 자동 확장합니다. 요금은 워크로드가 실행될 때만 적용됩니다.
일괄 워크로드 기능
다음과 같은 일괄 워크로드 유형을 실행할 수 있습니다.
- PySpark
- Spark SQL
- Spark R
- Spark(자바 또는 Scala)
일괄 워크로드를 제출할 때 Spark 속성을 지정할 수 있습니다.
일괄 워크로드 예약
Airflow 배치 연산자를 사용하여 Airflow 또는 Managed Service for Apache Airflow 워크플로의 일부로 Spark 배치 워크로드를 예약할 수 있습니다. 자세한 내용은 Managed Airflow로 Managed Service for Apache Spark 워크로드 실행을 참고하세요.
시작하기
시작하려면 Apache Spark 일괄 워크로드 실행을 참고하세요.
대화형 세션
대화형 세션 중에 Jupyter 노트북에서 코드를 작성하고 실행합니다. 다음과 같은 방법으로 노트북 세션을 만들 수 있습니다.
BigQuery Studio 노트북에서 PySpark 코드 실행 BigQuery Python 노트북을 열어 Spark Connect 기반 Managed Service for Apache Spark 대화형 세션을 만듭니다. 각 BigQuery 노트북에는 연결된 활성 관리형 Apache Spark 서비스 세션이 하나만 있을 수 있습니다.
JupyterLab 플러그인 사용: 자신이 만들고 관리하는 템플릿에서 여러 Jupyter 노트북 세션을 만듭니다. 로컬 머신 또는 Compute Engine VM에 플러그인을 설치하면 다양한 Spark 커널 구성에 해당하는 다양한 카드가 JupyterLab 런처 페이지에 표시됩니다. 카드를 클릭하여 Managed Service for Apache Spark 노트북 세션을 만든 후 노트북에서 코드 작성 및 테스트를 시작합니다.
JupyterLab 플러그인을 사용하면 JupyterLab 런처 페이지를 사용하여 다음 작업을 수행할 수도 있습니다.
- Apache Spark용 관리형 서비스 클러스터를 만듭니다.
- 클러스터에 작업을 제출합니다.
- Google Cloud 및 Spark 로그를 확인합니다.
보안 규정 준수
Managed Service for Apache Spark는 Managed Service for Apache Spark가 준수하는 모든 데이터 상주, CMEK, VPC-SC, 기타 보안 요구사항을 준수합니다.