您可以在叢集上使用 Managed Service for Apache Spark,運用開放原始碼資料工具執行批次處理、查詢、串流和機器學習工作。透過叢集自動化功能,您可以快速建立及輕鬆管理 Managed Service for Apache Spark,並關閉不需要的叢集來節省費用。省下管理作業所需的時間與費用之後,您就能專心處理工作與資料。
叢集上 Managed Service for Apache Spark 的優點
與傳統內部部署的產品和競爭對手的雲端服務相比,Managed Service for Apache Spark 能為節點數從三到數百個的叢集提供許多獨特的優勢:
- 低成本:除了您使用的其他 Google Cloud 資源之外,叢集上的 Managed Service for Apache Spark 在叢集中每小時每個虛擬 CPU 的費用只要 1 美分。除了價格便宜之外,Managed Service for Apache Spark 叢集還包含有助降低運算費用的先佔執行個體,讓您能夠進一步降低成本。叢集上的 Managed Service for Apache Spark 會以秒為單位計費,且最低計費時間為一分鐘,因此您只須支付實際用量費用,不必像其他服務一樣,以小時為單位計費。
- 超快速:如果不使用叢集上的 Managed Service for Apache Spark,在地端部署環境或透過 IaaS 業者建立 Spark 和 Hadoop 叢集,通常需要 5 到 30 分鐘的時間。與之相比,Managed Service for Apache Spark 叢集具有啟動快速、資源調度快速及關閉快速的優點,每項作業平均只需花 90 秒或不到 90 秒就能完成。這代表等候叢集的時間縮短了,可以有更多時間處理資料。
- 整合式:叢集上的 Managed Service for Apache Spark 已與其他 Google Cloud 服務整合,例如 BigQuery、Cloud Storage、Bigtable、Cloud Logging 和 Cloud Monitoring,因此您擁有的不只是 Spark 或 Hadoop 叢集,而是完整的資料平台。舉例來說,您可以在叢集上使用 Managed Service for Apache Spark,輕鬆將數 TB 的原始記錄資料直接 ETL 到 BigQuery,以製作業務報表。
- 代管:無需藉助管理員或特殊軟體即可使用 Spark 和 Hadoop 叢集。您可以透過 Google Cloud 控制台、Cloud SDK 或 Managed Service for Apache Spark on clusters REST API,與叢集和 Spark 或 Hadoop 工作互動。完成叢集作業後,您可以關閉叢集,避免在閒置叢集上花費金錢。您不必擔心資料遺失,因為 Managed Service for Apache Spark 已與 Cloud Storage、BigQuery 和 Bigtable 整合。
- 簡單熟悉:您無需學習新工具或 API 就能在叢集上使用 Managed Service for Apache Spark,並且輕輕鬆鬆就能將現有專案遷移到叢集上的 Managed Service for Apache Spark,完全不需要重新開發。Spark、Hadoop、Pig 和 Hive 會經常更新,讓您能夠提升工作效率。
叢集上的 Managed Service for Apache Spark 包含哪些內容?
如需 Managed Service for Apache Spark 叢集支援的開放原始碼產品 (Hadoop、Spark、Hive 和 Pig) 及連接器版本清單,請參閱 Managed Service for Apache Spark 叢集映像檔版本清單。 Google Cloud
開始使用
如要開始使用,請參閱叢集上的 Managed Service for Apache Spark 快速入門指南。您可以透過下列方式存取叢集上的 Managed Service for Apache Spark:
- 透過 REST API
- 使用 Cloud SDK
- 使用Google Cloud 控制台
- 使用 Cloud 用戶端程式庫