透過 Managed Service for Apache Spark,您可以充分運用開放原始碼資料工具,執行批次處理、查詢、串流和機器學習作業。Managed Service for Apache Spark 自動化功能有助於快速建立叢集、輕鬆管理叢集,並在不使用叢集時關閉叢集以節省支出。省下管理作業所需的時間與費用之後,您就能專心處理工作與資料。
Managed Service for Apache Spark 的優點
與傳統地端部署的產品和競爭對手的雲端服務相比,Managed Service for Apache Spark 能為節點數從三到數百個的叢集提供許多獨特的優勢:
- 低成本:除了您使用的其他 Cloud Platform 資源之外,Managed Service for Apache Spark 在叢集中每小時每個虛擬 CPU 的費用只要 1 美分。除了價格低廉之外,Managed Service for Apache Spark 叢集還包含有助降低運算費用的先佔執行個體,讓您能夠進一步降低成本。相較於會把您的使用時間調高至最接近小時的其他服務,Managed Service for Apache Spark 可根據您的實際使用時間按秒計費,並提供價格便宜的最少一分鐘計費週期。
- 超快速:如果不使用 Managed Service for Apache Spark,在地端部署環境或透過 IaaS 業者建立 Spark 和 Hadoop 叢集,通常需要 5 到 30 分鐘的時間。與之相比,Managed Service for Apache Spark 叢集具有啟動快速、資源調度快速及關閉快速的優點,每項作業平均只需花 90 秒或不到 90 秒就能完成。這代表等候叢集的時間縮短了,可以有更多時間處理資料。
- 整合式:Managed Service for Apache Spark 已內建與其他 Google Cloud 服務的整合功能,例如 BigQuery、Cloud Storage、Bigtable、Cloud Logging 和 Cloud Monitoring,因此您擁有的不只是 Spark 或 Hadoop 叢集,而是完整的資料平台。舉例來說,您可以使用 Managed Service for Apache Spark,輕鬆將數 TB 的原始記錄資料直接 ETL 到 BigQuery,以製作業務報表。
- 代管:無需藉助管理員或特殊軟體即可使用 Spark 和 Hadoop 叢集。您可以透過 Google Cloud 控制台、Cloud SDK 或 Managed Service for Apache Spark REST API,與叢集和 Spark 或 Hadoop 工作互動。完成工作後,您可以關閉叢集,避免在閒置叢集上花費。您不用擔心會遺失資料,因為 Managed Service for Apache Spark 已經和 Cloud Storage、BigQuery 及 Bigtable 整合在一起。
- 簡單熟悉:您無需學習新工具或 API 就能使用 Managed Service for Apache Spark,並且輕輕鬆鬆就能將現有專案遷移到 Managed Service for Apache Spark,完全不需要重新開發。Spark、Hadoop、Pig 和 Hive 會經常更新,讓您能夠提升工作效率。
Managed Service for Apache Spark 包含哪些內容?
如需 Managed Service for Apache Spark 支援的開放原始碼產品 (Hadoop、Spark、Hive 和 Pig) 及連接器版本清單,請參閱 Managed Service for Apache Spark 叢集映像檔版本清單。 Google Cloud
開始使用
如要開始使用,請參閱 Managed Service for Apache Spark 快速入門指南。您可以透過下列方式存取 Managed Service for Apache Spark:
- 透過 REST API
- 使用 Cloud SDK
- 使用Google Cloud 控制台
- 使用 Cloud 用戶端程式庫