持続可能性のためにデータとストレージを最適化する

Last reviewed 2026-01-28 UTC

Google Cloud Well-Architected Framework のサステナビリティの柱におけるこの原則では、 Google Cloudのストレージ リソースのエネルギー効率と二酸化炭素排出量を最適化するうえで役に立つ推奨事項が示されています。

原則の概要

保存されたデータは受動的なリソースではありません。データのライフサイクル全体でエネルギーが消費され、二酸化炭素が排出されます。保存されたデータの 1 ギガバイトごとに、継続的に電源が供給され、冷却され、管理される物理インフラストラクチャが必要です。持続可能なクラウド アーキテクチャを実現するには、データを価値があるが環境コストの高い資産として扱い、事前対応型のデータ ガバナンスを優先します。

データの保持、品質、ロケーションに関する決定は、クラウド費用とエネルギー消費量を大幅に削減するのに役立ちます。保存するデータを最小限に抑え、データの保存場所と保存方法を最適化し、自動削除とアーカイブ戦略を実装します。データ クラッターを減らすと、システム パフォーマンスが向上し、データの長期的な環境フットプリントが根本的に削減されます。

推奨事項

持続可能性を高めるためにデータ ライフサイクルとストレージ リソースを最適化するには、次のセクションの推奨事項を検討してください。

価値の高いデータを優先する

未使用、重複、または廃止された保存データは、基盤となるインフラストラクチャの電力を消費し続けます。ストレージ関連のカーボン フットプリントを削減するには、次の手法を使用します。

重複を特定して排除する

複数の Google Cloud プロジェクトまたはサービス間でデータセットが不必要に複製されないようにするポリシーを確立します。BigQuery データセットCloud Storage バケットなどの一元化されたデータ リポジトリを唯一の信頼できる情報源として使用し、これらのリポジトリへの適切なアクセス権を付与します。

シャドー データとダークデータを削除する

ダークデータとは、有用性や所有者が不明なデータです。シャドーデータとは、データの不正なコピーを意味します。Dataplex Universal Catalog などのデータ検出とカタログ化ソリューションを使用して、ストレージ システムをスキャンし、ダークデータとシャドーデータを見つけます。これらの結果を定期的に監査し、必要に応じてダークデータとシャドーデータのアーカイブまたは削除のプロセスを実装します。

AI ワークロードのデータ量を最小限に抑える

モデルのトレーニングとサービングに必要な特徴量と処理済みデータのみを保存します。可能な場合は、データ サンプリング、集計、合成データ生成などの手法を使用して、大規模な元データセットに依存せずにモデルのパフォーマンスを実現します。

データ品質チェックを統合する

データ取り込み時に、DataprocDataflow、Dataplex Universal Catalog などのサービスを使用して、自動データ検証とデータ クリーニングのパイプラインを実装します。低品質のデータは、ストレージ容量の無駄につながります。また、後でデータが分析や AI トレーニングに使用されるときに、不必要なエネルギー消費につながります。

データの値密度を確認する

ログや IoT ストリームなどの大容量データセットを定期的に確認します。必要な情報密度を維持し、物理ストレージの容量を削減するために、データを要約、集計、ダウンサンプリングできるかどうかを判断します。

バックアップの必要性を批判的に評価する

最小限の労力で再生成できるデータのバックアップの必要性を評価します。このようなデータの例としては、中間 ETL 結果、エフェメラル キャッシュ、安定した永続的なソースから派生したトレーニング データなどがあります。バックアップは、一意のデータまたは再作成にコストがかかるデータのみを保持します。

ストレージ ライフサイクル管理を最適化する

データの有用性が低下したときに、データがエネルギー効率の高いストレージ クラスに移動されるか、適切に廃止されるように、ストレージのライフサイクルを自動化します。次の手法を使用します。

適切な Cloud Storage クラスを選択する

オブジェクトのライフサイクル管理を使用して、Cloud Storage 内のデータをアクセス頻度に基づいて低炭素ストレージ クラスに自動的に移行します。

  • Standard ストレージは、現在の本番環境モデルなど、アクティブに使用されているデータセットにのみ使用します。
  • 古い AI トレーニング データセットやアクセス頻度の低いバックアップなどのデータを Nearline ストレージまたは Coldline ストレージに移行します。
  • 長期保存には、大規模なエネルギー効率に最適化された Archive ストレージを使用します。

積極的なデータ ライフサイクル ポリシーを実装する

ログファイル、一時モデル アーティファクト、古い中間結果など、重要でないデータに対して明確で自動化された有効期間(TTL)ポリシーを定義します。ライフサイクル ルールを使用して、定義された期間の経過後にこのようなデータを自動的に削除します。

リソースのタグ付けを義務付ける

すべての Cloud Storage バケット、BigQuery データセット、永続ディスクで一貫したリソースタグとラベルの使用を義務付けます。データの所有者、データの目的、保持期間を示すタグを作成します。組織のポリシー サービスの制約を使用して、保持期間などの必要なタグがリソースに適用されていることを確認します。タグを使用すると、ライフサイクル管理の自動化、詳細な FinOps レポートの作成、炭素排出量レポートの作成を行うことができます。

コンピューティング ストレージのサイズを適正化してプロビジョニング解除する

Compute Engine インスタンスにアタッチされている永続ディスクを定期的に監査し、ディスクがオーバー プロビジョニングされていないことを確認します。スナップショットは、バックアップに必要な場合にのみ使用してください。古い未使用のスナップショットを削除します。データベースの場合は、データ保持ポリシーを使用して、基盤となる永続ディスクのサイズを削減します。

ストレージ形式を最適化する

分析ワークロードに使用するストレージには、JSON や CSV などの行ベースの形式よりも、Parquet や最適化された Avro などの圧縮された列形式を使用することをおすすめします。列形式のストレージは、物理ディスク容量の要件を大幅に削減し、読み取り効率を向上させます。この最適化により、関連するコンピューティング オペレーションと I/O オペレーションのエネルギー消費量を削減できます。

地域性とデータ移動を最適化する

データの物理的なロケーションと移動は、ネットワーク リソースの使用量とストレージに必要なエネルギーに影響します。次の手法を使用して、データの地域性を最適化します。

低炭素ストレージ リージョンを選択する

コンプライアンス要件に応じて、カーボンフリー エネルギー(CFE)の割合が高いリージョン、またはグリッドの二酸化炭素排出原単位が低いリージョンにデータを保存します。 Google Cloud リソース ロケーションの組織のポリシーの制約を使用して、高炭素排出地域のストレージ バケットの作成を制限します。 Google Cloud リージョンの CFE と二酸化炭素排出原単位のデータについては、 Google Cloud リージョンのカーボンフリー エネルギーをご覧ください。

レプリケーションを最小限に抑える

必須の障害復旧(DR)または高可用性(HA)の要件を満たす場合にのみ、リージョン間でデータを複製します。クロスリージョンとマルチリージョンのレプリケーション オペレーションは、データのエネルギー コストとカーボン フットプリントを大幅に増加させます。

データ処理のロケーションを最適化する

ネットワーク データ転送のエネルギー消費量を削減するには、AI トレーニングや BigQuery 処理などのコンピューティング負荷の高いワークロードをデータソースと同じリージョンにデプロイします。

パートナーと顧客のデータ移動を最適化する

クラウド サービス、ロケーション、プロバイダ間で大量のデータを移動するには、パートナーとお客様に Storage Transfer Service またはデータ共有 API の使用を推奨します。大量のデータダンプは避けてください。一般公開データセットの場合は、リクエスト元の支払バケットを使用して、データ転送と処理の費用と環境への影響をエンドユーザーに転嫁します。