持続可能性のためにデータとストレージを最適化する

Last reviewed 2026-01-28 UTC

Google Cloud Well-Architected Framework のサステナビリティの柱におけるこの原則では、 Google Cloudのストレージリソースのエネルギー効率と二酸化炭素排出量を最適化するうえで役に立つ推奨事項が示されています。

原則の概要

保存されたデータは受動的なリソースではありません。データのライフサイクル全体でエネルギーが消費され、二酸化炭素が排出されます。保存されたデータの 1 ギガバイトごとに、継続的に電源が供給され、冷却され、管理される物理インフラストラクチャが必要です。持続可能なクラウドアーキテクチャを実現するには、データを価値があるが環境コストの高い資産として扱い、事前対応型のデータガバナンスを優先します。

データの保持、品質、ロケーションに関する決定は、クラウド費用とエネルギー消費量を大幅に削減するのに役立ちます。保存するデータを最小限に抑え、データの保存場所と保存方法を最適化し、自動削除とアーカイブ戦略を実装します。データクラッターを減らすと、システムパフォーマンスが向上し、データの長期的な環境フットプリントが根本的に削減されます。

推奨事項

持続可能性を高めるためにデータライフサイクルとストレージリソースを最適化するには、次のセクションの推奨事項を検討してください。

価値の高いデータを優先する

未使用、重複、または廃止された保存データは、基盤となるインフラストラクチャの電力を消費し続けます。ストレージ関連のカーボンフットプリントを削減するには、次の手法を使用します。

重複を特定して排除する

複数の Google Cloud プロジェクトまたはサービス間でデータセットが不必要に複製されないようにするポリシーを確立します。BigQuery データセットや Cloud Storage バケットなどの一元化されたデータリポジトリを唯一の信頼できる情報源として使用し、これらのリポジトリへの適切なアクセス権を付与します。

シャドーデータとダークデータを削除する

ダークデータとは、有用性や所有者が不明なデータです。シャドーデータとは、データの不正なコピーを意味します。Dataplex Universal Catalog などのデータ検出とカタログ化ソリューションを使用して、ストレージシステムをスキャンし、ダークデータとシャドーデータを見つけます。これらの結果を定期的に監査し、必要に応じてダークデータとシャドーデータのアーカイブまたは削除のプロセスを実装します。

AI ワークロードのデータ量を最小限に抑える

モデルのトレーニングとサービングに必要な特徴量と処理済みデータのみを保存します。可能な場合は、データサンプリング、集計、合成データ生成などの手法を使用して、大規模な元データセットに依存せずにモデルのパフォーマンスを実現します。

データ品質チェックを統合する

データ取り込み時に、Dataproc、Dataflow、Dataplex Universal Catalog などのサービスを使用して、自動データ検証とデータクリーニングのパイプラインを実装します。低品質のデータは、ストレージ容量の無駄につながります。また、後でデータが分析や AI トレーニングに使用されるときに、不必要なエネルギー消費につながります。

データの値密度を確認する

ログや IoT ストリームなどの大容量データセットを定期的に確認します。必要な情報密度を維持し、物理ストレージの容量を削減するために、データを要約、集計、ダウンサンプリングできるかどうかを判断します。

バックアップの必要性を批判的に評価する

最小限の労力で再生成できるデータのバックアップの必要性を評価します。このようなデータの例としては、中間 ETL 結果、エフェメラルキャッシュ、安定した永続的なソースから派生したトレーニングデータなどがあります。バックアップは、一意のデータまたは再作成にコストがかかるデータのみを保持します。

ストレージライフサイクル管理を最適化する

データの有用性が低下したときに、データがエネルギー効率の高いストレージクラスに移動されるか、適切に廃止されるように、ストレージのライフサイクルを自動化します。次の手法を使用します。

適切な Cloud Storage クラスを選択する

オブジェクトのライフサイクル管理を使用して、Cloud Storage 内のデータをアクセス頻度に基づいて低炭素ストレージクラスに自動的に移行します。

Standard ストレージは、現在の本番環境モデルなど、アクティブに使用されているデータセットにのみ使用します。
古い AI トレーニングデータセットやアクセス頻度の低いバックアップなどのデータを Nearline ストレージまたは Coldline ストレージに移行します。
長期保存には、大規模なエネルギー効率に最適化された Archive ストレージを使用します。

積極的なデータライフサイクルポリシーを実装する

ログファイル、一時モデルアーティファクト、古い中間結果など、重要でないデータに対して明確で自動化された有効期間（TTL）ポリシーを定義します。ライフサイクルルールを使用して、定義された期間の経過後にこのようなデータを自動的に削除します。

リソースのタグ付けを義務付ける

すべての Cloud Storage バケット、BigQuery データセット、永続ディスクで一貫したリソースタグとラベルの使用を義務付けます。データの所有者、データの目的、保持期間を示すタグを作成します。組織のポリシーサービスの制約を使用して、保持期間などの必要なタグがリソースに適用されていることを確認します。タグを使用すると、ライフサイクル管理を自動化し、詳細な FinOps レポートを作成して、炭素排出量レポートを作成できます。

コンピューティングストレージのサイズを適正化してプロビジョニング解除する

Compute Engine インスタンスにアタッチされている永続ディスクを定期的に監査し、ディスクがオーバープロビジョニングされていないことを確認します。スナップショットは、バックアップに必要な場合にのみ使用してください。古い未使用のスナップショットを削除します。データベースの場合は、データ保持ポリシーを使用して、基盤となる永続ディスクのサイズを削減します。

ストレージ形式を最適化する

分析ワークロードに使用するストレージには、JSON や CSV などの行ベースの形式よりも、Parquet や最適化された Avro などの圧縮された列形式を使用することをおすすめします。列形式のストレージは、物理ディスク容量の要件を大幅に削減し、読み取り効率を向上させます。この最適化により、関連するコンピューティングオペレーションと I/O オペレーションのエネルギー消費量を削減できます。

地域性とデータ移動を最適化する

データの物理的なロケーションと移動は、ネットワークリソースの使用量とストレージに必要なエネルギーに影響します。次の手法を使用して、データの地域性を最適化します。

低炭素ストレージリージョンを選択する

コンプライアンス要件に応じて、カーボンフリーエネルギー（CFE）の割合が高いリージョン、またはグリッドの二酸化炭素排出原単位が低いリージョンにデータを保存します。 Google Cloud リソースロケーションの組織のポリシーの制約を使用して、高炭素排出地域のストレージバケットの作成を制限します。 Google Cloud リージョンの CFE と二酸化炭素排出原単位のデータについては、 Google Cloud リージョンのカーボンフリーエネルギーをご覧ください。

レプリケーションを最小限に抑える

必須の障害復旧（DR）または高可用性（HA）の要件を満たす場合にのみ、リージョン間でデータを複製します。クロスリージョンとマルチリージョンのレプリケーションオペレーションは、データのエネルギーコストとカーボンフットプリントを大幅に増加させます。

データ処理のロケーションを最適化する

ネットワークデータ転送のエネルギー消費量を削減するには、AI トレーニングや BigQuery 処理などのコンピューティング負荷の高いワークロードをデータソースと同じリージョンにデプロイします。

パートナーと顧客のデータ移動を最適化する

クラウドサービス、ロケーション、プロバイダ間で大量のデータを移動するには、パートナーとお客様に Storage Transfer Service またはデータ共有 API の使用をおすすめします。大量のデータダンプは避けてください。一般公開データセットの場合は、リクエスト元の支払バケットを使用して、データ転送と処理の費用と環境への影響をエンドユーザーに転嫁します。

持続可能性のためにデータとストレージを最適化する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。