Seit dem 20. April 2026 heißt BigLake jetzt „Lakehouse for Apache Iceberg“. BigLake Metastore heißt jetzt Lakehouse-Laufzeitkatalog. Lakehouse-APIs, Clientbibliotheken, CLI-Befehle und IAM-Namen bleiben unverändert und verweisen weiterhin auf BigLake.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Cloudübergreifendes Lakehouse verwenden

Lakehouse for Apache Iceberg unterstützt die Abfrage von Remote-Daten über eine cloudübergreifende Lakehouse-Konfiguration. Nach der Konfiguration unterstützt das System den Datenzugriff über Standard-SQL in BigQuery oder Apache Spark im Managed Service for Apache Spark.

Auf dieser Seite wird beschrieben, wie Sie Remote-Daten abfragen, nachdem Sie ein cloudübergreifendes Lakehouse eingerichtet haben.

Hinweis

Bevor Sie Ihre Daten abfragen können, müssen Sie Folgendes tun:

Richten Sie Cross-Cloud Lakehouse für AWS Glue oder Databricks Unity Catalog ein.
Prüfen Sie, ob Ihr Remote-Katalog Daten enthält.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für das Projekt zuzuweisen, damit Sie die nötigen Berechtigungen zum Abfragen von föderierten Daten haben:

Daten in BigQuery abfragen: BigQuery-Datenbetrachter (roles/bigquery.dataViewer)
BigQuery-Jobs ausführen: BigQuery Job User (roles/bigquery.jobUser)
Tabellenmetadaten in Lakehouse-Katalogen ansehen und lesen: BigLake Viewer (roles/biglake.viewer)

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Daten abfragen

Nachdem Sie die Föderation eingerichtet haben, können Sie Ihre Remotedaten mit Standard-SQL in BigQuery oder Apache Spark im Managed Service for Apache Spark abfragen.

Lakehouse übernimmt die Metadatenübersetzung und den sicheren Datenzugriff, sodass Sie Remote-Apache Iceberg-Tabellen so behandeln können, als wären sie lokal in Ihrer Google Cloud Umgebung.

Abfrage aus BigQuery

Verwenden Sie zum Abfragen föderierter Apache Iceberg-Tabellen Standard-BigQuery-SQL. Der Tabellenpfad hat eine vierteilige Struktur: project.federated_catalog.namespace.table. Caching, Bereitstellung von Anmeldedaten und CCI-Transit-Routing werden automatisch verarbeitet.

SELECT
  user_id,
  action,
  COUNT(*) as total_actions
FROM `PROJECT_ID.FEDERATED_CATALOG_NAME.NAMESPACE_NAME.TABLE_NAME`
WHERE event_date >= '2026-04-01'
GROUP BY 1, 2;

Ersetzen Sie Folgendes:

PROJECT_ID: Projekt-ID in Google Cloud .
FEDERATED_CATALOG_NAME: Der Name des föderierten Katalogs.
NAMESPACE_NAME: der Namespace im Katalog.
TABLE_NAME: der Name der Tabelle.
REGION: die Google Cloud Region. Beispiel: us-east4

Sie können die Abfrage auch mit dem bq-Befehlszeilentool ausführen:

bq --location="REGION" --project_id="PROJECT_ID" query --use_legacy_sql=false \
  "SELECT * FROM \`PROJECT_ID.FEDERATED_CATALOG_NAME.NAMESPACE_NAME.TABLE_NAME\` LIMIT 10"

Abfrage aus Managed Service for Apache Spark

Senden Sie eine PySpark-Batcharbeitslast an Managed Service for Apache Spark mit aktivierter Anforderung von Anmeldedaten mit X-Iceberg-Access-Delegation=vended-credentials. Spark verwendet die kurzlebigen, bereichsbezogenen Anmeldedaten, um eine sichere Verbindung zu S3 herzustellen. Sie müssen keine separaten AWS-Anmeldedaten oder S3-Connectors verwalten.

Ausgehende Verbindungen für Managed Service for Apache Spark aktivieren

Managed Service for Apache Spark kann mit der standardmäßigen Netzwerkkonfiguration keine Verbindung zu AWS S3 herstellen. Sie müssen einen Cloud Router und Cloud NAT bereitstellen.
```
gcloud compute routers create lakehouse-router \
  --network=NETWORK_NAME \
  --region=REGION

gcloud compute routers nats create lakehouse-nat \
  --router=lakehouse-router \
  --auto-allocate-nat-external-ips \
  --nat-all-subnet-ip-ranges \
  --region=REGION
```
Ersetzen Sie Folgendes:
- NETWORK_NAME: Das Netzwerk für die Batcharbeitslast von Managed Service for Apache Spark (z. B. default).
- REGION: die Region für die Managed Service for Apache Spark-Batch-Workload.

Erstellen Sie eine PySpark-Anwendungsdatei und führen Sie den PySpark-Job aus.

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("CATALOG_NAME").getOrCreate()

df = spark.table("CATALOG_NAME.NAMESPACE_NAME.TABLE_NAME")
df.show(10, truncate=False)

Laden Sie die Datei in Cloud Storage unter PYSPARK_FILE hoch.

gcloud dataproc batches submit pyspark PYSPARK_FILE \
    --project=PROJECT_ID \
    --region=REGION \
    --version=RUNTIME_VERSION \
    --properties="\
    spark.sql.defaultCatalog=CATALOG_NAME,\
    spark.sql.catalog.CATALOG_NAME=org.apache.iceberg.spark.SparkCatalog,\
    spark.sql.catalog.CATALOG_NAME.type=rest,\
    spark.sql.catalog.CATALOG_NAME.uri=https://biglake.googleapis.com/iceberg/v1/restcatalog,\
    spark.sql.catalog.CATALOG_NAME.warehouse=bl://projects/PROJECT_ID/catalogs/FEDERATED_CATALOG_NAME,\
    spark.sql.catalog.CATALOG_NAME.header.x-goog-user-project=PROJECT_ID,\
    spark.sql.catalog.CATALOG_NAME.rest.auth.type=org.apache.iceberg.gcp.auth.GoogleAuthManager,\
    spark.sql.catalog.CATALOG_NAME.io-impl=org.apache.iceberg.aws.s3.S3FileIO,\
    spark.sql.catalog.CATALOG_NAME.header.X-Iceberg-Access-Delegation=vended-credentials,\
    spark.sql.catalog.CATALOG_NAME.rest-metrics-reporting-enabled=false,\
    spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions"