„Managed Service for Apache Spark“ ist der neue Name für das Produkt, das früher als „Dataproc on Compute Engine“ (Clusterbereitstellung) und „Google Cloud Serverless for Apache Spark“ (serverlose Bereitstellung) bekannt war.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Apache Spark-Batcharbeitslast senden

Hier erfahren Sie, wie Sie eine Batcharbeitslast in der Computing-Infrastruktur von Managed Service for Apache Spark einreichen, die Ressourcen nach Bedarf skaliert.

Hinweis

Richten Sie Ihr Projekt ein und weisen Sie bei Bedarf IAM-Rollen (Identity and Access Management) zu.

Projekt einrichten

Führen Sie nach Bedarf einen oder mehrere der folgenden Schritte aus:

Melden Sie sich in Ihrem Google Cloud -Konto an. Wenn Sie mit Google Cloudnoch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Bei Bedarf IAM-Rollen zuweisen

Für die Ausführung der Beispiele auf dieser Seite sind bestimmte IAM-Rollen erforderlich. Je nach Organisationsrichtlinien wurden diese Rollen möglicherweise bereits gewährt. Informationen zum Prüfen von Rollenzuweisungen finden Sie unter Müssen Sie Rollen zuweisen?.

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Nutzerrollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, damit Sie die nötigen Berechtigungen zum Einreichen einer serverlosen Batch-Arbeitslast haben:

Dataproc-Bearbeiter (roles/dataproc.editor) für das Projekt
Dienstkontonutzer (roles/iam.serviceAccountUser) für das Compute Engine-Standarddienstkonto

Dienstkontorolle

Damit das Compute Engine-Standarddienstkonto die erforderlichen Berechtigungen zum Einreichen einer serverlosen Batcharbeitslast hat, bitten Sie Ihren Administrator, dem Compute Engine-Standarddienstkonto die IAM-Rolle Dataproc-Worker (roles/dataproc.worker) für das Projekt zuzuweisen.

Spark-Batcharbeitslast senden

Sie können die Google Cloud -Konsole, die Google Cloud CLI oder die REST API verwenden, um einen Batcharbeitslast für Managed Service for Apache Spark zu erstellen und zu senden.

Console

Rufen Sie in der Google Cloud Console „Managed Service for Apache Spark-Batches“ auf.
Klicken Sie auf Erstellen.
Senden Sie eine Spark-Batcharbeitslast, die den ungefähren Wert von Pi berechnet, indem Sie die folgenden Felder auswählen und ausfüllen:
- Batchinformationen:
  - Batch-ID: Geben Sie eine ID für Ihre Batcharbeitslast an. Dieser Wert muss zwischen 4 und 63 Kleinbuchstaben lang sein. Gültige Zeichen sind /[a-z][0-9]-/.
  - Region: Wählen Sie eine Region aus, in der Ihre Arbeitslast ausgeführt werden soll.
- Container:
  - Batchtyp: Spark
  - Laufzeitversion: Bestätigen oder wählen Sie die Laufzeitversion 3.0 aus.
  - Hauptklasse:
```
org.apache.spark.examples.SparkPi
```
  - JAR-Dateien (diese Datei ist in der Managed Service for Apache Spark-Ausführungsumgebung vorinstalliert).
```
file:///usr/lib/spark/examples/jars/spark-examples.jar
```
  - Argumente: 1000.
- Ausführungskonfiguration:Wählen Sie Dienstkonto aus. Standardmäßig wird der Batch mit dem Compute Engine-Standarddienstkonto ausgeführt. Sie können ein benutzerdefiniertes Dienstkonto angeben. Das Standard- oder benutzerdefinierte Dienstkonto muss die Rolle „Dataproc-Worker“ haben.
- Netzwerkkonfiguration:Wählen Sie ein Subnetzwerk in der Sitzungsregion aus. Managed Service for Apache Spark aktiviert den privaten Google-Zugriff im angegebenen Subnetz. Informationen zu den Anforderungen an die Netzwerkverbindung finden Sie unter Netzwerkkonfiguration für Managed Service for Apache Spark.
- Attribute:Geben Sie den Key (Attributname) und Value der unterstützten Spark-Attribute ein, die für Ihre Spark-Batcharbeitslast festgelegt werden sollen. Hinweis: Im Gegensatz zu Clustereigenschaften für Managed Service for Apache Spark enthalten die Eigenschaften für Managed Service for Apache Spark-Arbeitslasten kein spark:-Präfix.
- Weitere Optionen:
  - Sie können den Batch-Arbeitslast so konfigurieren, dass ein externer selbstverwalteter Hive Metastore verwendet wird.
  - Sie können einen Persistent History Server (PHS) verwenden. Der PHS muss sich in der Region befinden, in der Sie Batcharbeitslasten ausführen.
Klicken Sie auf Senden, um die Spark-Batcharbeitslast auszuführen.

gcloud

Wenn Sie einen Spark-Batcharbeitslast senden möchten, um den ungefähren Wert von pi zu berechnen, führen Sie den folgenden gcloud CLI-Befehl gcloud dataproc batches submit spark lokal in einem Terminalfenster oder in Cloud Shell aus.

gcloud dataproc batches submit spark \
    --region=REGION \
    --version=3.0 \
    --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \
    --class=org.apache.spark.examples.SparkPi \
    -- 1000

Ersetzen Sie Folgendes:

REGION: Geben Sie die Region an, in der Ihre Arbeitslast ausgeführt wird.
Weitere Optionen:Sie können gcloud dataproc batches submit spark-Flags hinzufügen, um andere Arbeitslastoptionen und Spark-Attribute anzugeben.
- --jars: Die Beispiel-JAR-Datei ist in der Spark-Ausführungsumgebung vorinstalliert. Das Befehlsargument 1000, das an den SparkPi-Arbeitslast übergeben wird, gibt 1.000 Wiederholungen der Logik zur Schätzung von Pi an. Die Eingabeargumente für die Arbeitslast werden nach „-- “ angegeben.
- --subnet: Mit diesem Flag können Sie den Namen eines Subnetzes in der Sitzungsregion angeben. Wenn Sie kein Subnetzwerk angeben, wählt Managed Service for Apache Spark das Subnetzwerk default in der Sitzungsregion aus. Managed Service for Apache Spark aktiviert privaten Google-Zugriff (PGA) für das Subnetz. Informationen zu den Anforderungen an die Netzwerkverbindung finden Sie unter Netzwerkkonfiguration für Managed Service for Apache Spark.
- --tags: Mit diesem Flag können Sie Netzwerk-Tags für die Traffic-Steuerung angeben. Verwenden Sie Netzwerk-Tags, um die Verbindung einzuschränken. In der Produktion empfiehlt es sich, Firewallregeln auf die IP-Adressen zu beschränken, die von Ihren Spark-Arbeitslasten verwendet werden.
- --properties: Mit diesem Flag können Sie unterstützte Spark-Attribute für Ihre Spark-Batcharbeitslast hinzufügen.
- --deps-bucket: Mit diesem Flag können Sie einen Cloud Storage-Bucket angeben, in den der Managed Service for Apache Spark Arbeitslastabhängigkeiten hochlädt. Das gs://-URI-Präfix des Buckets ist nicht erforderlich. Sie können den Bucket-Pfad oder den Bucket-Namen angeben. Managed Service for Apache Spark lädt die lokalen Dateien in einen /dependencies-Ordner im Bucket hoch, bevor die Batcharbeitslast ausgeführt wird. Hinweis:Dieses Flag ist erforderlich, wenn in Ihrer Batcharbeitslast auf Dateien auf Ihrem lokalen Computer verwiesen wird.
- --ttl: Mit dem Flag --ttl können Sie die Dauer der Batch-Lebensdauer angeben. Wenn die Arbeitslast diese Dauer überschreitet, wird sie bedingungslos beendet, ohne dass laufende Arbeiten abgeschlossen werden. Geben Sie die Dauer mit dem Suffix s, m, h oder d (Sekunden, Minuten, Stunden oder Tage) an. Der Mindestwert beträgt 10 Minuten (10m) und der Höchstwert 14 Tage (14d).
  - Laufzeit-Batches für Version 1.1 oder 2.0:Wenn --ttl für eine Batch-Arbeitslast mit Laufzeitversion 1.1 oder 2.0 nicht angegeben ist, darf die Arbeitslast ausgeführt werden, bis sie auf natürliche Weise beendet wird (oder unbegrenzt, wenn sie nicht beendet wird).
  - Laufzeit-Batchjobs ab Version 2.1:Wenn --ttl für einen Batchjob mit Laufzeitversion 2.1 oder höher nicht angegeben ist, wird standardmäßig 4h verwendet.
- --service-account: Sie können ein Dienstkonto angeben, das zum Ausführen Ihrer Arbeitslast verwendet werden soll. Wenn Sie kein Dienstkonto angeben, wird die Arbeitslast unter dem Compute Engine-Standarddienstkonto ausgeführt. Ihr Dienstkonto muss die Dataproc-Worker-Rolle haben.
- Hive-Metastore: Mit dem folgenden Befehl wird eine Batcharbeitslast für die Verwendung eines externen selbstverwalteten Hive-Metastore mit einer Standard-Spark-Konfiguration konfiguriert.
```
gcloud dataproc batches submit spark\
    --properties=spark.sql.catalogImplementation=hive,spark.hive.metastore.uris=METASTORE_URI,spark.hive.metastore.warehouse.dir=WAREHOUSE_DIR> \
    other args ...
        
```
- Persistent History Server:
  1. Mit dem folgenden Befehl wird ein PHS in einem Managed Service for Apache Spark-Cluster mit einem einzelnen Knoten erstellt. Der PHS muss sich in der Region befinden, in der Sie Batcharbeitslasten ausführen, und der Cloud Storage-bucket-name muss vorhanden sein.
```
gcloud dataproc clusters create PHS_CLUSTER_NAME \
    --region=REGION \
    --single-node \
    --enable-component-gateway \
    --properties=spark:spark.history.fs.logDirectory=gs://bucket-name/phs/*/spark-job-history
             
```
  2. Senden Sie eine Batcharbeitslast und geben Sie den laufenden Persistent History Server an.
```
gcloud dataproc batches submit spark \
    --region=REGION \
    --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \
    --class=org.apache.spark.examples.SparkPi \
    --history-server-cluster=projects/project-id/regions/region/clusters/PHS-cluster-name \
    -- 1000
              
```
- Laufzeitversion: Verwenden Sie das Flag --version, um die Managed Service for Apache Spark-Laufzeitversion für die Arbeitslast anzugeben.
```
gcloud dataproc batches submit spark \
    --region=REGION \
    --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \
    --class=org.apache.spark.examples.SparkPi \
    --version=VERSION
    -- 1000
            
```

API

In diesem Abschnitt wird gezeigt, wie Sie eine Batcharbeitslast erstellen, um den ungefähren Wert von pi mit dem Managed Service for Apache Spark batches.create zu berechnen.

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

project-id: Eine Google Cloud Projekt-ID.
region: Eine Compute Engine-Region, in der Managed Service for Apache Spark die Arbeitslast ausführt.

Hinweise:

PROJECT_ID: Ihre Google Cloud Projekt-ID Projekt-IDs werden im Bereich Projektinformationen im Dashboard der Google Cloud Console aufgeführt.
REGION: Die Region der Sitzung.

HTTP-Methode und URL:

POST https://dataproc.googleapis.com/v1/projects/project-id/locations/region/batches

JSON-Text anfordern:

{
  "sparkBatch":{
    "args":[
      "1000"
    ],
    "runtimeConfig": {
      "version": "2.3",
    },
    "jarFileUris":[
      "file:///usr/lib/spark/examples/jars/spark-examples.jar"
    ],
    "mainClass":"org.apache.spark.examples.SparkPi"
  }
}

Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:

curl (Linux, macOS oder Cloud Shell)

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto in der gcloud-Befehlszeile angemeldet haben, indem Sie gcloud init oder gcloud auth login ausgeführt oder die Cloud Shell genutzt haben, die Sie automatisch in der gcloud-Befehlszeile anmeldet. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://dataproc.googleapis.com/v1/projects/project-id/locations/region/batches"

PowerShell (Windows)

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto in der gcloud-Befehlszeile angemeldet haben, indem Sie gcloud init oder gcloud auth login ausgeführt haben. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://dataproc.googleapis.com/v1/projects/project-id/locations/region/batches" | Select-Object -Expand Content

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

{
"name":"projects/project-id/locations/region/batches/batch-id",
  "uuid":",uuid",
  "createTime":"2021-07-22T17:03:46.393957Z",
  "sparkBatch":{
    "mainClass":"org.apache.spark.examples.SparkPi",
    "args":[
      "1000"
    ],
    "jarFileUris":[
      "file:///usr/lib/spark/examples/jars/spark-examples.jar"
    ]
  },
  "runtimeInfo":{
    "outputUri":"gs://dataproc-.../driveroutput"
  },
  "state":"SUCCEEDED",
  "stateTime":"2021-07-22T17:06:30.301789Z",
  "creator":"account-email-address",
  "runtimeConfig":{
    "version":"2.3",
    "properties":{
      "spark:spark.executor.instances":"2",
      "spark:spark.driver.cores":"2",
      "spark:spark.executor.cores":"2",
      "spark:spark.app.name":"projects/project-id/locations/region/batches/batch-id"
    }
  },
  "environmentConfig":{
    "peripheralsConfig":{
      "sparkHistoryServerConfig":{
      }
    }
  },
  "operation":"projects/project-id/regions/region/operation-id"
}

Arbeitslastkosten schätzen

Für Managed Service for Apache Spark-Arbeitslasten werden Data Compute Units (DCUs) und Shuffle-Speicherressourcen verbraucht. Ein Beispiel für die Ausgabe von UsageMetrics für Managed Service for Apache Spark zur Schätzung des Ressourcenverbrauchs und der Kosten von Arbeitslasten finden Sie unter Preise für Managed Service for Apache Spark.

Nächste Schritte

Hier erfahren Sie mehr über:

Apache Spark-Batcharbeitslast senden Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Hinweis

Projekt einrichten

Bei Bedarf IAM-Rollen zuweisen

Nutzerrollen

Dienstkontorolle

Spark-Batcharbeitslast senden

Console

gcloud

API

curl (Linux, macOS oder Cloud Shell)

PowerShell (Windows)

Arbeitslastkosten schätzen

Nächste Schritte

Apache Spark-Batcharbeitslast senden