A differenza dei flussi di lavoro standard che creano un'istanza di una risorsa modello di flusso di lavoro creata in precedenza, i flussi di lavoro in linea utilizzano un file YAML o una definizione WorkflowTemplate incorporata per eseguire un flusso di lavoro.
.Creare ed eseguire un flusso di lavoro in linea
gcloud
Consulta Creare un'istanza di un flusso di lavoro utilizzando un file YAML.
REST
Prima di utilizzare i dati della richiesta, apporta le sostituzioni seguenti:
- project-id: Google Cloud ID progetto
- region: regione del cluster, ad esempio "us-central1"
- zoneUri: specifica una zone all'interno della regione del cluster, ad esempio "us-central1-b", o lascia vuoto ("") per utilizzare il posizionamento automatico della zona di Managed Service for Apache Spark
- clusterName: nome del cluster
Metodo HTTP e URL:
POST https://dataproc.googleapis.com/v1/projects/project-id/regions/region/workflowTemplates:instantiateInline
Corpo JSON della richiesta:
{
"jobs": [
{
"hadoopJob": {
"mainJarFileUri": "file:///usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar",
"args": [
"teragen",
"1000",
"hdfs:///gen/"
]
},
"stepId": "teragen"
},
{
"hadoopJob": {
"mainJarFileUri": "file:///usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar",
"args": [
"terasort",
"hdfs:///gen/",
"hdfs:///sort/"
]
},
"stepId": "terasort",
"prerequisiteStepIds": [
"teragen"
]
}
],
"placement": {
"managedCluster": {
"clusterName": "cluster-name",
"config": {
"gceClusterConfig": {
"zoneUri": "zone"
}
}
}
}
}
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{
"name": "projects/project-id/regions/region/operations/2fbd0dad-...",
"metadata": {
"@type": "type.googleapis.com/google.cloud.dataproc.v1.WorkflowMetadata",
"graph": {
"nodes": [
{
"stepId": "teragen",
"state": "RUNNABLE"
},
{
"stepId": "terasort",
"prerequisiteStepIds": [
"teragen"
],
"state": "BLOCKED"
}
]
},
"state": "PENDING",
"startTime": "2020-04-02T22:50:44.826Z"
}
}
Console
Al momento, la creazione di flussi di lavoro in linea non è supportata in la Google Cloud consolle. I modelli di flusso di lavoro e i flussi di lavoro di cui è stata creata un'istanza possono essere visualizzati dalla pagina di Managed Service for Apache Spark Flussi di lavoro.