Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Modello di testo Cloud Storage a Spanner

Il modello di testo di Cloud Storage in Spanner è una pipeline batch che legge i file di testo CSV da Cloud Storage e li importa in un database Spanner.

Requisiti della pipeline

Il database e la tabella Spanner di destinazione devono esistere.
Devi disporre delle autorizzazioni di lettura per il bucket Cloud Storage e delle autorizzazioni di scrittura per il database Spanner di destinazione.
Il percorso Cloud Storage di input contenente i file CSV deve esistere.
Devi creare un file manifest di importazione contenente una descrizione JSON dei file CSV e devi archiviare questo file manifest in Cloud Storage.
Se il database Spanner di destinazione ha già uno schema, tutte le colonne specificate nel file manifest devono avere gli stessi tipi di dati delle colonne corrispondenti nello schema del database di destinazione.

Il file manifest, codificato in ASCII o UTF-8, deve corrispondere al seguente formato:

Formato ed esempio del manifest

Il formato del file manifest corrisponde al seguente tipo di messaggio, mostrato qui in formato buffer di protocollo:

message ImportManifest {
  // The per-table import manifest.
  message TableManifest {
    // Required. The name of the destination table.
    string table_name = 1;
    // Required. The CSV files to import. This value can be either a filepath or a glob pattern.
    repeated string file_patterns = 2;
    // The schema for a table column.
    message Column {
      // Required for each Column that you specify. The name of the column in the
      // destination table.
      string column_name = 1;
      // Required for each Column that you specify. The type of the column.
      string type_name = 2;
    }
    // Optional. The schema for the table columns.
    repeated Column columns = 3;
  }
  // Required. The TableManifest of the tables to be imported.
  repeated TableManifest tables = 1;

  enum ProtoDialect {
    GOOGLE_STANDARD_SQL = 0;
    POSTGRESQL = 1;
  }
  // Optional. The dialect of the receiving database. Defaults to GOOGLE_STANDARD_SQL.
  ProtoDialect dialect = 2;
}

L'esempio seguente mostra un file manifest per l'importazione di tabelle denominate Albums e Singers in un database con dialetto GoogleSQL. La tabella Albums utilizza lo schema di colonna che il job recupera dal database, mentre la tabella Singers utilizza lo schema specificato dal file manifest:

{
  "tables": [
    {
      "table_name": "Albums",
      "file_patterns": [
        "gs://bucket1/Albums_1.csv",
        "gs://bucket1/Albums_2.csv"
      ]
    },
    {
      "table_name": "Singers",
      "file_patterns": [
        "gs://bucket1/Singers*.csv"
      ],
      "columns": [
        {"column_name": "SingerId", "type_name": "INT64"},
        {"column_name": "FirstName", "type_name": "STRING"},
        {"column_name": "LastName", "type_name": "STRING"}
      ]
    }
  ]
}

I file di testo da importare devono essere in formato CSV, con codifica ASCII o UTF-8. Ti consigliamo di non utilizzare il byte order mark (BOM) nei file con codifica UTF-8.

I dati devono corrispondere a uno dei seguenti tipi:

GoogleSQL

    BOOL
    INT64
    FLOAT64
    NUMERIC
    STRING
    DATE
    TIMESTAMP
    BYTES
    JSON

PostgreSQL

    boolean
    bigint
    double precision
    numeric
    character varying, text
    date
    timestamp with time zone
    bytea

Parametri del modello

Parametri obbligatori

instanceId: l'ID istanza del database Spanner.
databaseId: l'ID database del database Spanner.
importManifest: il percorso in Cloud Storage da utilizzare durante l'importazione dei file manifest. Ad esempio, gs://your-bucket/your-folder/your-manifest.json.

Parametri facoltativi

spannerHost: l'endpoint Cloud Spanner da chiamare nel modello. Utilizzato solo per i test. Ad esempio, https://batch-spanner.googleapis.com. Il valore predefinito è: https://batch-spanner.googleapis.com.
columnDelimiter: il delimitatore di colonna utilizzato dal file di origine. Il valore predefinito è ,. Ad esempio, ,.
fieldQualifier: il carattere che deve racchiudere qualsiasi valore nel file di origine che contiene il delimitatore di colonna. Il valore predefinito sono le virgolette doppie.
trailingDelimiter: specifica se le righe nei file di origine hanno delimitatori finali, ovvero se il carattere columnDelimiter viene visualizzato alla fine di ogni riga, dopo l'ultimo valore della colonna. Il valore predefinito è true.
escape: il carattere di escape utilizzato dal file di origine. Per impostazione predefinita, questo parametro non è impostato e il modello non utilizza il carattere di escape.
nullString: la stringa che rappresenta un valore NULL. Per impostazione predefinita, questo parametro non è impostato e il modello non utilizza la stringa null.
dateFormat: il formato utilizzato per analizzare le colonne delle date. Per impostazione predefinita, la pipeline tenta di analizzare le colonne delle date come yyyy-M-d[' 00:00:00'], ad esempio 2019-01-31 o 2019-1-1 00:00:00. Se il formato della data è diverso, specifica il formato utilizzando i pattern java.time.format.DateTimeFormatter (https://docs.oracle.com/en/java/javase/11/docs/api/java.base/java/time/format/DateTimeFormatter.html).
timestampFormat: il formato utilizzato per analizzare le colonne dei timestamp. Se il timestamp è un intero lungo, viene analizzato come tempo Unix epoch. In caso contrario, viene analizzato come stringa utilizzando il formato java.time.format.DateTimeFormatter.ISO_INSTANT (https://docs.oracle.com/en/java/javase/11/docs/api/java.base/java/time/format/DateTimeFormatter.html#ISO_INSTANT). Per altri casi, specifica la tua stringa di pattern, ad esempio utilizzando MMM dd yyyy HH:mm:ss.SSSVV per i timestamp nel formato Jan 21 1998 01:02:03.456+08:00.
spannerProjectId: l'ID del progetto Google Cloud che contiene il database Spanner. Se non viene impostato, viene utilizzato l'ID progetto del progetto Google Cloud predefinito.
spannerPriority: la priorità della richiesta per le chiamate Spanner. I valori possibili sono HIGH, MEDIUM e LOW. Il valore predefinito è MEDIUM.
handleNewLine: se true, i dati di input possono contenere caratteri di nuova riga. In caso contrario, i caratteri di nuova riga causano un errore. Il valore predefinito è false. L'attivazione della gestione delle nuove righe può ridurre le prestazioni.
invalidOutputPath: il percorso Cloud Storage da utilizzare durante la scrittura delle righe che non possono essere importate. Ad esempio, gs://your-bucket/your-path. Il valore predefinito è vuoto.
maxNumRows: il numero massimo di righe da scrivere in Spanner. Il valore predefinito è 500.

Se devi utilizzare formati di data o timestamp personalizzati, assicurati che siano validi java.time.format.DateTimeFormatter pattern. La tabella seguente mostra esempi aggiuntivi di formati personalizzati per le colonne di data e timestamp:

Tipo	Valore di input	Formato	Osservazioni
`DATE`	2011-3-31		Per impostazione predefinita, il modello può analizzare questo formato. Non è necessario specificare il parametro `dateFormat`.
`DATE`	2011-3-31 00:00:00		Per impostazione predefinita, il modello può analizzare questo formato. Non è necessario specificare il formato. Se preferisci, puoi utilizzare `yyyy-M-d' 00:00:00'`.
`DATE`	01 Apr, 18	dd MMM, yy
`DATE`	Wednesday, April 3, 2019 AD	EEEE, LLLL d, yyyy G
`TIMESTAMP`	2019-01-02T11:22:33Z 2019-01-02T11:22:33.123Z 2019-01-02T11:22:33.12356789Z		Il formato predefinito `ISO_INSTANT` può analizzare questo tipo di timestamp. Non è necessario fornire il parametro `timestampFormat`.
`TIMESTAMP`	1568402363		Per impostazione predefinita, il modello può analizzare questo tipo di timestamp e trattarlo come tempo Unix epoch time.
`TIMESTAMP`	Tue, 3 Jun 2008 11:05:30 GMT	EEE, d MMM yyyy HH:mm:ss VV
`TIMESTAMP`	2018/12/31 110530.123PST	yyyy/MM/dd HHmmss.SSSz
`TIMESTAMP`	2019-01-02T11:22:33Z or 2019-01-02T11:22:33.123Z	yyyy-MM-dd'T'HH:mm:ss[.SSS]VV	Se la colonna di input è un mix di 2019-01-02T11:22:33Z e 2019-01-02T11:22:33.123Z, il formato predefinito può analizzare questo tipo di timestamp. Non è necessario fornire un parametro di formato personalizzato. Puoi utilizzare `yyyy-MM-dd'T'HH:mm:ss[.SSS]VV` per gestire entrambi casi. Non puoi utilizzare `yyyy-MM-dd'T'HH:mm:ss[.SSS]'Z'`, perché il suffisso 'Z' deve essere analizzato come ID fuso orario, non come un carattere letterale. Internamente, la colonna del timestamp viene convertita in un `java.time.Instant`. Pertanto, deve essere specificato in formato UTC o avere informazioni sul fuso orario associate. La data/ora locale, ad esempio 2019-01-02 11:22:33, non può essere analizzata come `java.time.Instant` valida.

Esegui il modello

Console

Vai alla pagina Crea job da modello di Dataflow.

Vai a Crea job da modello

Nel campo Nome job, inserisci un nome job univoco.
(Facoltativo) Per Endpoint regionale, seleziona un valore dal menu a discesa. La regione predefinita è us-central1.
Per un elenco delle regioni in cui puoi eseguire un job Dataflow, consulta Località di Dataflow.
Nel menu a discesa Modello Dataflow, seleziona il modello File di testo su Cloud Storage in Cloud Spanner.
Nei campi dei parametri forniti, inserisci i valori dei parametri.
Fai clic su Esegui job.

gcloud

Nella shell o nel terminale, esegui il modello:

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/ \
    --region REGION_NAME \
    --parameters \
instanceId=INSTANCE_ID,\
databaseId=DATABASE_ID,\
importManifest=GCS_PATH_TO_IMPORT_MANIFEST

Sostituisci quanto segue:

JOB_NAME: un nome job univoco a tua scelta
VERSION: la versione del modello che vuoi utilizzare
Puoi utilizzare i seguenti valori:
- latest per utilizzare la versione più recente del modello, disponibile nella cartella principale non datata nel bucket: gs://dataflow-templates-REGION_NAME/latest/
- il nome della versione, ad esempio 2023-09-12-00_RC00, per utilizzare una versione specifica del modello, che si trova nidificata nella rispettiva cartella principale datata nel bucket: gs://dataflow-templates-REGION_NAME/
Attenzione: la versione più recente dei modelli potrebbe essere aggiornata con modifiche che causano interruzioni. Gli ambienti di produzione devono utilizzare i modelli conservati nella cartella principale datata più recente per evitare che queste modifiche che causano interruzioni influiscano sui workflow di produzione.
REGION_NAME: la regione in cui vuoi eseguire il deployment del job Dataflow, ad esempio us-central1
INSTANCE_ID: l'ID istanza Spanner
DATABASE_ID: l'ID database Spanner
GCS_PATH_TO_IMPORT_MANIFEST: il percorso Cloud Storage del file manifest di importazione

API

Per eseguire il modello utilizzando l'API REST, invia una richiesta HTTP POST. Per saperne di più sull' API e sui suoi ambiti di autorizzazione, consulta projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/
{
   "jobName": "JOB_NAME",
   "parameters": {
       "instanceId": "INSTANCE_ID",
       "databaseId": "DATABASE_ID",
       "importManifest": "GCS_PATH_TO_IMPORT_MANIFEST"
   },
   "environment": {
       "machineType": "n1-standard-2"
   }
}