Questa pagina descrive come caricare i dati da un'istanza Amazon Redshift in Google Cloud con Cloud Data Fusion. Il connettore di origine Redshift ti consente di sincronizzare le tabelle dal set di dati Redshift alla destinazione, ad esempio BigQuery. Il connettore consente anche di creare una query SQL configurabile.
Prima di iniziare
- Le versioni di Cloud Data Fusion 6.9.0 e successive supportano l'origine Redshift.
Quando configuri il connettore di origine Redshift, puoi selezionare una connessione esistente e riutilizzabile o crearne una nuova una tantum. Per maggiori informazioni, consulta Gestire le connessioni. Quando riutilizzi una connessione, tieni presente quanto segue:
- Non è necessario fornire le credenziali.
- La connessione esistente fornisce le informazioni sullo schema e sul nome della tabella utilizzate per generare la query di importazione.
Configurare il plug-in
Vai all'interfaccia web di Cloud Data Fusion e fai clic su Studio.
Verifica che sia selezionata l'opzione Pipeline di dati - Batch (non In tempo reale).
Nel menu Origine, fai clic su Redshift. Il nodo Redshift viene visualizzato nella pipeline. Se non vedi l'origine Redshift nella pagina Studio, implementa il connettore dell'origine Redshift da Cloud Data Fusion Hub.
Per configurare l'origine, vai al nodo Redshift e fai clic su Properties (Proprietà).
Inserisci le seguenti proprietà. Per un elenco completo, consulta Proprietà.
- Inserisci un'etichetta per il nodo Redshift, ad esempio
Redshift tables. Inserisci i dettagli della connessione. Puoi configurare una nuova connessione una tantum o una connessione esistente riutilizzabile.
Nuova connessione
Per aggiungere una connessione una tantum a Redshift:
- Mantieni disattivata l'opzione Usa connessione.
- Nel campo Nome driver JDBC, inserisci il nome del driver. Redshift supporta due tipi di driver JDBC: CData e Amazon. Per maggiori informazioni, vedi Carica un driver JDBC.
- Nel campo Host, inserisci l'endpoint del cluster Redshift, ad esempio
cdf-redshift-new.example-endpoint.eu-west-1.redshift.amazonaws.com. - (Facoltativo) Nel campo Porta, inserisci un numero di porta del database, ad esempio
5439. Se il database Redshift richiede l'autenticazione, procedi nel seguente modo:
- Nel campo Nome utente, inserisci il nome del database.
- Nel campo Password, inserisci la password del database.
- (Facoltativo) Nel campo Argomenti, inserisci gli argomenti dei valori chiave. Per utilizzare il driver CData, fornisci gli argomenti di connessione, ad esempio RTK o OEMKey, se applicabile.
- Nel campo Nome, inserisci un nome, ad esempio
SN-PC-Source-01-01-2024. - Inserisci il nome del database di destinazione nel campo Database, ad esempio
datafusiondb.
Connessione riutilizzabile
Per riutilizzare una connessione esistente:
- Attiva l'opzione Usa connessione.
- Fai clic su Browse connections (Sfoglia connessioni).
Fai clic sul nome della connessione.
(Facoltativo) Se non esiste una connessione e vuoi crearne una nuova riutilizzabile, fai clic su Aggiungi connessione e segui i passaggi nella scheda Nuova connessione di questa pagina.
Nel campo Importa query, inserisci una query utilizzando i nomi dello schema e della tabella della tua origine Redshift, ad esempio
Select * from "public"."users".(Facoltativo) Inserisci le proprietà avanzate, ad esempio una query di delimitazione o il numero di suddivisioni. Per tutte le descrizioni delle proprietà, consulta Proprietà.
- Inserisci un'etichetta per il nodo Redshift, ad esempio
(Facoltativo) Fai clic su Convalida e correggi gli eventuali errori trovati.
Fai clic su Chiudi. Le proprietà vengono salvate e puoi continuare a creare la pipeline di dati nell'interfaccia web di Cloud Data Fusion.
Proprietà
| Proprietà | Supporta le macro per l'automazione | Proprietà obbligatoria | Descrizione |
|---|---|---|---|
| Etichetta | No | Sì | Il nome del nodo nella pipeline di dati. |
| Utilizzare la connessione | No | No | Cerca una connessione all'origine. Se l'opzione Utilizza connessione è attiva, non devi fornire le credenziali. |
| Connessione | Sì | Sì | Il nome della connessione da utilizzare. Se è selezionata l'opzione Utilizza connessione, viene visualizzato questo campo. Le informazioni su database e tabelle vengono fornite dalla connessione. |
| Nome del driver JDBC | Sì | Sì | Nome del driver JDBC da utilizzare. Se Usa connessione non è selezionato, questo campo viene visualizzato. |
| Organizzatore | Sì | Sì | L'endpoint del cluster Amazon Redshift. Se Usa connessione non è selezionato, questo campo viene visualizzato. |
| Port (Porta) | Sì | No | Porta su cui è in esecuzione Redshift. Se Usa connessione non è selezionato, questo campo viene visualizzato. |
| Nome utente | Sì | No | L'identità utente per la connessione al database specificato. Se Usa connessione non è selezionato, questo campo viene visualizzato. |
| Password | Sì | No | Password da utilizzare per connettersi al database specificato. Se Usa connessione non è selezionato, questo campo viene visualizzato. |
| Argomenti di connessione | Sì | No | Un elenco di coppie chiave-valore di stringhe arbitrarie come argomenti di connessione. Questi argomenti vengono passati al driver JDBC come argomenti di connessione per i driver JDBC che potrebbero richiedere configurazioni aggiuntive. Se Usa connessione non è selezionato, questo campo viene visualizzato. |
| Nome di riferimento | No | Sì | Identifica in modo univoco questa origine per la derivazione, l'annotazione dei metadati e altri servizi. |
| Database | Sì | Sì | Il nome del database Redshift. Per selezionare i dati, fai clic su Sfoglia database. |
| Importa query | Sì | Sì | La query SELECT da utilizzare per importare i dati dalla
tabella specificata. |
| Query di selezione | Sì | No | Query SQL che restituisce i valori minimo e massimo del campo
splitBy. Ad esempio,
SELECT MIN(id),MAX(id) FROM table. Non obbligatorio se
numSplits è impostato su 1. |
| Dividi colonna | Sì | No | Il nome del campo utilizzato per generare le suddivisioni. Non obbligatorio se
numSplits è impostato su 1. |
| Numero di divisioni | Sì | No | Numero di suddivisioni da generare. |
| Dimensioni | Sì | No | Il numero di righe da recuperare alla volta per suddivisione. Una dimensione di recupero maggiore
può comportare un'importazione più rapida, a scapito di un maggiore utilizzo della memoria. Se non specificato, il valore predefinito è 1000. |
Mappature dei tipi di dati
La seguente tabella è un elenco dei tipi di dati Redshift con i tipi CDAP corrispondenti:
| Tipo di dati Redshift | Tipo di dati dello schema CDAP |
|---|---|
bigint |
long |
boolean |
boolean |
character |
string |
character varying |
string |
date |
date |
double precision |
double |
geometry |
bytes |
hllsketch |
string |
integer |
int |
json |
string |
numeric(precisione,
scala)/decimal(precisione, scala) |
decimal |
numeric con precisione 0 |
string |
real |
float |
smallint |
int |
super |
string |
text |
string |
time [ (p) ] senza fuso orario |
time |
time [ (p) ] con fuso orario |
string |
timestamp [ (p) ] senza fuso orario |
timestamp |
timestamp [ (p) ] con fuso orario |
timestamp |
varbyte |
byte |
xml |
string |
Best practice
Le seguenti best practice si applicano quando ti connetti a un cluster Redshift da Google Cloud.
Utilizzare le liste consentite di indirizzi IP
Per impedire l'accesso da origini non autorizzate e limitare l'accesso a indirizzi IP specifici, attiva i controlli dell'accesso sul cluster Redshift.
Se utilizzi i controlli di accesso Redshift, per accedere al cluster in Cloud Data Fusion, segui questi passaggi:
- Ottieni gli indirizzi IP esterni dei servizi o delle macchine su Google Cloud che devono connettersi al cluster Redshift, ad esempio l'IP del server proxy (vedi Visualizzazione degli indirizzi IP). Per i cluster Managed Service for Apache Spark, ottieni gli indirizzi IP di tutti i nodi master e secondari.
Aggiungi gli indirizzi IP a una lista consentita nei gruppi di sicurezza creando le regole in entrata per gli indirizzi IP della macchina Google Cloud .
Aggiungi le proprietà di connessione in Wrangler e testale:
- Apri l'istanza Cloud Data Fusion nell'interfaccia web.
- Fai clic su Wrangler > Aggiungi connessione e crea la nuova connessione per Redshift.
- Inserisci tutte le proprietà di connessione.
- Fai clic su Test connection (Prova connessione) e risolvi eventuali problemi.
Per creare più suddivisioni, utilizza le query di delimitazione.
Per più suddivisioni, utilizza le query di delimitazione per gestire il cluster multi-nodo. Negli scenari in cui estrai i dati da Redshift e distribuisci il carico in modo uniforme su ogni nodo, configura una query di delimitazione nelle proprietà del connettore di origine Redshift.
- Nella pipeline Cloud Data Fusion nella pagina Studio, vai al nodo Redshift e fai clic su Properties (Proprietà).
Nelle proprietà Avanzate, specifica quanto segue:
- Inserisci il numero di suddivisioni da creare.
- Inserisci la dimensione di recupero per ogni suddivisione.
- Inserisci una query di delimitazione da applicare al cluster Redshift multinodo.
- Inserisci il nome del campo Colonna di divisione.
Ad esempio, supponiamo di avere il seguente caso d'uso:
- Hai una tabella che contiene 10 milioni di record.
- Ha una colonna ID univoca chiamata
id. - Il cluster Redshift ha 4 nodi.
Obiettivo: per sfruttare il potenziale del cluster, prevedi di generare più suddivisioni. Per farlo, utilizza le seguenti configurazioni della proprietà:
Nel campo Query di delimitazione, inserisci la seguente query:
SELECT MIN(id), MAX(id) FROM tableNameIn questa query,
idè il nome della colonna in cui vengono applicate le suddivisioni.Nel campo Colonna di divisione, inserisci il nome della colonna,
id.Inserisci il numero di suddivisioni e le dimensioni del recupero. Queste proprietà sono interconnesse, il che ti consente di calcolare le suddivisioni in base a una dimensione di recupero o viceversa. Per questo esempio, inserisci quanto segue.
Nel campo Numero di suddivisioni, inserisci
40. In questo esempio, in cui la tabella contiene 10 milioni di record, la creazione di 40 suddivisioni comporta che ogni suddivisione contenga 250.000 record.Nel campo Dimensioni recupero, inserisci
250,000.
Passaggi successivi
- Esamina i plug-in di Cloud Data Fusion.