Questo tutorial mostra come utilizzare il plug-in Cloud Data Fusion per Cloud DLP per oscurare i dati sensibili.
Scenario
Considera il seguente scenario, in cui alcune informazioni sensibili dei clienti devono essere oscurate:
Il team di assistenza documenta i dettagli di ogni richiesta di assistenza gestita in un ticket di assistenza. Tutte le informazioni contenute nella ticket di assistenza vengono inserite in un file CSV. I tecnici dell'assistenza non devono documentare informazioni dei clienti considerate sensibili, ma a volte lo fanno per errore. Noti che nel file CSV vengono visualizzati i numeri di telefono di alcuni clienti.
Vuoi esaminare il file CSV e nascondere tutti i numeri di telefono. Crea una pipeline Cloud Data Fusion che oscuri i dati sensibili dei clienti utilizzando il plug-in Cloud DLP.
In questo tutorial, creerai una pipeline che:
- oscura i numeri di telefono dei clienti mascherandoli con il carattere
#
. - Archivia i dati sensibili mascherati e i dati non sensibili in un bucket Cloud Storage.
Crea la pipeline
Crea una pipeline che oscuri i dati sensibili dei clienti. La pipeline che crei fa quanto segue:
- Legge i dati di input utilizzando il plug-in di origine Cloud Storage.
- Esegue il deployment del plug-in Cloud DLP dall'hub.
- Scrive i dati di output utilizzando un plug-in sink Cloud Storage.
Caricare i dati dei clienti
Questo tutorial utilizza il set di dati di input CallCenterRecords.csv
fornito in un bucket Cloud Storage disponibile pubblicamente.
Apri l'istanza Cloud Data Fusion e fai clic su menu Menu > Studio.
Nel menu Origine, fai clic sul plug-in Cloud Storage.
Nel nodo Cloud Storage, fai clic su Proprietà.
Nel campo Nome di riferimento, inserisci un nome.
Nel campo Percorso, inserisci
gs://datafusion-sample-datasets/CallCenterRecords.csv
.Nel campo Formato, seleziona
CSV
.Per lo schema di output, elimina i campi offset e body. Fai clic su
Aggiungi e inserisci i seguenti campi:- Data
- Banca
- Stato
- CAP
- Note
Fai clic su Convalida per verificare la presenza di errori.
Fai clic su
Close (Chiudi).
Oscurare i dati sensibili
Il plug-in Cloud DLP Redact identifica i record sensibili nel flusso di input di dati e applica le trasformazioni che definisci a questi record. Un record di dati è considerato sensibile se corrisponde ai filtri Cloud DLP predefiniti che scegli o a un modello personalizzato che definisci.
In questo tutorial, vuoi oscurare i numeri di telefono dei clienti di cui alcuni tecnici dell'assistenza del tuo team hanno preso nota per errore. Hanno inserito le informazioni sensibili nella sezione Note dei ticket di assistenza, che viene visualizzata come colonna Note nel file CSV. Crea un modello Cloud DLP personalizzato e poi fornisci l'ID modello nel menu delle proprietà del plug-in.
Esegui il deployment del plug-in Cloud DLP
Nell'istanza Cloud Data Fusion, fai clic su Hub.
Fai clic sul plug-in Cloud DLP.
Fai clic su Esegui il deployment.
Fai clic su Fine.
Fai clic su
Chiudi per uscire dalla finestra di dialogo di Cloud DLP.Fai clic su
Chiudi per uscire dall'hub.
Crea un modello personalizzato
Nella console Google Cloud , vai alla pagina Cloud DLP.
Nel menu Crea, scegli Modello.
Nel campo ID modello, inserisci un ID per il modello.
Fai clic su Continua.
Nel campo Configura rilevamento, fai clic su Gestisci infoType.
Nella scheda Integrati, utilizza il filtro per cercare "numero di telefono".
Seleziona PHONE_NUMBER.
Fai clic su Fine > Crea.
Scopri di più sulla creazione di modelli Cloud DLP.
Applica la trasformazione Cloud DLP Redact
Vai alla pagina Studio di Cloud Data Fusion e fai clic per espandere il menu Trasforma.
Fai clic sul plug-in Redact di Cloud DLP.
Trascina una freccia di connessione dal nodo Cloud Storage al nodo Redact.
Tieni il puntatore sul nodo Redact (Oscura) e fai clic su Properties (Proprietà).
Imposta Modello personalizzato su
Yes
.Nel campo ID modello, inserisci l'ID modello del modello personalizzato che hai creato.
Nel campo Corrispondenza , applica la Mascheratura al Modello personalizzato all'interno di Note.
Nel campo Carattere di mascheramento, inserisci
#
.Fai clic su Convalida per verificare la presenza di errori.
Fai clic su
Close (Chiudi).
Archivia i dati di output
Archivia i risultati della pipeline in un file Cloud Storage.
Nella pagina Studio, fai clic per espandere il menu Sink.
Fai clic su Cloud Storage.
Trascina una freccia di connessione dal nodo Redact al nodo Cloud Storage2.
Tieni il puntatore sul nodo Cloud Storage2 e fai clic su Properties (Proprietà).
Nel campo Nome di riferimento, inserisci un nome.
Nel campo Percorso, inserisci il percorso di un bucket Cloud Storage in cui vuoi archiviare i risultati della pipeline. Cloud Data Fusion crea il bucket per te. Assicurati di seguire le linee guida per la denominazione dei bucket.
Nel campo Formato, seleziona CSV.
Fai clic su Convalida per assicurarti che non ci siano errori.
Fai clic su
Close (Chiudi).
Esegui la pipeline in modalità di anteprima
Esegui la pipeline in modalità di anteprima prima di eseguirne il deployment.
Fai clic su Anteprima, quindi su Esegui.
Se fai clic su Esegui, viene visualizzato lo stato della pipeline, che inizia con Avvio, poi passa a Interrompi e infine a Esegui.
Al termine dell'esecuzione dell'anteprima, nel nodo Redact, fai clic su Anteprima dati per visualizzare un confronto affiancato dei dati di input e output. Verifica che i numeri di telefono siano stati mascherati con il carattere
#
.
Oscurare un altro tipo di dati
Durante l'esame dei risultati dell'esecuzione dell'anteprima, noti che nella colonna Note sono ancora presenti informazioni sensibili: gli indirizzi email. Torni indietro e modifichi il modello Cloud DLP per oscurare anche gli indirizzi email.
Nella console Google Cloud , vai alla pagina Cloud DLP.
Nella scheda Configurazione, seleziona il modello.
Fai clic su Modifica.
Fai clic su Gestisci infotipi.
Nella scheda Integrati, utilizza il filtro per cercare "OR" "indirizzo email".
Seleziona tutto e fai clic su Fine.
Fai clic su Salva.
Ancora una volta, esegui la pipeline in modalità di anteprima. Cloud Data Fusion utilizzerà automaticamente il modello Cloud DLP aggiornato.
Verifica che entrambi i numeri di telefono e gli indirizzi email siano stati mascherati con il carattere
#
.
Esegui il deployment della pipeline ed eseguila
Assicurati che la modalità Anteprima non sia selezionata.
Fai clic su Salva. Se fai clic su Salva, ti viene chiesto di assegnare un nome alla pipeline. Quindi, fai clic su Ok.
Fai clic su Esegui il deployment.
Al termine del deployment, fai clic su Esegui. L'esecuzione della pipeline può richiedere alcuni minuti. Mentre attendi, puoi osservare lo Stato della transizione della pipeline da In fase di provisioning a In fase di avvio a In esecuzione a In fase di deprovisioning a Operazione riuscita.
Visualizza i risultati
Nella console Google Cloud , vai alla pagina Cloud Storage.
Nel browser di archiviazione, vai al bucket Cloud Storage sink che hai specificato nelle proprietà del plug-in Cloud Storage sink.
In URL link, fai clic sul link per scaricare il file CSV con i risultati. Controlla che i numeri di telefono e gli indirizzi email siano stati mascherati con il carattere
#
.