Set di dati pubblici BigQuery
Un set di dati pubblico è un set di dati archiviato in BigQuery e reso disponibile al pubblico in generale tramite il programma per i set di dati pubblici di Google Cloud. I set di dati pubblici sono set di dati ospitati da BigQuery a cui puoi accedere e che puoi integrare nelle tue applicazioni. Google paga per l'archiviazione di questi set di dati e fornisce l'accesso pubblico ai dati utilizzando un progetto. Paghi solo per le query eseguite sui dati. Il primo TB al mese è senza costi, in base ai dettagli dei prezzi delle query.
I set di dati pubblici sono disponibili per l'analisi utilizzando query SQL precedente o
GoogleSQL. Quando esegui query sui set di dati pubblici, utilizza un nome di tabella completo, ad esempio bigquery-public-data.bbc_news.fulltext. Se la tua organizzazione limita l'accesso ai dati, ad esempio con i perimetri di sicurezza, potresti dover contattare l'amministratore per ottenere l'autorizzazione ad accedere ai set di dati pubblici.
Puoi accedere ai set di dati pubblici BigQuery utilizzando la Google Cloud console, lo strumento a riga di comando bq o chiamate all'API REST BigQuery tramite varie librerie client, tra cui Java, .NET o Python. Puoi anche visualizzare ed eseguire query sui set di dati pubblici tramite BigQuery sharing (in precedenza Analytics Hub), una piattaforma di scambio di dati che ti aiuta a scoprire e accedere alle librerie di dati.
Per impostazione predefinita, i set di dati pubblici non sono accessibili dall'interno di un perimetro di Controlli di servizio VPC. Non esiste un accordo sul livello del servizio (SLA) per il programma per i set di dati pubblici.
Vai a Condivisione (Analytics Hub)
Puoi trovare ulteriori dettagli su ogni singolo set di dati facendo clic sul nome del set di dati nella sezione Set di dati di Cloud Marketplace.
Vai a Set di dati in Cloud Marketplace
Prima di iniziare
Per iniziare a utilizzare un set di dati pubblici BigQuery, devi creare o selezionare un progetto. Il primo terabyte di dati elaborati al mese è senza costi, quindi puoi iniziare a eseguire query sui set di dati pubblici senza attivare la fatturazione. Se intendi superare il livello senza costi, devi anche attivare la fatturazione.
- Accedi al tuo Google Cloud account. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti senza costi per l'esecuzione, il test e il deployment dei workload.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
- BigQuery è abilitato automaticamente nei nuovi progetti.
Per attivare BigQuery in un progetto preesistente,
Abilita l'API BigQuery.
Ruoli richiesti per abilitare le API
Per abilitare le API, devi disporre del ruolo IAM Amministratore utilizzo servizi (
roles/serviceusage.serviceUsageAdmin), che contiene l'autorizzazioneserviceusage.services.enable. Scopri come concedere i ruoli.
Posizioni dei set di dati pubblici
Ogni set di dati pubblico viene archiviato in una posizione specifica, ad esempio US o EU. Al momento, le tabelle di esempio di BigQuery sono archiviate nella posizione multiregionale
US location.
Quando esegui una query su una tabella di esempio, fornisci il --location=US flag sulla
riga di comando, scegli US come località di elaborazione nella
Google Cloud console, o specifica la location proprietà nella
jobReference sezione della
risorsa job
quando utilizzi l'API. Poiché le tabelle di esempio sono archiviate negli Stati Uniti, non puoi scrivere i risultati delle query delle tabelle di esempio in una tabella di un'altra regione e non puoi unire le tabelle di esempio con le tabelle di un'altra regione.
Accedere ai set di dati pubblici nella Google Cloud console
Puoi accedere ai set di dati pubblici nella Google Cloud console nei seguenti modi:
Nel riquadro Explorer, visualizza il progetto
bigquery-public-data. Per ulteriori informazioni, consulta Aprire un set di dati pubblico.Utilizza la condivisione per visualizzare i set di dati pubblici e abbonarti.
Per scoprire quando è stata aggiornata l'ultima volta una tabella di dati, vai alla sezione Dettagli della tabella come descritto in Ottenere informazioni sulle tabelle, e visualizza il campo Ultima modifica.
Altri set di dati pubblici
Sono disponibili molti altri set di dati pubblici su cui puoi eseguire query, alcuni dei quali sono ospitati anche da Google, ma molti altri sono ospitati da terze parti. Altri set di dati includono:
- Set di dati per immagini toraciche a raggi X NIH
- Set di dati The Cancer Imaging Archive (TCIA)
- Set di dati delle note di rilascio per la maggior parte dei prodotti Google Cloud generalmente disponibili.
Condividere un set di dati con il pubblico
Puoi condividere qualsiasi set di dati con il pubblico modificando i controlli dell'accesso del set di dati per consentire l'accesso a "Tutti gli utenti autenticati". Per ulteriori informazioni sulla configurazione dei controlli dell'accesso ai set di dati, consulta Controllare l'accesso ai set di dati.
Quando condividi un set di dati con il pubblico:
- Le spese di archiviazione vengono addebitate all'account di fatturazione collegato al progetto che contiene il set di dati condiviso pubblicamente.
- Le spese per le query vengono addebitate all'account di fatturazione collegato al progetto in cui vengono eseguiti i job di query.
Per ulteriori informazioni, consulta la panoramica dei prezzi di BigQuery.
Tabelle di esempio
Oltre ai set di dati pubblici,
BigQuery fornisce un numero limitato di tabelle di esempio su cui puoi
eseguire query. Queste tabelle sono contenute nel
bigquery-public-data:samples set di dati.
I requisiti per l'esecuzione di query sulle tabelle di esempio di BigQuery sono gli stessi dei requisiti per l'esecuzione di query sui set di dati pubblici.
Il set di dati bigquery-public-data:samples include le seguenti tabelle:
| Nome | Descrizione |
|---|---|
gsod |
Contiene informazioni meteorologiche raccolte dalla NOAA, come quantità di precipitazioni e velocità del vento dalla fine del 1929 all'inizio del 2010. |
github_nested |
Contiene una sequenza temporale di azioni come richieste di pull e commenti sui repository GitHub con uno schema nidificato. Creato a settembre 2012. |
github_timeline |
Contiene una sequenza temporale di azioni come richieste di pull e commenti sui repository GitHub con uno schema flat. Creato a maggio 2012. |
natality |
Descrive tutte le nascite negli Stati Uniti registrate nei 50 stati, nel Distretto di Columbia e a New York City dal 1969 al 2008. |
shakespeare |
Contiene un indice di parole delle opere di Shakespeare, che indica il numero di volte in cui ogni parola compare in ogni corpus. |
trigrams |
Contiene trigrammi in lingua inglese da un campione di opere pubblicate tra il 1520 e il 2008. |
wikipedia |
Contiene la cronologia completa delle revisioni di tutti gli articoli di Wikipedia fino ad aprile 2010. |
Contattaci
Se hai domande sul programma per i set di dati pubblici BigQuery, contattaci all'indirizzo bq-public-data@google.com.
Passaggi successivi
Scopri come eseguire query su una tabella in un set di dati pubblico nella guida rapida utilizzando la console. Google Cloud