Übersicht über BigQuery-Analysen

In diesem Dokument wird beschrieben, wie BigQuery Abfragen verarbeitet. Außerdem bietet es einen Überblick über verschiedene Funktionen, die für das Verständnis und die Analyse Ihrer Daten nützlich sind.

BigQuery ist für die Ausführung von Analyseabfragen für große Datasets optimiert, darunter Terabyte an Daten in Sekunden und Petabyte im Minutenbereich. Wenn Sie seine Funktionen und die Art der Abfragverarbeitung kennen, können Sie Ihre Investitionen in Datenanalysen maximieren.

Analyse-Workflows

BigQuery unterstützt verschiedene Datenanalyse-Workflows:

  • Ad-hoc-Analyse. BigQuery verwendet zur Unterstützung der Ad-hoc Analyse GoogleSQL, den SQL-Dialekt in BigQuery. Sie können Abfragen in der Google Cloud Console oder über Drittanbietertools , die sich in BigQuery einbinden lassen, ausführen.

  • Raumbezogene Analyse. BigQuery verwendet geografische Datentypen und geografische Funktionen von GoogleSQL, mit denen Sie raumbezogene Daten analysieren und visualisieren können. Weitere Informationen zu diesen Datentypen und Funktionen finden Sie unter Einführung in räumlich-geografische Analysen.

  • Graphenanalyse. Mit BigQuery Graph können Sie Ihre Daten als Graphen mit Knoten und Kanten modellieren. Mit der Graph Query Language (GQL) können Sie komplexe, verborgene Beziehungen zwischen Datenpunkten finden, die mit SQL nur schwer zu finden wären.

  • Daten suchen. Sie können Ihre Daten indexieren, um flexible, optimierte Suchvorgänge für unstrukturierten Text oder semistrukturierte JSON-Daten auszuführen.

  • Nach Google Cloud Ressourcen suchen. Mit der Suche in natürlicher Sprache (Vorschau) können Sie Ressourcen in BigQuery finden. Google Cloud

  • Maschinelles Lernen. BigQuery ML verwendet GoogleSQL-Abfragen, mit denen Sie Modelle für maschinelles Lernen (ML) in BigQuery erstellen und ausführen können.

  • Business intelligence. BigQuery BI Engine ist ein schneller In-Memory-Analysedienst, mit dem Sie umfangreiche interaktive Dashboards und Berichte erstellen können, ohne Leistung, Skalierbarkeit, Sicherheit oder Datenaktualität zu beeinträchtigen.

  • KI-Unterstützung. Mit Gemini in BigQuery können Sie Ihre Daten vorbereiten und analysieren, SQL-Abfragen und Python-Code generieren und Ihre Ergebnisse visualisieren.

Explorative Datenanalyse

Mit BigQuery können Sie Ihre Daten analysieren, bevor Sie SQL-Abfragen schreiben. Verwenden Sie die folgenden Funktionen, wenn Sie Daten suchen, Ihre Daten nicht kennen, nicht wissen, welche Fragen Sie stellen sollen, oder Hilfe beim Schreiben von SQL benötigen:

  • Dataplex Universal Catalog. Sie können Google Cloud Ressourcen wie Datasets und Tabellen in BigQuery finden.

  • Tabellen-Explorer. Sie können den Bereich und die Häufigkeit von Werten in Ihrer Tabelle visuell untersuchen und interaktiv Abfragen erstellen.

  • Datenstatistiken. Sie können Fragen in natürlicher Sprache zu Ihren Daten sowie die SQL-Abfragen generieren, mit denen diese Fragen beantwortet werden.

  • Datenprofilscan. Sie können statistische Merkmale Ihrer Daten sehen, einschließlich Durchschnitts-, eindeutiger, Höchst- und Mindestwerte.

  • Daten-Canvas. Sie können Ihre Daten in natürlicher Sprache abfragen, Ergebnisse mit Diagrammen visualisieren und Folgefragen stellen.

Abfragen

Die primäre Methode zum Analysieren von Daten in BigQuery ist das Ausführen einer SQL-Abfrage. Der GoogleSQL-Dialekt unterstützt SQL:2011 und enthält Erweiterungen, die räumlich-geografische Analysen und ML unterstützen.

Datenquellen

Mit BigQuery können Sie folgende Datenquellentypen abfragen:

  • In BigQuery gespeicherte Daten. Sie können Daten in BigQuery laden, vorhandene Daten mit DML-Anweisungen (Data Manipulation Language, Datenbearbeitungssprache) ändern, oder Abfrageergebnisse in eine Tabelle schreiben. Sie können Verlaufsdaten zu einem bestimmten Zeitpunkt innerhalb des Zeitreisefensters abfragen.

    Sie können Daten abfragen, die an einem Standort mit einer oder mehreren Regionen gespeichert sind. Eine Abfrage, die auf Daten zugreift, die an mehreren Standorten gespeichert sind, kann als eine globale Abfrage (Vorschau) behandelt werden. Abfragen, die auf Daten an mehreren Standorten verweisen, werden immer als globale Abfragen behandelt, auch wenn eine Region ein Standort mit einer einzelnen Region und die andere ein Standort mit mehreren Regionen ist, der den Standort mit einer einzelnen Region enthält.

  • Externe Daten. Sie können verschiedene externe Datenquellen abfragen, z. B. Cloud Storage oder Datenbankdienste wie Spanner oder Cloud SQL. Informationen zum Einrichten von Verbindungen zu externen Quellen finden Sie unter Einführung in externe Datenquellen

  • Multi-Cloud-Daten. Sie können Daten abfragen, die in anderen öffentlichen Clouds (z. B. AWS oder Azure) gespeichert sind. Informationen zum Einrichten von Verbindungen zu Amazon Simple Storage Service (Amazon S3) oder Azure Blob Storage finden Sie unter Einführung in BigQuery Omni.

  • Öffentliche Datasets. Sie können die in dem öffentlichen Dataset-Marktplatz verfügbaren Datasets analysieren.

  • BigQuery Sharing (ehemals Analytics Hub). Sie können BigQuery-Datasets und Pub/Sub-Themen veröffentlichen und abonnieren, um Daten über Organisationsgrenzen hinweg freizugeben. Weitere Informationen finden Sie unter Einführung in BigQuery Sharing.

Arten von Abfragen

Sie können BigQuery-Daten abfragen mit einem der folgenden Abfragejobtypen:

  • Interaktive Abfragejobs. BigQuery führt Abfragen standardmäßig als interaktive Abfragejobs aus, die so schnell wie möglich gestartet werden sollen.

  • Batch-Abfragejobs. Batch-Abfragen haben eine niedrigere Priorität als interaktive Abfragen. Wenn ein Projekt oder eine Reservierung alle verfügbaren Rechenressourcen nutzt, werden Batch-Abfragen mit größerer Wahrscheinlichkeit in die Warteschlange gestellt und bleiben dort. Nachdem eine Batch-Abfrage gestartet wurde, wird sie genauso ausgeführt wie eine interaktive Abfrage. Weitere Informationen finden Sie unter Abfragewarteschlangen.

  • Jobs vom Typ „Kontinuierliche Abfrage“. Bei diesen Jobs wird die Abfrage kontinuierlich ausgeführt. So können Sie eingehende Daten in BigQuery in Echtzeit analysieren und die Ergebnisse dann in eine BigQuery-Tabelle schreiben oder in Bigtable oder Pub/Sub exportieren. Mit dieser Funktion können Sie zeitkritische Aufgaben ausführen, z. B. Erkenntnisse erstellen und sofort darauf reagieren, Echtzeit-Inferenzen für maschinelles Lernen (ML) anwenden und ereignisgesteuerte Datenpipelines erstellen.

Sie können Abfragejobs mit den folgenden Methoden ausführen:

Abfragen mit mehreren Anweisungen

Mit Abfragen mit mehreren Anweisungen können Sie mehrere Anweisungen in einer Sequenz mit gemeinsamem Status ausführen. Abfragen mit mehreren Anweisungen Abfragen mit mehreren Anweisungen werden häufig in gespeicherten Prozeduren verwendet und unterstützen prozedurale Sprachanweisungen, mit denen Sie Variablen definieren und die Ablaufsteuerung implementieren können.

Gespeicherte und freigegebene Abfragen

Mit BigQuery können Sie Abfragen speichern und für andere Nutzer freigeben.

Eine gespeicherte Abfrage kann privat (nur für Sie sichtbar), auf Projektebene freigegeben (für bestimmte Hauptkonten sichtbar) oder öffentlich sein (jeder kann sie sehen). Weitere Informationen finden Sie unter Mit gespeicherten Abfragen arbeiten.

So verarbeitet BigQuery Abfragen

Beim Ausführen einer Abfrage in BigQuery werden mehrere Prozesse aktiv:

  • Ausführungsstruktur. Wenn Sie eine Abfrage ausführen, wird in BigQuery eine Ausführungsstruktur generiert, die die Abfrage in Phasen unterteilt. Diese Phasen enthalten Schritte, die parallel ausgeführt werden können.

  • Shuffle-Stufe. Die Phasen kommunizieren über eine schnelle, verteilte Shuffle-Stufe, die von den Workern einer Phase erstellte Zwischendaten speichert. Wenn möglich, nutzt die Shuffle-Stufe Technologien wie Petabitnetzwerke und RAM, um Daten schnell auf Worker-Knoten zu verschieben.

  • Abfrageplan. Sobald BigQuery alle Informationen hat, die zum Ausführen einer Abfrage erforderlich sind, wird ein Abfrageplan generiert. Sie können den Abfrageplan in der Google Cloud Console aufrufen und zur Fehlerbehebung oder zur Optimierung der Abfrageleistung verwenden.

  • Diagramm zur Abfrageausführung. Sie können die Informationen des Abfrageplans in grafischem Format für jede Abfrage prüfen, unabhängig davon, ob sie gerade ausgeführt wird oder bereits abgeschlossen ist. Außerdem können Sie Leistungsinformationen sehen, die Ihnen bei der Optimierung Ihrer Abfragen helfen.

  • Abfragemonitoring und dynamische Planung. Neben den Workern, die die Arbeit des Abfrageplans selbst ausführen, überwachen und leiten zusätzliche Worker den gesamten Fortschritt der Arbeit im gesamten System. Im Laufe der Abfrage kann BigQuery den Abfrageplan auch dynamisch anpassen, um sich an die Ergebnisse der verschiedenen Phasen anzupassen.

  • Abfrageergebnisse. Wenn eine Abfrage abgeschlossen ist, schreibt BigQuery die Ergebnisse in den nichtflüchtigen Speicher und gibt sie an den Nutzer zurück. Dank diesem Design kann BigQuery im Cache gespeicherte Ergebnisse bei der nächsten Ausführung der Abfrage bereitstellen.

Nebenläufigkeit und Leistung von Abfragen

Die Leistung von Abfragen, die wiederholt für dieselben Daten ausgeführt werden, kann aufgrund der Beschaffenheit der BigQuery-Umgebung, der Verwendung von im Cache gespeicherten Abfrageergebnissen oder weil BigQuery den Abfrageplan dynamisch anpasst, während die Abfrage ausgeführt wird, variieren. Bei einem typischerweise ausgelasteten System, in dem viele Abfragen gleichzeitig ausgeführt werden, verwendet BigQuery mehrere Prozesse, um Abweichungen bei der Abfrageleistung auszugleichen:

  • BigQuery führt viele Abfragen parallel aus und kann Abfragen in die Warteschlange stellen, um sie auszuführen, wenn Ressourcen verfügbar sind.

  • Während Abfragen beginnen und abgeschlossen werden, verteilt BigQuery Ressourcen gleichmäßig auf neue und laufende Abfragen. Dadurch wird sichergestellt, dass die Abfrageleistung nicht von der Reihenfolge abhängt, in der Abfragen übergeben werden, sondern von der Anzahl der Abfragen, die zu einer bestimmten Zeit ausgeführt werden.

Abfrageoptimierung

Wenn Sie eine Abfrage ausführen, können Sie den Abfrageplan in der Google Cloud Console aufrufen. Sie können Ausführungsdetails auch mit den INFORMATION_SCHEMA.JOBS* Ansichten oder der jobs.get REST API-Methode anfordern.

Der Abfrageplan enthält Details zu Abfragephasen und -schritten. Mithilfe dieser Details können Sie Möglichkeiten zur Verbesserung der Abfrageleistung ermitteln. Beispiel: Wenn Sie eine Phase bemerken, in der viel mehr Ausgaben als in anderen Phasen geschrieben werden, bedeutet dies möglicherweise, dass Sie früher in der Abfrage filtern müssen.

Weitere Informationen zum Abfrageplan und zur Abfrageoptimierung finden Sie in folgenden Ressourcen:

Abfragemonitoring

Monitoring und Logging sind für die Ausführung zuverlässiger Anwendungen in der Cloud entscheidend. BigQuery-Arbeitslasten sind keine Ausnahme, insbesondere wenn Ihre Arbeitslast ein hohes Volumen hat oder geschäftskritisch ist. BigQuery bietet verschiedene Messwerte, Logs und Metadatenansichten, mit denen Sie die BigQuery-Nutzung überwachen können.

Weitere Informationen finden Sie in den folgenden Ressourcen:

Abfragepreise

BigQuery bietet zwei Preismodelle für Analysen:

  • On-Demand-Preise. Sie bezahlen nur für die Daten, die von Ihren Abfragen gescannt wurden. Sie haben für jedes Projekt eine feste Abfrageverarbeitungskapazität. Die Kosten basieren auf der Anzahl der verarbeiteten Byte.
  • Kapazitätsbasierte Preise: Sie erwerben eine bestimmte Menge an Kapazitäten zur Abfrageverarbeitung. Kapazitätsbasierte Preise: Sie erwerben eine bestimmte Menge an Kapazitäten zur Abfrageverarbeitung.

Informationen zu den beiden Preismodellen und zu Reservierungen für kapazitätsbasierte Preise finden Sie unter Einführung in Reservierungen.

Kontingente und Kostenkontrollen für Abfragen

In BigQuery gelten auf Projektebene Kontingente für das Ausführen von Abfragen. Weitere Informationen zu Abfragekontingenten finden Sie unter Kontingente und Limits.

Für die Kontrolle der Kosten von Abfragen bietet BigQuery mehrere Möglichkeiten, darunter benutzerdefinierte Kontingente und Abrechnungsbenachrichtigungen. Weitere Informationen finden Sie unter Benutzerdefinierte Kostenkontrolle erstellen.

Datenanalysefeatures

BigQuery unterstützt sowohl deskriptive als auch prädiktive Analysen und hilft Ihnen, Ihre Daten mit KI-gestützten Tools, SQL, maschinellem Lernen, Notebooks und anderen Drittanbieterintegrationen zu analysieren.

BigQuery Studio

Mit BigQuery Studio können Sie Daten in BigQuery mit den folgenden Funktionen finden, analysieren und Inferenzen darauf ausführen:

BigQuery ML

Mit BigQuery ML können Sie SQL in BigQuery verwenden, um maschinelles Lernen (ML) und prädiktive Analysen durchzuführen. Weitere Informationen finden Sie unter Einführung in BigQuery ML.

Mit dem Conversational Analytics Agent können Sie in natürlicher Sprache mit Ihren Daten interagieren. Dieser Agent besteht aus einer oder mehreren Datenquellen und einer Reihe von anwendungsfallspezifischen Anweisungen zur Verarbeitung dieser Daten. Die Conversational Analytics unterstützen die Verwendung einiger BigQuery ML-Funktionen.

Einbindung von Analysetools

Sie können nicht nur Abfragen in BigQuery ausführen, sondern auch Ihre Daten mit verschiedenen Analyse- und Business-Intelligence-Tools analysieren, die sich in BigQuery einbinden lassen. Dazu gehören:

  • Looker. Looker ist eine Unternehmensplattform für Business Intelligence, Datenanwendungen und eingebettete Analysen. Die Looker-Plattform funktioniert mit vielen Datenspeichern, einschließlich BigQuery. Informationen zum Verbinden von Looker mit BigQuery finden Sie unter Looker verwenden.

  • Looker Studio. Nachdem Sie eine Abfrage ausgeführt haben, können Sie Looker Studio direkt in BigQuery in der Google Cloud Console starten. In Looker Studio können Sie dann Visualisierungen erstellen und die von der Abfrage zurückgegebenen Daten untersuchen. Informationen zu Looker Studio finden Sie unter Übersicht über Looker Studio.

  • Verbundene Tabellenblätter. Sie können verbundene Tabellenblätter auch direkt über BigQuery in der Console starten. Verbundene Tabellenblätter führt BigQuery-Abfragen in Ihrem Namen aus, entweder auf Ihre Anfrage hin oder nach einem festgelegten Zeitplan. Die Ergebnisse dieser Abfragen werden zur Analyse und Freigabe in Ihrer Tabelle gespeichert. Informationen zu verbundenen Tabellenblättern, siehe Verbundene Tabellenblätter verwenden.

  • Tableau. Sie können eine Verbindung zu einem Dataset von Tableau aus herstellen. Verwenden Sie BigQuery, um Ihre Diagramme, Dashboards und andere Datenvisualisierungen zu erstellen.

Einbindung von Drittanbietertools

Mehrere Analysetools von Drittanbietern funktionieren mit BigQuery. Sie können beispielsweise Tableau mit BigQuery-Daten verbinden und die Visualisierungstools von Tableau verwenden, um Ihre Analysen zu analysieren und freizugeben. Weitere Informationen zu Überlegungen bei der Verwendung von Drittanbietertools finden Sie unter Integration von Drittanbietertools.

ODBC- und JDBC-Treiber sind verfügbar und können zum Einbinden Ihrer Anwendung in BigQuery verwendet werden. Diese Treiber sollen Nutzern helfen, das Potenzial von BigQuery in vorhandenen Tools und Infrastrukturen zu nutzen. Informationen zu aktuellen Releases und bekannten Problemen finden Sie unter ODBC- und JDBC-Treiber für BigQuery.

Mit Pandas-Bibliotheken wie pandas-gbq können Sie mit BigQuery-Daten in Jupyter-Notebooks interagieren. Informationen zu dieser Bibliothek und ihren Unterschieden zur Python-Clientbibliothek von BigQuery finden Sie unter Vergleich mit pandas-gbq.

Sie können BigQuery auch mit anderen Notebooks und Analysetools verwenden. Weitere Informationen finden Sie unter Programmatische Analysetools.

Eine vollständige Liste der BigQuery-Analysen und umfassende Technologiepartner finden Sie in der Liste der Partner auf der BigQuery-Produktseite.

Nächste Schritte