Einführung in ML in BigQuery
Mit BigQuery ML können Sie ML-Modelle (Machine Learning) entweder mit GoogleSQL-Abfragen oder über die Google Cloud console erstellen und ausführen. BigQuery ML-Modelle werden ähnlich wie Tabellen und Ansichten in BigQuery-Datasets gespeichert. Mit BigQuery ML können Sie auch auf Gemini Enterprise Agent Platform-Modelle und Cloud AI APIs zugreifen, um Aufgaben im Bereich künstliche Intelligenz (KI) wie Textgenerierung oder maschinelle Übersetzung auszuführen. Gemini for Google Cloud bietet auch KI-basierte Unterstützung für BigQuery-Aufgaben. Eine Liste der KI-basierten Funktionen in BigQuery finden Sie unter Übersicht über Gemini in BigQuery.
Normalerweise erfordert das Ausführen von ML oder KI für große Datasets umfangreiche Programmierung und ML-Framework-Kenntnisse. Diese Anforderungen beschränken die Lösungsentwicklung in den meisten Unternehmen auf einen sehr kleinen Personenkreis. Datenanalysten gehören nicht dazu, da sie die Daten zwar verstehen können, aber ihre Programmierkenntnisse und ihr Wissen im Hinblick auf ML begrenzt sind. Mit BigQuery ML können SQL-Anwender jedoch vorhandene SQL-Tools und -Fertigkeiten nutzen, um Modelle zu erstellen und zu bewerten sowie Ergebnisse aus LLMs und Cloud AI APIs zu generieren.
Sie können über folgende Elemente mit den BigQuery ML-Funktionen arbeiten:
- Die Google Cloud Benutzeroberfläche derconsole, um mit Modellen über eine Benutzeroberfläche zu arbeiten. (Vorschau)
- Der Abfrageeditor der Google Cloud console, um mit Modellen über SQL-Abfragen zu arbeiten.
- bq-Befehlszeilentool
- Die BigQuery REST API
- Integrierte Colab Enterprise-Notebooks in BigQuery
- Externe Tools wie ein Jupyter-Notebook oder eine Business Intelligence-Plattform
Vorteile von BigQuery ML
BigQuery ML bietet mehrere Vorteile gegenüber anderen Ansätzen zur Nutzung von ML oder KI mit einem cloudbasierten Data Warehouse:
- BigQuery ML demokratisiert den Einsatz von ML und KI. Datenanalysten, die hauptsächlichen Nutzer eines Data Warehouse, können mithilfe von BigQuery ML Modelle mit vorhandenen Business Intelligence-Tools und Tabellen erstellen und ausführen. Prädiktive Analysen können bei der Entscheidungsfindung im gesamten Unternehmen helfen.
- Sie müssen keine ML- oder KI-Lösung mit Python oder Java programmieren. Sie trainieren Modelle und greifen auf KI-Ressourcen mit SQL zu – eine Sprache, die Datenanalysten vertraut ist.
BigQuery ML erhöht die Geschwindigkeit der Modellentwicklung und -innovation, da keine Daten mehr aus dem Data Warehouse bewegt werden müssen. BigQuery ML bringt ML stattdessen zu den Daten, was folgende Vorteile bietet:
- Weniger Komplexität, da weniger Tools erforderlich sind.
- Schnellere Produktion, da das Verschieben und Formatieren großer Datenmengen für Python-basierte ML-Frameworks nicht erforderlich ist, um ein Modell in BigQuery zu trainieren.
Weitere Informationen finden Sie im Video Beschleunigung der Entwicklung in Bezug auf maschinelles Lernen mit BigQuery ML.
Empfohlenes Wissen
Mit den Standardeinstellungen in den CREATE MODEL-Anweisungen und den Inferenzfunktionen können Sie BigQuery ML-Modelle auch ohne viel ML-Wissen erstellen und verwenden. Grundkenntnisse des ML-Entwicklungszyklus, z. B. Feature Engineering und Modelltraining, helfen Ihnen jedoch, sowohl Ihre Daten als auch Ihr Modell zu optimieren, um bessere Ergebnisse zu erzielen. Wir empfehlen die folgenden Ressourcen, um sich mit ML-Techniken und -Prozessen vertraut zu machen:
- Crashkurs „Maschinelles Lernen“
- Einführung in das maschinelle Lernen
- Datenbereinigung
- Feature Engineering
- Maschinelles Lernen für Fortgeschrittene
Mit Zeitreihen arbeiten
Mit den Modellen TimesFM, ARIMA_PLUS und ARIMA_PLUS_XREG können Sie
Prognosen und
Anomalieerkennung
für Zeitreihendaten durchführen.
Beitragsanalyse durchführen
Sie können ein Modell für die Beitragsanalyse erstellen, um Informationen zu Änderungen an wichtigen Messwerten in Ihren mehrdimensionalen Daten zu erhalten. So können Sie beispielsweise herausfinden, welche Daten zu einer Umsatzänderung beigetragen haben.
Unterstützte Modelle
Ein Modell in BigQuery ML stellt Informationen dar, die ein ML-System aus Trainingsdaten gewonnen hat. In den folgenden Abschnitten werden die von BigQuery ML unterstützten Modelltypen beschrieben. Weitere Informationen zum Erstellen von Reservierungszuweisungen für die verschiedenen Modelltypen finden Sie unter BigQuery ML-Arbeitslasten Slots zuweisen.
Intern trainierte Modelle
Die folgenden Modelle sind in BigQuery ML eingebunden:
- Die Beitragsanalyse dient zur Ermittlung der Auswirkung einer oder mehrerer Dimensionen auf den Wert eines bestimmten Messwerts. Beispiel: Auswirkung des Standorts und des Verkaufsdatums auf den Umsatz eines Geschäfts. Weitere Informationen finden Sie unter Übersicht über die Beitragsanalyse.
- Die lineare Regression dient zur Vorhersage des Werts eines numerischen Messwerts für neue Daten mithilfe eines Modells, das mit ähnlichen Remote-Daten trainiert wurde. Labels sind reellwertig, d. h. sie können weder positiv unendlich noch negativ unendlich noch ein NaN (Not a Number) sein.
- Die logistische Regression
wird für die Klassifizierung von zwei oder mehr möglichen Werten verwendet, z. B. ob eine
Eingabe
low-value,medium-value, oderhigh-valueist. Jedes Label kann bis zu 50 Einzelwerte haben. - K-Means-Clustering zur Datensegmentierung. Beispielsweise identifiziert dieses Modell Kundensegmente. Da K-Means ein unüberwachtes Lernverfahren ist, sind für das Modelltraining weder Labels noch Datenaufteilungen für die Trainings- oder Evaluierungsphase erforderlich.
- Matrixfaktorisierung zum Erstellen von Produktempfehlungssystemen. Sie können Produktempfehlungen auf der Grundlage des bisherigen Kundenverhaltens, der Transaktionen und der Produktbewertungen erstellen und diese Empfehlungen dann für personalisierte Kundenerfahrungen verwenden.
- Analyse der Hauptkomponenten (PCA) ist der Prozess der Berechnung der Hauptkomponenten und deren Verwendung, um eine Änderung der Basis der Daten durchzuführen. Es wird häufig zur Dimensionalitätsreduktion verwendet. Dabei wird jeder Datenpunkt auf die ersten Hauptkomponenten projiziert, um niedrigdimensionale Daten zu erhalten und gleichzeitig einen möglichst großen Teil der Datenabweichung beizubehalten.
Zeitachsen zum Erstellen von Zeitachsenprognosen und zur Anomalieerkennung. Die
ARIMA_PLUSundARIMA_PLUS_XREGZeitachsenmodelle bieten mehrere Optimierungsoptionen und verarbeiten Anomalien, Saisonabhängigkeiten und Feiertage automatisch.Wenn Sie kein eigenes Zeitreihenprognosemodell verwalten möchten, können Sie die
AI.FORECASTFunktion mit dem in BigQuery ML integrierten Zeitreihenmodell TimesFM (Vorschau) verwenden, um Prognosen zu erstellen.
Sie können für intern trainierte Modelle einen Probelauf für die
CREATE MODEL Anweisungen ausführen, um eine Schätzung der
verarbeiteten Daten bei der Ausführung zu erhalten.
Extern trainierte Modelle
Die folgenden Modelle befinden sich außerhalb von BigQuery ML und werden in Agent Platform trainiert:
- Neuronales Deep-Learning-Netzwerk (DNN) zum Erstellen von TensorFlow-basierten neuronalen Deep-Learning-Netzwerken für Klassifizierungsmodelle und Regressionsmodelle.
- Wide & Deep ist für allgemeine umfangreiche Regressions- und Klassifizierungsprobleme mit dünnbesetzten Eingaben (kategoriale Features mit einer großen Zahl möglicher Featurewerte) wie z. B. Recommender-Systeme, Suche und Rankingprobleme nützlich.
- Autoencoder dient zum Erstellen von TensorFlow-basierten Modellen mit Unterstützung für dünnbesetzte Datendarstellungen. Sie können die Modelle in BigQuery ML für Aufgaben wie die unüberwachte Anomalieerkennung und die nicht-lineare Dimensionsreduzierung verwenden.
- Boosted Trees dient zum Erstellen von Klassifizierungs- und Regressionsmodellen, die auf XGBoostbasieren.
- Random Forest dient zum Erstellen mehrerer Entscheidungsmethoden für Lernmethoden zur Klassifizierung, Regression und anderen Aufgaben zum Zeitpunkt des Trainings.
- AutoML ist ein überwachter ML-Dienst, der Klassifizierungs- und Regressionsmodelle für tabellarische Daten mit hoher Geschwindigkeit und Skalierung erstellt und bereitstellt.
Probeläufe können für die CREATE MODEL-Anweisungen für extern trainierte Modelle nicht ausgeführt werden, um eine Schätzung der Datenmenge zu erhalten, die durch sie verarbeitet wird.
Remotemodelle
Sie können in BigQuery Remote-Modelle erstellen, die in Vertex AI bereitgestellte Modelle verwenden.
Auf das bereitgestellte Modell verweisen Sie, indem Sie dessen
HTTPS-Endpunkt
in der CREATE MODEL-Anweisung des Remote-Modells angeben.
Die CREATE MODEL-Anweisungen für Remote-Modelle verarbeiten keine Byte und es fallen auch keine BigQuery-Gebühren an.
Importierte Modelle
Mit BigQuery ML können Sie benutzerdefinierte Modelle importieren, die außerhalb von BigQuery trainiert wurden, und dann Vorhersagen in BigQuery ausführen. Sie können folgende Modelle aus Cloud Storage in BigQuery importieren:
- Open Neural Network Exchange (ONNX) ist ein offenes Standardformat zur Darstellung von ML-Modellen. Mit ONNX können Sie Modelle, die mit gängigen ML-Frameworks wie PyTorch und scikit-learn trainiert wurden, in BigQuery ML zur Verfügung stellen.
- TensorFlow ist eine kostenlose Open-Source-Softwarebibliothek für ML und künstliche Intelligenz. Sie können TensorFlow für verschiedene Aufgaben verwenden. Der Schwerpunkt liegt jedoch auf dem Training und der Inferenz neuronaler Deep-Learning-Netzwerke. Sie können zuvor trainierte TensorFlow-Modelle als BigQuery ML-Modelle in BigQuery laden und dann Vorhersagen in BigQuery ML erstellen.
- TensorFlow Lite ist eine schlanke Version von TensorFlow für die Bereitstellung auf Mobilgeräten, Mikrocontrollern und anderen Edge-Geräten. TensorFlow optimiert vorhandene TensorFlow-Modelle für eine reduzierte Modellgröße und eine schnellere Inferenz.
- XGBoost ist eine optimierte, verteilte Gradient-Boost-Bibliothek, die hocheffizient, flexibel und portierbar ist. Die Implementierung der ML-Algorithmen erfolgt im Rahmen des Gradient Boosting-Frameworks.
Die CREATE MODEL-Anweisungen für importierte Modelle verarbeiten keine Byte und es fallen auch keine BigQuery-Gebühren an.
In BigQuery ML können Sie ein Modell mit Daten aus mehreren BigQuery-Datasets für Training und Vorhersage verwenden.
Leitfaden zur Modellauswahl
Entscheidungsbaum für die Modellauswahl herunterladen.
BigQuery ML und Agent Platform
BigQuery ML lässt sich in Agent Platform einbinden, die End-to-End-Plattform für KI und ML in Google Cloud. Sie können Ihre BigQuery ML-Modelle in Model Registry registrieren, um diese Modelle für Endpunkte für Onlinevorhersagen bereitzustellen. Weitere Informationen nachstehend:
- Weitere Informationen zur Verwendung von BigQuery ML Modellen mit Agent Platform finden Sie unter BigQuery ML-Modelle mit Agent Platform verwalten.
- Wenn Sie mit Agent Platform nicht vertraut sind und mehr über dessen Einbindung in BigQuery ML erfahren möchten, lesen Sie die Informationen unter Agent Platform für BigQuery-Nutzer.
- Sehen Sie sich das Video KI-Modelle mit Agent Platform und BigQuery ML vereinfachen an.
BigQuery ML und Colab Enterprise
Sie können jetzt Colab Enterprise-Notebooks verwenden, um ML-Workflows in BigQuery auszuführen. Mit Notebooks können Sie Ihre ML-Aufgaben unter Nutzung von SQL, Python und anderen beliebten Bibliotheken und Sprachen erfüllen. Weitere Informationen finden Sie unter Notebooks erstellen.
Unterstützte Regionen
BigQuery ML wird in denselben Regionen wie BigQuery unterstützt. Weitere Informationen finden Sie unter BigQuery ML-Standorte.
Preise
Ihnen werden die Rechenressourcen in Rechnung gestellt, die Sie zum Trainieren von Modellen und zum Ausführen von Abfragen für Modelle verwenden. Der von Ihnen erstellte Modelltyp wirkt sich darauf aus, wo das Modell trainiert wird und welche Preise für diesen Vorgang gelten. Abfragen für Modelle werden immer in BigQuery ausgeführt und verwenden die BigQuery-Rechenpreise. Da Remote-Modelle Aufrufe an Agent Platform-Modelle senden, fallen für Abfragen für Remote-Modelle auch Gebühren von Agent Platform an.
Die Kosten für den von trainierten Modellen verwendeten Speicher werden gemäß den BigQuery-Speicherpreisen berechnet.
Weitere Informationen finden Sie unter BigQuery ML-Preise.
Kontingente
Für Abfragen, die BigQuery ML-Funktionen und CREATE MODEL-Anweisungen verwenden, gelten neben den BigQuery ML-spezifischen Limits die Kontingente und Limits für BigQuery-Abfragejobs.
Beschränkungen
- BigQuery ML ist in der Standardversion nicht verfügbar.
Nächste Schritte
- Informationen zur Verwendung von BigQuery ML finden Sie unter Modelle für maschinelles Lernen in BigQuery ML erstellen.
- Weitere Informationen zum maschinellen Lernen und zu BigQuery ML finden Sie in folgenden Ressourcen:
- Schulungsprogramm : Intelligente Analysen und Datenverwaltung
- Intensivkurs zum maschinellen Lernen
- Glossar zum maschinellen Lernen
- Weitere Informationen zu MLOps mit Model Registry finden Sie unter BigQuery ML-Modelle in Agent Platform verwalten.
Weitere Informationen zu unterstützten SQL-Anweisungen und -Funktionen für verschiedene Modelltypen finden Sie in den folgenden Dokumenten: