Daten mit Datenbearbeitungssprache (DML) transformieren
Mit der BigQuery-Datenbearbeitungssprache (DML) können Sie Daten in BigQuery-Tabellen aktualisieren, einfügen und löschen.
Sie können DML-Anweisungen genau wie eine SELECT-Anweisung ausführen. Allerdings müssen folgende Bedingungen erfüllt sein:
- Sie müssen GoogleSQL verwenden. Wie Sie GoogleSQL aktivieren, erfahren Sie unter SQL-Dialekte wechseln.
- Sie können keine Zieltabelle für die Abfrage angeben.
Weitere Informationen zur Berechnung der Anzahl der von einer DML-Anweisung verarbeiteten Byte finden Sie unter Berechnung der On-Demand-Abfragegröße.
Beschränkungen
Jede DML-Anweisung initiiert eine implizite Transaktion, was bedeutet, dass von der Anweisung vorgenommene Änderungen automatisch am Ende jeder erfolgreichen DML-Anweisung per Commit übernommen werden.
Zeilen, die kürzlich mit der
tabledata.insertallStreaming-Methode geschrieben wurden, können nicht mit Datenbearbeitungssprache (Data Manipulation Language, DML) geändert werden, darunter:UPDATE,DELETE,MERGEoderTRUNCATE-Anweisungen. Die kürzlichen Schreibvorgänge sind jene, die innerhalb der letzten 30 Minuten ausgeführt wurden. Alle anderen Zeilen in der Tabelle können weiterhin durch die AnweisungenUPDATE,DELETE,MERGEoderTRUNCATEverändert werden. Es kann bis zu 90 Minuten dauern, bis die gestreamten Daten für Kopiervorgänge verfügbar sind.Alternativ können Zeilen, die kürzlich mit der Storage Write API geschrieben wurden, mit den Anweisungen
UPDATE,DELETEoderMERGEgeändert werden. Weitere Informationen finden Sie unter Datenbearbeitungssprache (DML) mit kürzlich gestreamten Daten verwenden.Korrelierte Unterabfragen innerhalb von
when_clause,search_condition,merge_update_clauseodermerge_insert_clausewerden fürMERGE-Anweisungen nicht unterstützt.Abfragen, die DML-Anweisungen enthalten, können keine Platzhaltertabelle als Ziel der Abfrage verwenden. Eine Platzhaltertabelle kann beispielsweise in der
FROM-Klausel einerUPDATE-Abfrage verwendet werden, aber nicht als Ziel desUPDATE-Vorgangs.
DML-Anweisungen
In den folgenden Abschnitten werden die verschiedenen Arten von DML-Anweisungen und ihre Verwendung beschrieben.
INSERT-Anweisung
Mit der Anweisung INSERT fügen Sie einer vorhandenen Tabelle neue Zeilen hinzu. Im folgenden Beispiel werden neue Zeilen mit explizit angegebenen Werten in die Tabelle dataset.Inventory eingefügt.
INSERT dataset.Inventory (product, quantity)
VALUES('whole milk', 10),
('almond milk', 20),
('coffee beans', 30),
('sugar', 0),
('matcha', 20),
('oat milk', 30),
('chai', 5)
/+-------------------+----------+
| product | quantity |
+-------------------+----------+
| almond milk | 20 |
| chai | 5 |
| coffee beans | 30 |
| matcha | 20 |
| oat milk | 30 |
| sugar | 0 |
| whole milk | 10 |
+-------------------+----------+/
Weitere Informationen zu INSERT-Anweisungen finden Sie unter INSERT-Anweisung.
DELETE-Anweisung
Mit der Anweisung DELETE werden Zeilen in einer Tabelle gelöscht. Im folgenden Beispiel werden alle Zeilen in der Tabelle dataset.Inventory gelöscht, für die der Wert quantity gleich 0 ist.
DELETE dataset.Inventory
WHERE quantity = 0
/+-------------------+----------+
| product | quantity |
+-------------------+----------+
| almond milk | 20 |
| chai | 5 |
| coffee beans | 30 |
| matcha | 20 |
| oat milk | 30 |
| whole milk | 10 |
+-------------------+----------+/
Verwenden Sie stattdessen die Anweisung TRUNCATE TABLE, um alle Zeilen in einer Tabelle zu löschen. Weitere Informationen zu DELETE-Anweisungen finden Sie unter DELETE-Anweisung.
TRUNCATE-Anweisung
Mit der TRUNCATE-Anweisung werden alle Zeilen aus einer Tabelle entfernt, die Metadaten der Tabelle, einschließlich Tabellenschema, Beschreibung und Labels, bleiben jedoch erhalten. Im folgenden Beispiel werden alle Zeilen aus der Tabelle dataset.Inventory entfernt.
TRUNCATE dataset.Inventory
Bestimmte Zeilen in einer Tabelle löschen Verwenden Sie stattdessen die DELETE-Anweisung. Weitere Informationen zur TRUNCATE-Anweisung finden Sie unter TRUNCATE-Anweisung.
UPDATE-Anweisung
Mit der Anweisung UPDATE werden vorhandene Zeilen in einer Tabelle aktualisiert. Die UPDATE-Anweisung muss auch das WHERE-Schlüsselwort enthalten, um eine Bedingung anzugeben. Im folgenden Beispiel wird der Wert quantity von Zeilen für Produkte, die den String milk enthalten, um 10 verringert.
UPDATE dataset.Inventory
SET quantity = quantity - 10,
WHERE product LIKE '%milk%'
/+-------------------+----------+
| product | quantity |
+-------------------+----------+
| almond milk | 10 |
| chai | 5 |
| coffee beans | 30 |
| matcha | 20 |
| oat milk | 20 |
| whole milk | 0 |
+-------------------+----------+/
UPDATE-Anweisungen können auch FROM-Klauseln enthalten, um verknüpfte Tabellen einzubeziehen.
Weitere Informationen zu UPDATE-Anweisungen finden Sie unter UPDATE-Anweisung.
MERGE-Anweisung
Die MERGE-Anweisung kombiniert die Vorgänge INSERT, UPDATE und DELETE in einer einzigen Anweisung und führt die Vorgänge atomar aus, um Daten aus einer Tabelle in eine andere zusammenzuführen. Weitere Informationen und Beispiele zur MERGE-Anweisung finden Sie unter MERGE-Anweisung.
Gleichzeitige Jobs
BigQuery verwaltet die Gleichzeitigkeit von DML-Anweisungen, mit denen Zeilen in einer Tabelle hinzugefügt, geändert oder gelöscht werden.
Gleichzeitigkeit von INSERT-DML-Anweisungen
Während eines Zeitraums von 24 Stunden werden die ersten 1.500 INSERT-Anweisungen unmittelbar nach dem Senden ausgeführt. Nachdem dieses Limit erreicht wurde, ist die Gleichzeitigkeit von INSERT-Anweisungen zum Schreiben in eine Tabelle auf 10 beschränkt. Zusätzliche INSERT-Anweisungen werden einer PENDING-Warteschlange hinzugefügt. Es können jeweils bis zu 100 INSERT-Anweisungen für eine Tabelle in die Warteschlange gestellt werden. Wenn eine INSERT-Anweisung abgeschlossen ist, wird die nächste INSERT-Anweisung aus der Warteschlange entfernt und ausgeführt.
Wenn Sie DML-INSERT-Anweisungen häufiger ausführen müssen, können Sie Daten mit der Storage Write API in Ihre Tabelle streamen.
Gleichzeitigkeit von UPDATE-, DELETE- und MERGE-DML-Anweisungen
Die DML-Anweisungen UPDATE, DELETE und MERGE werden als sich ändernde DML-Anweisungen bezeichnet. Wenn Sie eine oder mehrere sich ändernde DML-Anweisungen für eine Tabelle senden, während noch andere sich ändernde DML-Jobs für diese ausgeführt werden (oder ausstehend sind), führt BigQuery bis zu zwei von ihnen gleichzeitig aus, danach werden bis zu 20 als PENDING in der Warteschlange platziert. Wenn ein zuvor ausgeführter Job abgeschlossen ist, wird der nächste ausstehende Job aus der Warteschlange entfernt und ausgeführt. Derzeit teilen sich mutierende DML-Anweisungen in der Warteschlange eine tabellenspezifische Warteschlange mit einer maximalen Länge von 20. Zusätzliche Anweisungen nach der maximalen Warteschlangenlänge für jede einzelne Tabelle schlagen mit der Fehlermeldung fehl: Resources
exceeded during query execution: Too many DML statements outstanding against
table PROJECT_ID:DATASET.TABLE, limit is 20.
Interaktive Prioritäts-DML-Jobs, die länger als sieben Stunden in der Warteschlange stehen, schlagen mit der folgenden Fehlermeldung fehl:
DML statement has been queued for too long
Konflikte mit DML-Anweisungen
Mutierende DML-Anweisungen, die gleichzeitig in einer Tabelle ausgeführt werden, verursachen Konflikte mit DML-Anweisungen, wenn durch die Anweisungen versucht wird, dieselbe Partition zu mutieren. Die Anweisungen sind erfolgreich, solange sie nicht dieselbe Partition ändern. BigQuery versucht bis zu dreimal, fehlgeschlagene Anweisungen noch einmal auszuführen.
Eine
INSERT-DML-Anweisung, die Zeilen in eine Tabelle einfügt, steht nicht im Konflikt mit einer anderen gleichzeitig ausgeführten DML-Anweisung.Eine
MERGE-DML-Anweisung steht nicht in Konflikt mit anderen gleichzeitig ausgeführten DML-Anweisungen, solange mit der Anweisung nur Zeilen eingefügt werden und vorhandene Zeilen nicht gelöscht oder aktualisiert werden. Dazu könnenMERGE-Anweisungen mitUPDATE- oderDELETE-Klauseln gehören, sofern diese Klauseln nicht bei der Ausführung der Abfrage aufgerufen werden.
Detaillierte DML
Die detaillierte DML ist eine Leistungssteigerung, die die Ausführung von UPDATE-, DELETE- und MERGE-Anweisungen (auch als mutierende DML-Anweisungen bezeichnet) optimieren soll.
Hinweise zur Leistung
Wenn die detaillierte DML nicht aktiviert ist, werden DML-Mutationen auf Dateigruppenebene ausgeführt. Dies kann zu ineffizienten Datenüberschreibungen führen, insbesondere bei spärlichen Mutationen. Dies kann zu einem zusätzlichen Slotverbrauch und längeren Ausführungszeiten führen.
Die detaillierte DML ist eine Leistungssteigerung, die darauf ausgelegt ist, diese mutierenden DML-Anweisungen zu optimieren. Dazu wird ein detaillierterer Ansatz eingeführt, mit dem die Menge der Daten reduziert werden soll, die auf Dateigruppenebene neu geschrieben werden müssen. Mit diesem Ansatz können die für das Ändern von DML-Jobs benötigte Verarbeitungs-, E/A- und Slotzeit erheblich reduziert werden.
Bei der Verwendung von DML auf feiner Ebene sind einige Leistungsaspekte zu beachten:
- Bei detaillierten DML-Vorgängen werden gelöschte Daten in einem hybriden Ansatz verarbeitet, bei dem die Kosten für das Überschreiben auf zahlreiche Tabellenänderungen verteilt werden. Bei jedem DML-Vorgang wird möglicherweise ein Teil der gelöschten Daten verarbeitet und die Verarbeitung der verbleibenden gelöschten Daten wird an einen Hintergrundprozess für die automatische Speicherbereinigung ausgelagert. Weitere Informationen finden Sie unter Überlegungen zu gelöschten Daten.
- Bei Tabellen mit häufigen mutierenden DML-Vorgängen kann es zu einer erhöhten Latenz für nachfolgende
SELECT-Abfragen und DML-Jobs kommen. Um die Auswirkungen der Aktivierung dieser Funktion zu bewerten, sollten Sie die Leistung einer realistischen Sequenz von DML-Vorgängen und nachfolgenden Lesevorgängen vergleichen. - Für große Tabellen mit häufig geänderten Partitionen, die 2 TB überschreiten, wird keine detaillierte DML empfohlen. Bei nachfolgenden Abfragen kann es in diesen Tabellen zu einem erhöhten Speicherbedarf kommen, was zu einer zusätzlichen Leselatenz oder zu Abfragefehlern führen kann.
- Wenn Sie die detaillierte DML aktivieren, wird die Anzahl der gescannten Byte der mutierenden DML-Anweisung selbst nicht reduziert.
Detaillierte DML aktivieren
Wenn Sie detaillierte DML aktivieren möchten, legen Sie die Tabellenoption enable_fine_grained_mutations auf TRUE fest, wenn Sie eine DDL-Anweisung vom Typ CREATE TABLE oder ALTER TABLE ausführen.
Verwenden Sie zum Erstellen einer neuen Tabelle mit detaillierten DML-Vorgängen die Anweisung CREATE TABLE:
CREATE TABLE mydataset.mytable ( product STRING, inventory INT64) OPTIONS(enable_fine_grained_mutations = TRUE);
Verwenden Sie die ALTER TABLE-Anweisung, um eine vorhandene Tabelle mit detaillierter DML zu ändern:
ALTER TABLE mydataset.mytable SET OPTIONS(enable_fine_grained_mutations = TRUE);
Wenn Sie alle vorhandenen Tabellen in einem Dataset mit detaillierten DML-Anweisungen ändern möchten, verwenden Sie die Anweisung ALTER TABLE:
FOR record IN
(SELECT CONCAT(table_schema, '.', table_name) AS table_path
FROM mydataset.INFORMATION_SCHEMA.TABLES)
DO
EXECUTE IMMEDIATE
"ALTER TABLE " || record.table_path || " SET OPTIONS(enable_fine_grained_mutations = TRUE)";
END FOR;Nachdem die Option enable_fine_grained_mutations auf TRUE gesetzt wurde, werden sich ändernde DML-Anweisungen mit aktivierten detaillierten DML-Funktionen ausgeführt und verwenden die vorhandene DML-Anweisungssyntax.
Wenn Sie feststellen möchten, ob für eine Tabelle detaillierte DML aktiviert wurde, fragen Sie die Ansicht INFORMATION_SCHEMA.TABLES ab.
Im folgenden Beispiel wird geprüft, für welche Tabellen in einem Dataset dieses Feature aktiviert wurde:
SELECT table_schema AS datasetId, table_name AS tableId, is_fine_grained_mutations_enabled FROM DATASET_NAME.INFORMATION_SCHEMA.TABLES;
Ersetzen Sie DATASET_NAME durch den Namen des Datasets, in dem geprüft werden soll, ob für Tabellen die detaillierte DML aktiviert ist.
Detaillierte Gerätebaum-DML deaktivieren
Wenn Sie die detaillierte DML für eine vorhandene Tabelle deaktivieren möchten, verwenden Sie die ALTER TABLE-Anweisung.
ALTER TABLE mydataset.mytable SET OPTIONS(enable_fine_grained_mutations = FALSE);
Wenn Sie die detaillierte DML deaktivieren, kann es einige Zeit dauern, bis alle gelöschten Daten vollständig verarbeitet wurden. Weitere Informationen finden Sie unter Hinweise zu gelöschten Daten. Daher können feingranulare DML-Einschränkungen bestehen bleiben, bis dies erfolgt ist.
Preise
Durch das Aktivieren von detaillierten DML-Vorgängen für eine Tabelle können zusätzliche Kosten anfallen. Dazu gehören:
- BigQuery-Speicherkosten für das Speichern der zusätzlichen Mutationsmetadaten, die mit detaillierten DML-Vorgängen verknüpft sind. Die tatsächlichen Speicherkosten hängen von der Menge der geänderten Daten ab. In den meisten Fällen sind sie jedoch im Vergleich zur Größe der Tabelle selbst vernachlässigbar.
- BigQuery-Computekosten für die Verarbeitung gelöschter Daten mit ausgelagerten Jobs zur automatischen Speicherbereinigung und die Verarbeitung zusätzlicher Löschmetadaten durch nachfolgende
SELECT-Abfragen, die noch nicht automatisch bereinigt wurden.
Mit BigQuery-Reservierungen können Sie dedizierte BigQuery-Rechenressourcen für die Verarbeitung ausgelagerter Jobs für gelöschte Daten zuweisen. Mit Reservierungen können Sie die Kosten für die Ausführung dieser Vorgänge begrenzen. Dieser Ansatz ist besonders nützlich und wird oft für sehr große Tabellen mit häufigen, detaillierten DML-Vorgängen (Data Manipulation Language, Datenbearbeitungssprache) empfohlen, die andernfalls hohe On-Demand-Kosten verursachen würden, da bei jedem ausgelagerten Job zur Verarbeitung gelöschter Daten eine große Anzahl von Byte verarbeitet wird.
Feingranulare DML-Jobs zum Verarbeiten gelöschter Daten, die ausgelagert werden, gelten als Hintergrundjobs und erfordern die Verwendung des Reservierungszuweisungstyps BACKGROUND anstelle des Reservierungszuweisungstyps QUERY.
Bei Projekten, in denen detaillierte DML-Vorgänge ohne BACKGROUND-Zuweisung ausgeführt werden, wird die On-Demand-Abrechnung verwendet, um die ausgelagerten gelöschten Datenjobs zu verarbeiten.
| Vorgang | On-Demand-Preise | Kapazitätsbasierte Preise |
|---|---|---|
| Mutierende DML-Anweisungen | Verwenden Sie die Standardmethode zur DML-Größenbestimmung, um die Berechnung der gescannten On-Demand-Bytes zu bestimmen.
Durch die Aktivierung von DML auf feiner Ebene wird die Anzahl der gescannten Byte der DML-Anweisung selbst nicht reduziert. |
Slots, die mit dem Typ QUERY zugewiesen sind, werden zur Laufzeit der Anweisung verbraucht. |
| Ausgelagerte gelöschte Datenverarbeitungsjobs | Verwenden Sie die Standard-DML-Größenberechnung, um die On-Demand-Berechnungen für gescannte Byte zu ermitteln, wenn Jobs zur Verarbeitung gelöschter Daten ausgeführt werden. | Slots, die mit dem Typ BACKGROUND zugewiesen sind, werden verbraucht, wenn gelöschte Datenverarbeitungsjobs ausgeführt werden. |
Überlegungen zu gelöschten Daten
Bei Projekten, in denen detaillierte DML-Vorgänge mit einem BACKGROUND-Zuweisungsprozess ausgeführt werden, werden Daten mithilfe von Slots gelöscht. Sie unterliegen der Ressourcenverfügbarkeit der konfigurierten Reservierung. Wenn in der konfigurierten Reservierung nicht genügend Ressourcen verfügbar sind, kann die Verarbeitung gelöschter Daten länger als erwartet dauern.
In Projekten, in denen detaillierte DML-Vorgänge mit On-Demand-Preisen oder ohne BACKGROUND-Zuweisung ausgeführt werden, werden gelöschte Daten mit den On-Demand-Preisen verarbeitet. Außerdem werden gelöschte Daten regelmäßig mit internen BigQuery-Ressourcen verarbeitet.
Wenn Sie ausgelagerte, detaillierte DML-Löschdatenverarbeitungsjobs identifizieren möchten, fragen Sie die Ansicht INFORMATION_SCHEMA.JOBS ab:
SELECT * FROM region-us.INFORMATION_SCHEMA.JOBS WHERE job_id LIKE "%fine_grained_mutation_garbage_collection%"
Beschränkungen
Für Tabellen, für die die detaillierte DML aktiviert ist, gelten die folgenden Einschränkungen:
- Sie können die Methode
tabledata.listnicht verwenden, um Inhalte aus einer Tabelle mit aktivierter detaillierter DML zu lesen. Fragen Sie die Tabelle stattdessen mit einerSELECT-Anweisung ab, um Tabelleneinträge zu lesen. - Eine Tabelle, für die die detaillierte DML aktiviert ist, kann nicht über die BigQuery-Konsole in der Vorschau angezeigt werden.
- Sie können eine Tabelle mit aktivierter DML auf Zeilenebene nicht kopieren, nachdem Sie eine
UPDATE-,DELETE- oderMERGE-Anweisung ausgeführt haben. - Sie können keinen Tabellen-Snapshot oder Tabellenklon einer Tabelle erstellen, für die die detaillierte DML nach Ausführung einer
UPDATE-,DELETE- oderMERGE-Anweisung aktiviert ist. - Sie können die detaillierte DML nicht für eine Tabelle in einem replizierten Dataset aktivieren und Sie können kein Dataset replizieren, das eine Tabelle mit aktivierter detaillierter DML enthält.
- DML-Anweisungen, die in einer Transaktion mit mehreren Anweisungen ausgeführt werden, werden nicht mit detaillierten DML-Anweisungen optimiert.
- Sie können die detaillierte DML nicht für temporäre Tabellen aktivieren, die mit der
CREATE TEMP TABLE-Anweisung erstellt wurden.
Best Practices
Für eine optimale Leistung empfiehlt Google folgende Muster:
Vermeiden Sie es, zu viele einzelne Zeilenaktualisierungen oder -einfügungen zu senden. Gruppieren Sie stattdessen DML-Vorgänge wo möglich. Weitere Informationen finden Sie unter DML-Anweisungen, die einzelne Zeilen aktualisieren oder einfügen.
Wenn Aktualisierungen oder Löschvorgänge im Allgemeinen für ältere Daten oder innerhalb eines bestimmten Zeitraums durchgeführt werden, empfiehlt sich eine Partitionierung Ihrer Tabellen. Durch die Partitionierung wird dafür gesorgt, dass die Änderungen auf bestimmte Partitionen innerhalb der Tabelle beschränkt sind.
Partitionieren Sie Tabellen nicht, wenn die Datenmenge in jeder Partition klein ist und jede Aktualisierung einen großen Teil der Partitionen ändert.
Wenn Sie häufig Zeilen aktualisieren, in denen eine oder mehrere Spalten in einen engen Wertebereich fallen, können Sie geclusterte Tabellen verwenden. Clustering sorgt dafür, dass Änderungen auf bestimmte Gruppen von Blöcken beschränkt sind, und reduziert die zu lesende und schreibende Datenmenge. Das folgende Beispiel zeigt eine
UPDATE-Anweisung, die nach einem Bereich von Spaltenwerten filtert:UPDATE mydataset.mytable SET string_col = 'some string' WHERE id BETWEEN 54 AND 75;
Hier ist ein ähnliches Beispiel, das nach einer kleinen Liste von Spaltenwerten filtert:
UPDATE mydataset.mytable SET string_col = 'some string' WHERE id IN (54, 57, 60);
In diesen Fällen sollten Sie das Clustering auf der Spalte
idvornehmen.Wenn Sie OLTP-Funktionen benötigen, können Sie föderierte Cloud SQL-Abfragen verwenden, mit denen BigQuery Daten abfragen kann, die in Cloud SQL gespeichert sind.
Too many DML statements outstanding against table,-Kontingentfehler beheben und verhindern: Anleitung für diesen Fehler auf der Seite zur Fehlerbehebung für BigQuery.
Best Practices zur Optimierung der Abfrageleistung finden Sie unter Einführung in die Optimierung der Abfrageleistung.
Nächste Schritte
- Informationen zur DML-Syntax und Beispiele finden Sie unter DML-Syntax.
- Weitere Informationen
- Informationen zum Verwenden von DML-Anweisungen in geplanten Abfragen finden Sie unter Abfragen planen.