Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

שימוש בהחלפה בין דפים ב-BigQuery API

במאמר הזה מוסבר איך לקרוא נתונים בטבלה ותוצאות של שאילתות במערכי נתונים גדולים באמצעות חלוקה לעמודים עם BigQuery API.

באמצעות חלוקה לעמודים,‏ BigQuery מחלק מערך נתונים גדול לחלקים קטנים יותר שנקראים עמודים. ברוב המקרים, ספריות הלקוח של Cloud מטפלות בתהליך הזה באופן אוטומטי, אבל אפשר גם לשלוט בחלוקה לעמודים באופן ידני לתרחישי שימוש ספציפיים, כמו אפליקציות אינטרנט.

שימוש בחלוקה אוטומטית לעמודים

ספריות הלקוח של Cloud מטפלות בפרטים ברמה נמוכה של חלוקה לעמודים ב-API ומספקות חוויה שדומה לאיטרטור. כשמבצעים איטרציה על התוצאות, הספרייה מאחזרת באופן אוטומטי את הדף הבא של הנתונים כשצריך.

בדוגמאות הבאות מוסבר איך לבצע איטרציה אוטומטית על נתונים בטבלה ב-BigQuery.

C#‎

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי C#הוראות ההגדרה שבמדריך למתחילים של BigQuery באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של BigQuery C# API.

כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לספריות לקוח.


using Google.Api.Gax;
using Google.Apis.Bigquery.v2.Data;
using Google.Cloud.BigQuery.V2;
using System;
using System.Linq;

public class BigQueryBrowseTable
{
    public void BrowseTable(
        string projectId = "your-project-id"
    )
    {
        BigQueryClient client = BigQueryClient.Create(projectId);
        TableReference tableReference = new TableReference()
        {
            TableId = "shakespeare",
            DatasetId = "samples",
            ProjectId = "bigquery-public-data"
        };
        // Load all rows from a table
        PagedEnumerable<TableDataList, BigQueryRow> result = client.ListRows(
            tableReference: tableReference,
            schema: null
        );
        // Print the first 10 rows
        foreach (BigQueryRow row in result.Take(10))
        {
            Console.WriteLine($"{row["corpus"]}: {row["word_count"]}");
        }
    }
}

המשך

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Goהוראות ההגדרה שבמדריך למתחילים של BigQuery באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של BigQuery Go API.

כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לספריות לקוח.

import (
	"context"
	"fmt"
	"io"

	"cloud.google.com/go/bigquery"
	"google.golang.org/api/iterator"
)

// browseTable demonstrates reading data from a BigQuery table directly without the use of a query.
// For large tables, we also recommend the BigQuery Storage API.
func browseTable(w io.Writer, projectID, datasetID, tableID string) error {
	// projectID := "my-project-id"
	// datasetID := "mydataset"
	// tableID := "mytable"
	ctx := context.Background()
	client, err := bigquery.NewClient(ctx, projectID)
	if err != nil {
		return fmt.Errorf("bigquery.NewClient: %v", err)
	}
	defer client.Close()

	table := client.Dataset(datasetID).Table(tableID)
	it := table.Read(ctx)
	for {
		var row []bigquery.Value
		err := it.Next(&row)
		if err == iterator.Done {
			break
		}
		if err != nil {
			return err
		}
		fmt.Fprintln(w, row)
	}
	return nil
}

Java

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Javaהוראות ההגדרה שבמדריך למתחילים של BigQuery באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של BigQuery Java API.

כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לספריות לקוח.

import com.google.cloud.bigquery.BigQuery;
import com.google.cloud.bigquery.BigQuery.TableDataListOption;
import com.google.cloud.bigquery.BigQueryException;
import com.google.cloud.bigquery.BigQueryOptions;
import com.google.cloud.bigquery.TableId;
import com.google.cloud.bigquery.TableResult;

// Sample to directly browse a table with optional paging
public class BrowseTable {

  public static void runBrowseTable() {
    // TODO(developer): Replace these variables before running the sample.
    String table = "MY_TABLE_NAME";
    String dataset = "MY_DATASET_NAME";
    browseTable(dataset, table);
  }

  public static void browseTable(String dataset, String table) {
    try {
      // Initialize client that will be used to send requests. This client only needs to be created
      // once, and can be reused for multiple requests.
      BigQuery bigquery = BigQueryOptions.getDefaultInstance().getService();

      // Identify the table itself
      TableId tableId = TableId.of(dataset, table);

      // Page over 100 records. If you don't need pagination, remove the pageSize parameter.
      TableResult result = bigquery.listTableData(tableId, TableDataListOption.pageSize(100));

      // Print the records
      result
          .iterateAll()
          .forEach(
              row -> {
                row.forEach(fieldValue -> System.out.print(fieldValue.toString() + ", "));
                System.out.println();
              });

      System.out.println("Query ran successfully");
    } catch (BigQueryException e) {
      System.out.println("Query failed to run \n" + e.toString());
    }
  }
}

Node.js

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Node.jsהוראות ההגדרה שבמדריך למתחילים של BigQuery באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של BigQuery Node.js API.

כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לספריות לקוח.

// Import the Google Cloud client library using default credentials
const {BigQuery} = require('@google-cloud/bigquery');
const bigquery = new BigQuery();

async function browseTable() {
  // Retrieve a table's rows using manual pagination.

  /**
   * TODO(developer): Uncomment the following lines before running the sample.
   */
  // const datasetId = 'my_dataset'; // Existing dataset
  // const tableId = 'my_table'; // Table to create

  const query = `SELECT name, SUM(number) as total_people
    FROM \`bigquery-public-data.usa_names.usa_1910_2013\`
    GROUP BY name 
    ORDER BY total_people 
    DESC LIMIT 100`;

  // Create table reference.
  const dataset = bigquery.dataset(datasetId);
  const destinationTable = dataset.table(tableId);

  // For all options, see https://cloud.google.com/bigquery/docs/reference/rest/v2/Job#jobconfigurationquery
  const queryOptions = {
    query: query,
    destination: destinationTable,
  };

  // Run the query as a job
  const [job] = await bigquery.createQueryJob(queryOptions);

  // For all options, see https://cloud.google.com/bigquery/docs/reference/v2/jobs/getQueryResults
  const queryResultsOptions = {
    // Retrieve zero resulting rows.
    maxResults: 0,
  };

  // Wait for the job to finish.
  await job.getQueryResults(queryResultsOptions);

  function manualPaginationCallback(err, rows, nextQuery) {
    rows.forEach(row => {
      console.log(`name: ${row.name}, ${row.total_people} total people`);
    });

    if (nextQuery) {
      // More results exist.
      destinationTable.getRows(nextQuery, manualPaginationCallback);
    }
  }

  // For all options, see https://cloud.google.com/bigquery/docs/reference/v2/tabledata/list
  const getRowsOptions = {
    autoPaginate: false,
    maxResults: 20,
  };

  // Retrieve all rows.
  destinationTable.getRows(getRowsOptions, manualPaginationCallback);
}
browseTable();

PHP

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי PHPהוראות ההגדרה שבמדריך למתחילים של BigQuery באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של BigQuery PHP API.

כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לספריות לקוח.

use Google\Cloud\BigQuery\BigQueryClient;

/** Uncomment and populate these variables in your code */
// $projectId = 'The Google project ID';
// $datasetId = 'The BigQuery dataset ID';
// $tableId   = 'The BigQuery table ID';
// $maxResults = 10;

$maxResults = 10;
$startIndex = 0;

$options = [
    'maxResults' => $maxResults,
    'startIndex' => $startIndex
];
$bigQuery = new BigQueryClient([
    'projectId' => $projectId,
]);
$dataset = $bigQuery->dataset($datasetId);
$table = $dataset->table($tableId);
$numRows = 0;
foreach ($table->rows($options) as $row) {
    print('---');
    foreach ($row as $column => $value) {
        printf('%s: %s' . PHP_EOL, $column, $value);
    }
    $numRows++;
}

Python

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Pythonהוראות ההגדרה שבמדריך למתחילים של BigQuery באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של BigQuery Python API.

כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לספריות לקוח.


from google.cloud import bigquery

# Construct a BigQuery client object.
client = bigquery.Client()

# TODO(developer): Set table_id to the ID of the table to browse data rows.
# table_id = "your-project.your_dataset.your_table_name"

# Download all rows from a table.
rows_iter = client.list_rows(table_id)  # Make an API request.

# Iterate over rows to make the API requests to fetch row data.
rows = list(rows_iter)
print("Downloaded {} rows from table {}".format(len(rows), table_id))

# Download at most 10 rows.
rows_iter = client.list_rows(table_id, max_results=10)
rows = list(rows_iter)
print("Downloaded {} rows from table {}".format(len(rows), table_id))

# Specify selected fields to limit the results to certain columns.
table = client.get_table(table_id)  # Make an API request.
fields = table.schema[:2]  # First two columns.
rows_iter = client.list_rows(table_id, selected_fields=fields, max_results=10)
rows = list(rows_iter)
print("Selected {} columns from table {}.".format(len(rows_iter.schema), table_id))
print("Downloaded {} rows from table {}".format(len(rows), table_id))

# Print row data in tabular format.
rows = client.list_rows(table, max_results=10)
format_string = "{!s:<16} " * len(rows.schema)
field_names = [field.name for field in rows.schema]
print(format_string.format(*field_names))  # Prints column headers.
for row in rows:
    print(format_string.format(*row))  # Prints row data.

Ruby

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Rubyהוראות ההגדרה שבמדריך למתחילים של BigQuery באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של BigQuery Ruby API.

כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לספריות לקוח.

require "google/cloud/bigquery"

def browse_table
  bigquery = Google::Cloud::Bigquery.new project_id: "bigquery-public-data"
  dataset  = bigquery.dataset "samples"
  table    = dataset.table "shakespeare"

  # Load all rows from a table
  rows = table.data

  # Load the first 10 rows
  rows = table.data max: 10

  # Print row data
  rows.each { |row| puts row }
end

שליטה בגודל הדף

אתם יכולים לציין את המספר המקסימלי של שורות שיוחזרו בכל בקשה לאחזור מהרשת על ידי הגדרת גודל דף. הגדרת גודל הדף שימושית לאופטימיזציה של השימוש ברשת או להתאמת הנתונים לזיכרון.

ברוב ספריות הלקוח, אפשר להשתמש בפרמטר max_results או page_size כשמפעילים שיטות כמו list_rows או query.

שימוש בהחלפה ידנית של דפים באמצעות טוקנים של דפים

חלוקה לדפים באופן ידני שימושית באפליקציות בלי שמירת מצב, כמו שירות אינטרנט שבו המשתמש לוחץ על הבא כדי לראות את קבוצת התוצאות הבאה. בתרחיש הזה, השרת לא שומר על איטרטור פעיל בין הבקשות.

במקום זאת, משתמשים בטוקן דף באופן הבא:

שולחים בקשה לדף. שולחים קריאה ל-API ומקבלים פרמטר pageToken יחד עם השורות.
הפעלה מחדש. בבקשה הבאה, מעבירים את אותו פרמטר pageToken בחזרה ל-BigQuery כדי לאחזר את הנתח הבא של הנתונים.

בדוגמאות הבאות אפשר לראות איך מאחזרים אסימון דף ומשתמשים בו כדי לאחזר את הדף הבא של תוצאות השאילתה.

API

קוראים את השדה jobs.config.query.destinationTable כדי לזהות את הטבלה שתוצאות השאילתה נכתבו אליה. קוראים את תוצאות השאילתה באמצעות הקריאה אל tabledata.list.

Java

כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לספריות לקוח.

import com.google.cloud.bigquery.BigQuery;
import com.google.cloud.bigquery.BigQueryException;
import com.google.cloud.bigquery.BigQueryOptions;
import com.google.cloud.bigquery.QueryJobConfiguration;
import com.google.cloud.bigquery.TableId;
import com.google.cloud.bigquery.TableResult;

// Sample to run query with pagination.
public class QueryPagination {

  public static void main(String[] args) {
    String datasetName = "MY_DATASET_NAME";
    String tableName = "MY_TABLE_NAME";
    String query =
        "SELECT name, SUM(number) as total_people"
            + " FROM `bigquery-public-data.usa_names.usa_1910_2013`"
            + " GROUP BY name"
            + " ORDER BY total_people DESC"
            + " LIMIT 100";
    queryPagination(datasetName, tableName, query);
  }

  public static void queryPagination(String datasetName, String tableName, String query) {
    try {
      // Initialize client that will be used to send requests. This client only needs to be created
      // once, and can be reused for multiple requests.
      BigQuery bigquery = BigQueryOptions.getDefaultInstance().getService();

      TableId tableId = TableId.of(datasetName, tableName);
      QueryJobConfiguration queryConfig =
          QueryJobConfiguration.newBuilder(query)
              // save results into a table.
              .setDestinationTable(tableId)
              .build();

      bigquery.query(queryConfig);

      TableResult results =
          bigquery.listTableData(tableId, BigQuery.TableDataListOption.pageSize(20));

      // First Page
      results
          .getValues()
          .forEach(row -> row.forEach(val -> System.out.printf("%s,\n", val.toString())));

      while (results.hasNextPage()) {
        // Remaining Pages
        results = results.getNextPage();
        results
            .getValues()
            .forEach(row -> row.forEach(val -> System.out.printf("%s,\n", val.toString())));
      }

      System.out.println("Query pagination performed successfully.");
    } catch (BigQueryException | InterruptedException e) {
      System.out.println("Query not performed \n" + e.toString());
    }
  }
}

כדי להגדיר את מספר השורות שיוחזרו בכל דף, משתמשים בGetQueryResults job ומגדירים את האפשרות pageSize של האובייקט QueryResultsOption שמעבירים, כמו בדוגמה הבאה:

TableResult result = job.getQueryResults();
QueryResultsOption queryResultsOption = QueryResultsOption.pageSize(20);

TableResult result = job.getQueryResults(queryResultsOption);

Node.js

כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לספריות לקוח.

// Import the Google Cloud client library using default credentials
const {BigQuery} = require('@google-cloud/bigquery');
const bigquery = new BigQuery();

async function queryPagination() {
  // Run a query and get rows using automatic pagination.

  const query = `SELECT name, SUM(number) as total_people
  FROM \`bigquery-public-data.usa_names.usa_1910_2013\`
  GROUP BY name
  ORDER BY total_people DESC
  LIMIT 100`;

  // Run the query as a job.
  const [job] = await bigquery.createQueryJob(query);

  // Wait for job to complete and get rows.
  const [rows] = await job.getQueryResults();

  console.log('Query results:');
  rows.forEach(row => {
    console.log(`name: ${row.name}, ${row.total_people} total people`);
  });
}
queryPagination();

Python

השיטה QueryJob.result מחזירה איטרציה של תוצאות השאילתה. לחלופין,

קוראים את הנכס QueryJob.destination. אם הנכס הזה לא מוגדר, ה-API מגדיר אותו כהפניה לטבלה אנונימית זמנית.
אפשר לקבל את סכימת הטבלה באמצעות השיטה Client.get_table.
יוצרים אובייקט שאפשר לחזור עליו (iterable) בכל השורות בטבלת היעד באמצעות השיטה Client.list_rows.

כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לספריות לקוח.


from google.cloud import bigquery

# Construct a BigQuery client object.
client = bigquery.Client()

query = """
    SELECT name, SUM(number) as total_people
    FROM `bigquery-public-data.usa_names.usa_1910_2013`
    GROUP BY name
    ORDER BY total_people DESC
"""
query_job = client.query(query)  # Make an API request.
query_job.result()  # Wait for the query to complete.

# Get the destination table for the query results.
#
# All queries write to a destination table. If a destination table is not
# specified, the BigQuery populates it with a reference to a temporary
# anonymous table after the query completes.
destination = query_job.destination

# Get the schema (and other properties) for the destination table.
#
# A schema is useful for converting from BigQuery types to Python types.
destination = client.get_table(destination)

# Download rows.
#
# The client library automatically handles pagination.
print("The query data:")
rows = client.list_rows(destination, max_results=20)
for row in rows:
    print("name={}, count={}".format(row["name"], row["total_people"]))

אופטימיזציה באמצעות ETags

כשמדפדפים אחורה או קופצים לדפים שרירותיים באמצעות ערכים במטמון pageToken יכול להיות שהנתונים בדפים השתנו מאז הצפייה האחרונה בהם. כדי למנוע את התוצאה הזו, אפשר להשתמש במאפיין etag.

כל שיטה collection.list (חוץ מ-Tabledata) מחזירה מאפיין etag בתוצאה. המאפיין הזה הוא גיבוב של תוצאות הדף, שאפשר להשתמש בו כדי לוודא שהדף לא השתנה מאז הבקשה האחרונה. כששולחים בקשה ל-BigQuery עם ערך ETag,‏ BigQuery משווה את ערך ה-ETag לערך ה-ETag שמוחזר על ידי ה-API ומגיב בהתאם להתאמה בין ערכי ה-ETag. אפשר להשתמש ב-ETag כדי להימנע מקריאות מיותרות לרשימה, באופן הבא:

כדי להחזיר ערכים רק אם הם השתנו, צריך לבצע קריאה של רשימה עם ETag שאוחסן בעבר באמצעות הכותרת If-None-Match של HTTP. אם ה-ETag זהים, BigQuery מחזיר קוד סטטוס HTTP 304 Not Modified וללא נתונים, וכך חוסך רוחב פס.
כדי להחזיר ערכים רק אם הם לא השתנו, משתמשים בכותרת HTTP If-Match. ‫BigQuery מחזיר 412 Precondition Failed אם הדף השתנה.

הערה: למרות ש-ETags הם דרך מצוינת להימנע מקריאות מיותרות לרשימות, אפשר להשתמש באותן שיטות כדי לזהות אם חלו שינויים באובייקטים כלשהם. לדוגמה, אפשר לבצע בקשת GET לטבלה ספציפית ולהשתמש ב-ETags כדי לקבוע אם הטבלה השתנתה לפני החזרת התגובה המלאה.

הפניה: מגבלות וקריטריונים של API

כל השיטות *collection*.list מחזירות תוצאות עם מספור עמודים בנסיבות מסוימות. המאפיין maxResults מגביל את מספר התוצאות בכל דף.

‏Method	קריטריונים לעימוד	מגבלת ברירת מחדל של `maxResults`	הגבלה מקסימלית של `maxResults`	הגבלה מקסימלית של `maxFieldValues`
`tabledata.list`	הפונקציה מחזירה תוצאות עם עימוד אם גודל התגובה הוא יותר מ-‎10 MB¹ של נתונים או יותר מ-`maxResults` שורות.	ללא הגבלה	ללא הגבלה	ללא הגבלה
כל שאר השיטות של `collection.list`	הפונקציה מחזירה תוצאות עם חלוקה לדפים אם התשובה מכילה יותר מ-`maxResults` שורות וגם פחות מהמגבלות המקסימליות.	10,000	ללא הגבלה	300,000

אם התוצאה גדולה מהמגבלה של הבייט או השדה, התוצאה נחתכת כדי להתאים למגבלה. אם שורה אחת גדולה ממגבלת הבייטים או השדות, השיטה tabledata.list יכולה להחזיר עד 100 MB של נתונים¹, בהתאם למגבלת הגודל המקסימלי של שורה בתוצאות של שאילתה. אין גודל מינימלי לכל דף, ויכול להיות שדפים מסוימים יחזירו יותר שורות מאחרים.

שיטת ה-API בארכיטקטורת REST‏ jobs.getQueryResults יכולה להחזיר 20 MB של נתונים, אלא אם מבקשים במפורש יותר נתונים דרך התמיכה.

¹גודל השורה הוא משוער, כי הגודל מבוסס על הייצוג הפנימי של נתוני השורה. מגבלת הגודל המקסימלית של שורה נאכפת בשלבים מסוימים של ביצוע משימת שאילתה.