יצירה של מערכי נתונים חיצוניים ב-Spanner

במאמר הזה מוסבר איך ליצור ב-BigQuery מערך נתונים חיצוני (שנקרא גם מערך נתונים מאוחד) שמקושר למסד נתונים קיים של GoogleSQL או PostgreSQL ב-Spanner.

מערך נתונים חיצוני הוא חיבור בין BigQuery לבין מקור נתונים חיצוני ברמת מערך הנתונים. הוא מאפשר לשלוח שאילתות לנתונים טרנזקציוניים במסדי נתונים של Spanner באמצעות GoogleSQL, בלי להעתיק או לייבא את כל הנתונים מ-Spanner לאחסון ב-BigQuery. תוצאות השאילתה האלה מאוחסנות ב-BigQuery.

הטבלאות במערך נתונים חיצוני מאוכלסות באופן אוטומטי מהטבלאות במקור הנתונים החיצוני התואם. אפשר להריץ שאילתות על הטבלאות האלה ישירות ב-BigQuery, אבל אי אפשר לבצע בהן שינויים, להוסיף להן נתונים או למחוק מהן נתונים. עם זאת, כל עדכון שתבצעו במקור הנתונים החיצוני יתעדכן אוטומטית ב-BigQuery.

כשמריצים שאילתה ב-Spanner, תוצאות השאילתה נשמרות כברירת מחדל בטבלאות זמניות. אפשר גם לשמור אותן כטבלה חדשה ב-BigQuery, לצרף אותן לטבלאות אחרות או למזג אותן עם טבלאות קיימות באמצעות DML.

ההרשאות הנדרשות

כדי לקבל את ההרשאה שדרושה ליצירת מערך נתונים חיצוני, צריך לבקש מהאדמין להקצות לכם את תפקיד ה-IAM‏ BigQuery User (roles/bigquery.user). להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

התפקיד שמוגדר מראש מכיל את ההרשאה bigquery.datasets.create, שנדרשת כדי ליצור מערך נתונים חיצוני.

יכול להיות שתוכלו לקבל את ההרשאה הזו גם בתפקידים בהתאמה אישית או בתפקידים אחרים שמוגדרים מראש.

במאמר מבוא ל-IAM יש מידע נוסף על תפקידים והרשאות ב-IAM ב-BigQuery.

שימוש בחיבור CLOUD_RESOURCE

אפשר גם להשתמש בCLOUD_RESOURCE חיבור כדי שמערכי נתונים חיצוניים של Spanner יוכלו לבצע אינטראקציה עם מסד הנתונים של Spanner. כך תוכלו לתת למשתמש גישה לנתוני Spanner דרך BigQuery, בלי לתת לו גישה ישירה למסד הנתונים של Spanner. מכיוון שחשבון השירות מחיבור CLOUD_RESOURCE מטפל באחזור נתונים מ-Spanner, צריך רק להעניק למשתמשים גישה למערך הנתונים החיצוני של Spanner.

לפני שיוצרים מערכי נתונים חיצוניים של Spanner עם חיבור CLOUD_RESOURCE, צריך לבצע את הפעולות הבאות:

יצירת חיבור

אתם יכולים ליצור CLOUD_RESOURCE חיבור חדש או להשתמש בחיבור קיים כדי להתחבר ל-Spanner. חשוב לוודא שאתם יוצרים את החיבור באותו מיקום שבו אתם מתכננים ליצור את מערך הנתונים החיצוני של Spanner.

בוחרים באחת מהאפשרויות הבאות:

המסוף

  1. עוברים לדף BigQuery.

    כניסה ל-BigQuery

  2. בחלונית השמאלית, לוחצים על Explorer:

    כפתור מודגש לחלונית הסייר.

    אם החלונית הימנית לא מוצגת, לוחצים על הרחבת החלונית הימנית כדי לפתוח אותה.

  3. בחלונית Explorer מרחיבים את שם הפרויקט ואז לוחצים על Connections.

  4. בדף Connections (חיבורים), לוחצים על Create connection (יצירת חיבור).

  5. בשדה Connection type (סוג החיבור), בוחרים באפשרות Vertex AI remote models, remote functions, BigLake and Spanner (Cloud Resource) (מודלים מרוחקים של Vertex AI, פונקציות מרוחקות, BigLake ו-Spanner (משאב בענן)).

  6. בשדה מזהה החיבור, מזינים שם לחיבור.

  7. בקטע Location type, בוחרים מיקום לחיבור. החיבור צריך להיות ממוקם יחד עם המשאבים האחרים שלכם, כמו מערכי נתונים.

  8. לוחצים על יצירת קישור.

  9. לוחצים על מעבר לחיבור.

  10. בחלונית Connection info (פרטי התחברות), מעתיקים את מזהה חשבון השירות כדי להשתמש בו בשלב מאוחר יותר.

BQ

  1. בסביבת שורת פקודה, יוצרים חיבור:

    bq mk --connection --location=REGION --project_id=PROJECT_ID \
        --connection_type=CLOUD_RESOURCE CONNECTION_ID

    הפרמטר --project_id מבטל את פרויקט ברירת המחדל.

    מחליפים את מה שכתוב בשדות הבאים:

    • REGION: אזור החיבור
    • PROJECT_ID: מזהה הפרויקט ב- Google Cloud
    • CONNECTION_ID: מזהה לחיבור

    כשיוצרים משאב חיבור, מערכת BigQuery יוצרת חשבון שירות ייחודי ומקשרת אותו לחיבור.

    פתרון בעיות: אם מופיעה שגיאת החיבור הבאה, צריך לעדכן את Google Cloud SDK:

    Flags parsing error: flag --connection_type=CLOUD_RESOURCE: value should be one of...
    
  2. מאחזרים ומעתיקים את מזהה חשבון השירות כדי להשתמש בו בשלב מאוחר יותר:

    bq show --connection PROJECT_ID.REGION.CONNECTION_ID

    הפלט אמור להיראות כך:

    name                          properties
    1234.REGION.CONNECTION_ID     {"serviceAccountId": "connection-1234-9u56h9@gcp-sa-bigquery-condel.iam.gserviceaccount.com"}
    

Python

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Pythonהוראות ההגדרה שבמדריך למתחילים של BigQuery באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של BigQuery Python API.

כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לספריות לקוח.

import google.api_core.exceptions
from google.cloud import bigquery_connection_v1

client = bigquery_connection_v1.ConnectionServiceClient()


def create_connection(
    project_id: str,
    location: str,
    connection_id: str,
):
    """Creates a BigQuery connection to a Cloud Resource.

    Cloud Resource connection creates a service account which can then be
    granted access to other Google Cloud resources for federated queries.

    Args:
        project_id: The Google Cloud project ID.
        location: The location of the connection (for example, "us-central1").
        connection_id: The ID of the connection to create.
    """

    parent = client.common_location_path(project_id, location)

    connection = bigquery_connection_v1.Connection(
        friendly_name="Example Connection",
        description="A sample connection for a Cloud Resource.",
        cloud_resource=bigquery_connection_v1.CloudResourceProperties(),
    )

    try:
        created_connection = client.create_connection(
            parent=parent, connection_id=connection_id, connection=connection
        )
        print(f"Successfully created connection: {created_connection.name}")
        print(f"Friendly name: {created_connection.friendly_name}")
        print(
            f"Service Account: {created_connection.cloud_resource.service_account_id}"
        )

    except google.api_core.exceptions.AlreadyExists:
        print(f"Connection with ID '{connection_id}' already exists.")
        print("Please use a different connection ID.")
    except Exception as e:
        print(f"An unexpected error occurred while creating the connection: {e}")

Node.js

לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Node.jsהוראות ההגדרה שבמדריך למתחילים של BigQuery באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של BigQuery Node.js API.

כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לספריות לקוח.

const {ConnectionServiceClient} =
  require('@google-cloud/bigquery-connection').v1;
const {status} = require('@grpc/grpc-js');

const client = new ConnectionServiceClient();

/**
 * Creates a new BigQuery connection to a Cloud Resource.
 *
 * A Cloud Resource connection creates a service account that can be granted access
 * to other Google Cloud resources.
 *
 * @param {string} projectId The Google Cloud project ID. for example, 'example-project-id'
 * @param {string} location The location of the project to create the connection in. for example, 'us-central1'
 * @param {string} connectionId The ID of the connection to create. for example, 'example-connection-id'
 */
async function createConnection(projectId, location, connectionId) {
  const parent = client.locationPath(projectId, location);

  const connection = {
    friendlyName: 'Example Connection',
    description: 'A sample connection for a Cloud Resource',
    // The service account for this cloudResource will be created by the API.
    // Its ID will be available in the response.
    cloudResource: {},
  };

  const request = {
    parent,
    connectionId,
    connection,
  };

  try {
    const [response] = await client.createConnection(request);

    console.log(`Successfully created connection: ${response.name}`);
    console.log(`Friendly name: ${response.friendlyName}`);

    console.log(`Service Account: ${response.cloudResource.serviceAccountId}`);
  } catch (err) {
    if (err.code === status.ALREADY_EXISTS) {
      console.log(`Connection '${connectionId}' already exists.`);
    } else {
      console.error(`Error creating connection: ${err.message}`);
    }
  }
}

Terraform

משתמשים במשאב google_bigquery_connection.

כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לספריות לקוח.

בדוגמה הבאה נוצר חיבור למשאב Cloud בשם my_cloud_resource_connection באזור US:


# This queries the provider for project information.
data "google_project" "default" {}

# This creates a cloud resource connection in the US region named my_cloud_resource_connection.
# Note: The cloud resource nested object has only one output field - serviceAccountId.
resource "google_bigquery_connection" "default" {
  connection_id = "my_cloud_resource_connection"
  project       = data.google_project.default.project_id
  location      = "US"
  cloud_resource {}
}

כדי להחיל את ההגדרות של Terraform בפרויקט ב- Google Cloud , מבצעים את השלבים בקטעים הבאים.

הכנת Cloud Shell

  1. מפעילים את Cloud Shell.
  2. מגדירים את פרויקט ברירת המחדל שבו רוצים להחיל את ההגדרות של Terraform. Google Cloud

    תצטרכו להריץ את הפקודה הזו רק פעם אחת לכל פרויקט, ותוכלו לעשות זאת בכל ספרייה.

    export GOOGLE_CLOUD_PROJECT=PROJECT_ID

    אם תגדירו ערכים ספציפיים בקובץ התצורה של Terraform, הם יבטלו את ערכי ברירת המחדל של משתני הסביבה.

הכנת הספרייה

לכל קובץ תצורה של Terraform צריכה להיות ספרייה משלו (שנקראת גם מודול ברמה הבסיסית).

  1. יוצרים ספרייה חדשה ב-Cloud Shell ובה יוצרים קובץ חדש. שם הקובץ חייב לכלול את הסיומת .tf, למשל main.tf. במדריך הזה, הקובץ נקרא main.tf.
    mkdir DIRECTORY && cd DIRECTORY && touch main.tf
  2. אם אתם עוקבים אחרי המדריך, תוכלו להעתיק את הקוד לדוגמה בכל קטע או שלב.

    מעתיקים את הקוד לדוגמה בקובץ main.tf החדש שיצרתם.

    לחלופין, אפשר גם להעתיק את הקוד מ-GitHub. כדאי לעשות את זה כשקטע הקוד של Terraform הוא חלק מפתרון מקצה לקצה.

  3. בודקים את הפרמטרים לדוגמה ומשנים אותם בהתאם לסביבה שלכם.
  4. שומרים את השינויים.
  5. מפעילים את Terraform. צריך לעשות זאת רק פעם אחת לכל ספרייה.
    terraform init

    אופציונלי: תוכלו לכלול את האפשרות -upgrade, כדי להשתמש בגרסה העדכנית ביותר של הספק של Google:

    terraform init -upgrade

החלה של השינויים

  1. בודקים את ההגדרות ומוודאים שהמשאבים שמערכת Terraform תיצור או תעדכן תואמים לציפיות שלכם:
    terraform plan

    מתקנים את ההגדרות לפי הצורך.

  2. מריצים את הפקודה הבאה ומזינים yes בהודעה שמופיעה, כדי להחיל את הגדרות Terraform:
    terraform apply

    ממתינים עד שב-Terraform תוצג ההודעה "Apply complete!‎".

  3. פותחים את Google Cloud הפרויקט כדי לראות את התוצאות. במסוף Google Cloud , נכנסים למשאבים בממשק המשתמש כדי לוודא שהם נוצרו או עודכנו ב-Terraform.

אחרי שיוצרים את החיבור, פותחים אותו ובחלונית Connection info (פרטי החיבור), מעתיקים את מזהה חשבון השירות. תצטרכו את המזהה הזה כשמגדירים הרשאות לחיבור. כשיוצרים משאב חיבור, BigQuery יוצר חשבון שירות ייחודי למערכת ומשייך אותו לחיבור.

אישור הגישה

צריך לתת לחשבון השירות שמשויך לחיבור החדש גישת קריאה למופע או למסד הנתונים של Spanner. מומלץ להשתמש בתפקיד ה-IAM המוגדר מראש Cloud Spanner Database Reader עם DataBoost ‏ (roles/spanner.databaseReaderWithDataBoost).

כדי להעניק גישה לתפקידים ברמת מסד הנתונים לחשבון השירות שהעתקתם קודם מהחיבור:

  1. עוברים לדף Instances (מופעים) ב-Spanner.

    כניסה לדף Instances

  2. לוחצים על שם המופע שמכיל את מסד הנתונים כדי לעבור לדף פרטי המופע.

  3. בכרטיסייה סקירה כללית, מסמנים את תיבת הסימון של מסד הנתונים.
    חלונית המידע מופיעה.

  4. לוחצים על Add principal.

  5. בחלונית Add principals, בשדה New principals, מזינים את המזהה של חשבון השירות שהעתקתם קודם.

  6. בשדה Select a role, בוחרים באפשרות Cloud Spanner Database Reader with DataBoost role.

  7. לוחצים על Save.

יצירה של קבוצת נתונים חיצונית

כדי ליצור מערך נתונים חיצוני:

המסוף

  1. פותחים את הדף BigQuery במסוף Google Cloud .

    לדף BigQuery

  2. בחלונית הימנית, לוחצים על כלי הניתוחים:

    כפתור מודגש לחלונית הסייר.

    אם החלונית הימנית לא מוצגת, לוחצים על הרחבת החלונית הימנית כדי לפתוח אותה.

  3. בחלונית Explorer, בוחרים את הפרויקט שבו רוצים ליצור את מערך הנתונים.

  4. לוחצים על View actions (הצגת פעולות) ואז על Create dataset (יצירת מערך נתונים).

  5. בדף Create dataset, מבצעים את הפעולות הבאות:

    • בשדה Dataset ID, מזינים שם ייחודי למערך הנתונים.
    • בקטע Location type, בוחרים מיקום לקבוצת הנתונים, למשל us-central1 או אזור מרובה us. אחרי שיוצרים מערך נתונים, אי אפשר לשנות את המיקום.
    • בקטע External Dataset (מערך נתונים חיצוני), מבצעים את הפעולות הבאות:

      • מסמנים את התיבה לצד קישור למערך נתונים חיצוני.
      • בקטע External dataset type (סוג מערך נתונים חיצוני), בוחרים באפשרות Spanner.
      • בקטע מקור חיצוני, מזינים את המזהה המלא של מסד הנתונים של Spanner בפורמט הבא: projects/PROJECT_ID/instances/INSTANCE/databases/DATABASE. לדוגמה: projects/my_project/instances/my_instance/databases/my_database.
      • אופציונלי: בשדה Database role (תפקיד במסד הנתונים) מזינים את השם של תפקיד במסד נתונים של Spanner. מידע נוסף על תפקידים במסד נתונים שמשמשים ליצירת חיבורים ל-Spanner
      • אופציונלי: מסמנים את התיבה לצד שימוש בחיבור למשאב בענן כדי ליצור את מערך הנתונים החיצוני עם חיבור.
    • משאירים את שאר הגדרות ברירת המחדל כמו שהן.

  6. לוחצים על יצירת מערך נתונים.

SQL

משתמשים בהצהרת שפת הגדרת נתונים (DDL) של CREATE EXTERNAL SCHEMA.

  1. במסוף Google Cloud , עוברים לדף BigQuery.

    כניסה ל-BigQuery

  2. מזינים את ההצהרה הבאה בעורך השאילתות:

    CREATE EXTERNAL SCHEMA DATASET_NAME
      OPTIONS (
        external_source = 'SPANNER_EXTERNAL_SOURCE',
        location = 'LOCATION');
    /*
      Alternatively, create with a connection:
    */
    CREATE EXTERNAL SCHEMA DATASET_NAME
      WITH CONNECTION PROJECT_ID.LOCATION.CONNECTION_NAME
      OPTIONS (
        external_source = 'SPANNER_EXTERNAL_SOURCE',
        location = 'LOCATION');

    מחליפים את מה שכתוב בשדות הבאים:

    • DATASET_NAME: השם של מערך הנתונים החדש ב-BigQuery.
    • SPANNER_EXTERNAL_SOURCE: שם מסד הנתונים המלא והמוסמך של Spanner, עם קידומת שמזהה את המקור, בפורמט הבא: google-cloudspanner://[DATABASE_ROLE@]/projects/PROJECT_ID/instances/INSTANCE/databases/DATABASE. לדוגמה: google-cloudspanner://admin@/projects/my_project/instances/my_instance/databases/my_database או google-cloudspanner:/projects/my_project/instances/my_instance/databases/my_database.
    • LOCATION: המיקום של מערך הנתונים החדש ב-BigQuery, למשל us-central1. אחרי שיוצרים מערך נתונים, אי אפשר לשנות את המיקום שלו.
    • (אופציונלי)CONNECTION_NAME: השם של הקישור למשאב Cloud.

  3. לוחצים על הפעלה.

מידע נוסף על הרצת שאילתות זמין במאמר הרצת שאילתה אינטראקטיבית.

BQ

בסביבת שורת פקודה, יוצרים מערך נתונים חיצוני באמצעות הפקודה bq mk:

bq --location=LOCATION mk --dataset \
    --external_source SPANNER_EXTERNAL_SOURCE \
    DATASET_NAME

אפשר גם ליצור חיבור:

bq --location=LOCATION mk --dataset \
    --external_source SPANNER_EXTERNAL_SOURCE \
    --connection_id PROJECT_ID.LOCATION.CONNECTION_NAME \
    DATASET_NAME

מחליפים את מה שכתוב בשדות הבאים:

  • LOCATION: המיקום של מערך הנתונים החדש ב-BigQuery – למשל, us-central1. אחרי שיוצרים מערך נתונים, אי אפשר לשנות את המיקום שלו. אפשר להגדיר ערך מיקום שיוגדר כברירת מחדל באמצעות הקובץ .bigqueryrc.
  • SPANNER_EXTERNAL_SOURCE: שם מסד הנתונים המלא והמוסמך של Spanner, עם קידומת שמזהה את המקור, בפורמט הבא: google-cloudspanner://[DATABASE_ROLE@]/projects/PROJECT_ID/instances/INSTANCE/databases/DATABASE. לדוגמה: google-cloudspanner://admin@/projects/my_project/instances/my_instance/databases/my_database או google-cloudspanner:/projects/my_project/instances/my_instance/databases/my_database.
  • DATASET_NAME: השם של מערך הנתונים החדש ב-BigQuery. כדי ליצור מערך נתונים בפרויקט שאינו פרויקט ברירת המחדל, מוסיפים את מזהה הפרויקט לשם מערך הנתונים בפורמט הבא: PROJECT_ID:DATASET_NAME.
  • (אופציונלי)CONNECTION_NAME: השם של הקישור למשאב Cloud.

Terraform

משתמשים במשאב google_bigquery_dataset.

כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לספריות לקוח.

בדוגמה הבאה נוצר מערך נתונים חיצוני של Spanner:

resource "google_bigquery_dataset" "default" {
  dataset_id    = "my_external_dataset"
  friendly_name = "My external dataset"
  description   = "This is a test description."
  location      = "US"
  external_dataset_reference {
    # The full identifier of your Spanner database.
    external_source = "google-cloudspanner:/projects/my_project/instances/my_instance/databases/my_database"
    # Must be empty for a Spanner external dataset.
    connection = ""
  }
}

כדי להחיל את ההגדרות של Terraform בפרויקט ב- Google Cloud , מבצעים את השלבים בקטעים הבאים.

הכנת Cloud Shell

  1. מפעילים את Cloud Shell.
  2. מגדירים את פרויקט ברירת המחדל שבו רוצים להחיל את ההגדרות של Terraform. Google Cloud

    תצטרכו להריץ את הפקודה הזו רק פעם אחת לכל פרויקט, ותוכלו לעשות זאת בכל ספרייה.

    export GOOGLE_CLOUD_PROJECT=PROJECT_ID

    אם תגדירו ערכים ספציפיים בקובץ התצורה של Terraform, הם יבטלו את ערכי ברירת המחדל של משתני הסביבה.

הכנת הספרייה

לכל קובץ תצורה של Terraform צריכה להיות ספרייה משלו (שנקראת גם מודול ברמה הבסיסית).

  1. יוצרים ספרייה חדשה ב-Cloud Shell ובה יוצרים קובץ חדש. שם הקובץ חייב לכלול את הסיומת .tf, למשל main.tf. במדריך הזה, הקובץ נקרא main.tf.
    mkdir DIRECTORY && cd DIRECTORY && touch main.tf
  2. אם אתם עוקבים אחרי המדריך, תוכלו להעתיק את הקוד לדוגמה בכל קטע או שלב.

    מעתיקים את הקוד לדוגמה בקובץ main.tf החדש שיצרתם.

    לחלופין, אפשר גם להעתיק את הקוד מ-GitHub. כדאי לעשות את זה כשקטע הקוד של Terraform הוא חלק מפתרון מקצה לקצה.

  3. בודקים את הפרמטרים לדוגמה ומשנים אותם בהתאם לסביבה שלכם.
  4. שומרים את השינויים.
  5. מפעילים את Terraform. צריך לעשות זאת רק פעם אחת לכל ספרייה.
    terraform init

    אופציונלי: תוכלו לכלול את האפשרות -upgrade, כדי להשתמש בגרסה העדכנית ביותר של הספק של Google:

    terraform init -upgrade

החלה של השינויים

  1. בודקים את ההגדרות ומוודאים שהמשאבים שמערכת Terraform תיצור או תעדכן תואמים לציפיות שלכם:
    terraform plan

    מתקנים את ההגדרות לפי הצורך.

  2. מריצים את הפקודה הבאה ומזינים yes בהודעה שמופיעה, כדי להחיל את הגדרות Terraform:
    terraform apply

    ממתינים עד שב-Terraform תוצג ההודעה "Apply complete!‎".

  3. פותחים את Google Cloud הפרויקט כדי לראות את התוצאות. במסוף Google Cloud , נכנסים למשאבים בממשק המשתמש כדי לוודא שהם נוצרו או עודכנו ב-Terraform.

API

קוראים לשיטה datasets.insert עם משאב של מערך נתונים מוגדר ועם השדה externalDatasetReference במסד הנתונים של Spanner.

שימו לב: השמות של הטבלאות במערכי הנתונים החיצוניים לא תלויי-רישיות (case-insensitive).

כשיוצרים מערכי נתונים חיצוניים באמצעות CLOUD_RESOURCE חיבור, צריך שתהיה לכם הרשאת bigquery.connections.delegate (שזמינה בתפקיד אדמין של חיבור BigQuery) לחיבור שבו נעשה שימוש במערכי הנתונים החיצוניים.

שליטה בגישה לטבלאות

מערכי נתונים חיצוניים ב-Spanner תומכים בפרטי כניסה של משתמשי קצה (EUC). כלומר, הגישה לטבלאות Spanner ממערכי נתונים חיצוניים נשלטת על ידי Spanner. משתמשים יכולים לשלוח שאילתות לטבלאות האלה רק אם יש להם גישה שניתנה ב-Spanner.

בנוסף, מערכי נתונים חיצוניים ב-Spanner תומכים בהענקת הרשאות גישה. הענקת הרשאות גישה מפרידה בין הגישה לטבלאות Spanner לבין מערכי נתונים חיצוניים והגישה הישירה לטבלאות Spanner הבסיסיות. חיבור למשאב ב-Cloud שמשויך לחשבון שירות משמש לחיבור ל-Spanner. משתמשים יכולים להריץ שאילתות בטבלאות Spanner האלה מתוך מערכי נתונים חיצוניים, גם אם לא הוענקה להם גישה ב-Spanner.

הצגת רשימת הטבלאות במערך נתונים חיצוני

כדי לראות רשימה של הטבלאות שזמינות לשאילתה במערך הנתונים החיצוני, אפשר לעיין במאמר בנושא הצגת רשימה של מערכי נתונים.

קבלת מידע על טבלה

כדי לקבל מידע על הטבלאות במערך הנתונים החיצוני, כמו פרטי הסכימה, אפשר לעיין במאמר בנושא קבלת מידע על טבלה.

שאילתת נתונים ב-Spanner

שליחת שאילתות לטבלאות במערכי נתונים חיצוניים זהה לשליחת שאילתות לטבלאות בכל מערך נתונים אחר ב-BigQuery. עם זאת, אין תמיכה בפעולות שינוי נתונים (DML).

שאילתות שמופעלות על טבלאות במערכי נתונים חיצוניים של Spanner משתמשות בData Boost כברירת מחדל, ואי אפשר לשנות את זה. לכן, כדי להריץ שאילתות כאלה, צריך הרשאות נוספות.

יצירת תצוגה במערך נתונים חיצוני

אי אפשר ליצור תצוגה במערך נתונים חיצוני. עם זאת, אפשר ליצור תצוגה במערך נתונים רגיל שמבוססת על טבלה במערך נתונים חיצוני. מידע נוסף זמין במאמר יצירת תצוגות.

מחיקה של מערך נתונים חיצוני

מחיקה של מערך נתונים חיצוני זהה למחיקה של כל מערך נתונים אחר ב-BigQuery. מחיקה של מערכי נתונים חיצוניים לא משפיעה על טבלאות במסד הנתונים של Spanner. מידע נוסף זמין במאמר מחיקת מערכי נתונים.

יצירה של תצוגה מהותית לא מצטברת על סמך טבלאות ממערך נתונים חיצוני

לפני שממשיכים, צריך ליצור את מערך הנתונים החיצוני הבסיסי של Spanner באמצעות CLOUD_RESOURCE.

אתם יכולים ליצור תצוגות חומריות לא מצטברות שמפנות אל טבלאות של מערכי נתונים חיצוניים ב-Spanner באמצעות האפשרות allow_non_incremental_definition. בדוגמה הבאה נעשה שימוש בטבלת מערך נתונים חיצונית בסיסית של Spanner:

/*
  You must create the spanner_external_dataset with a CLOUD_RESOURCE connection.
*/
CREATE MATERIALIZED VIEW sample_dataset.sample_spanner_mv
  OPTIONS (
      enable_refresh = true, refresh_interval_minutes = 60,
      max_staleness = INTERVAL "24" HOUR,
        allow_non_incremental_definition = true)
AS
  SELECT COUNT(*) cnt FROM spanner_external_dataset.spanner_table;

מגבלות

  • חלות מגבלות על שאילתות מאוחדות ב-BigQuery.
  • אפשר לגשת ב-BigQuery רק לטבלאות מסכימת Spanner שמוגדרת כברירת מחדל. אין תמיכה בטבלאות מסכימות בעלות שם.
  • מפתחות ראשיים ומפתחות זרים שמוגדרים במסד נתונים של Spanner לא מוצגים ב-BigQuery.
  • אם טבלה במסד נתונים של Spanner מכילה עמודה מסוג שלא נתמך על ידי BigQuery, לא תהיה גישה לעמודה הזו בצד של BigQuery.
  • אי אפשר להוסיף, למחוק או לעדכן נתונים או מטא-נתונים בטבלאות במערך נתונים חיצוני של Spanner.
  • אי אפשר ליצור טבלאות, תצוגות או תצוגות חומריות חדשות במערך נתונים חיצוני של Spanner.
  • אין תמיכה בINFORMATION_SCHEMA תצוגות.
  • אין תמיכה בשמירת מטא-נתונים במטמון.
  • הגדרות ברמת מערך הנתונים שקשורות לברירות מחדל של יצירת טבלאות לא משפיעות על מערכי נתונים חיצוניים, כי אי אפשר ליצור טבלאות באופן ידני.
  • אין תמיכה ב-Write API וב-Read API.
  • אין תמיכה באבטחה ברמת השורה, באבטחה ברמת העמודה ובהסתרת נתונים.
  • אין תמיכה בתצוגות חומריות מצטברות שמבוססות על טבלאות ממערכי נתונים חיצוניים של Spanner, אבל יש תמיכה בתצוגות חומריות לא מצטברות בגרסת Preview.
  • אין תמיכה בשילוב עם Dataplex Universal Catalog. לדוגמה, אין תמיכה בפרופילי נתונים ובסריקות של איכות הנתונים.
  • אין תמיכה בתגים ברמת הטבלה.
  • ההשלמה האוטומטית של SQL לא פועלת עם טבלאות חיצוניות של Spanner כשכותבים שאילתות.
  • אי אפשר להשתמש בסריקה באמצעות Sensitive Data Protection במערכי נתונים חיצוניים.
  • אי אפשר לשתף מערכי נתונים חיצוניים באמצעות BigQuery sharing (לשעבר Analytics Hub).
  • אם מערך הנתונים החיצוני של Spanner משתמש בפרטי כניסה של משתמשי קצה (EUC), אפשר ליצור תצוגה מורשית שמפנה למערך הנתונים החיצוני. עם זאת, כשמבצעים שאילתה בתצוגה הזו, פרטי המשתמש שביצע את השאילתה יישלחו אל Spanner.
  • אם מערך הנתונים החיצוני של Spanner משתמש בחיבור למשאב Cloud לצורך הקצאת הרשאות גישה, אפשר ליצור תצוגה מורשית או שגרה מורשית שמפנה למערך הנתונים החיצוני.

המאמרים הבאים