Prova BigQuery DataFrames

Utilizza questa guida rapida per eseguire le seguenti attività di analisi e machine learning (ML) utilizzando l'API BigQuery DataFrames in un notebook BigQuery:

  • Crea un DataFrame sul set di dati pubblico bigquery-public-data.ml_datasets.penguins.
  • Calcola la massa corporea media di un pinguino.
  • Crea un modello di regressione lineare.
  • Crea un DataFrame su un sottoinsieme dei dati sui pinguini da utilizzare come dati di addestramento.
  • Pulisci i dati di addestramento.
  • Imposta i parametri del modello.
  • Adatta il modello.
  • Assegna un punteggio al modello.

Prima di iniziare

  1. Accedi al tuo account Google Cloud . Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti senza costi per l'esecuzione, il test e il deployment dei workload.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  4. Verifica che la fatturazione sia abilitata per il tuo progetto Google Cloud .

  5. Verifica che l'API BigQuery sia abilitata.

    Abilita l'API

    Se hai creato un nuovo progetto, l'API BigQuery viene abilitata automaticamente.

Autorizzazioni obbligatorie

Per creare ed eseguire blocchi note, devi disporre dei seguenti ruoli Identity and Access Management (IAM):

Crea un notebook

Segui le istruzioni riportate in Creare un notebook dall'editor BigQuery per creare un nuovo notebook.

Prova BigQuery DataFrames

Prova BigQuery DataFrames seguendo questi passaggi:

  1. Crea una nuova cella di codice nel notebook.
  2. Aggiungi il seguente codice alla cella di codice:

    import bigframes.pandas as bpd
    
    # Set BigQuery DataFrames options
    # Note: The project option is not required in all environments.
    # On BigQuery Studio, the project ID is automatically detected.
    bpd.options.bigquery.project = your_gcp_project_id
    
    # Use "partial" ordering mode to generate more efficient queries, but the
    # order of the rows in DataFrames may not be deterministic if you have not
    # explictly sorted it. Some operations that depend on the order, such as
    # head() will not function until you explictly order the DataFrame. Set the
    # ordering mode to "strict" (default) for more pandas compatibility.
    bpd.options.bigquery.ordering_mode = "partial"
    
    # Create a DataFrame from a BigQuery table
    query_or_table = "bigquery-public-data.ml_datasets.penguins"
    df = bpd.read_gbq(query_or_table)
    
    # Efficiently preview the results using the .peek() method.
    df.peek()
    
  3. Modifica la riga bpd.options.bigquery.project = your_gcp_project_id per specificare l'ID progetto Google Cloud . Ad esempio bpd.options.bigquery.project = "myProjectID".

  4. Esegui la cella di codice.

    Il codice restituisce un oggetto DataFrame con dati sui pinguini.

  5. Crea una nuova cella di codice nel notebook e aggiungi il seguente codice:

    # Use the DataFrame just as you would a pandas DataFrame, but calculations
    # happen in the BigQuery query engine instead of the local system.
    average_body_mass = df["body_mass_g"].mean()
    print(f"average_body_mass: {average_body_mass}")
    
  6. Esegui la cella di codice.

    Il codice calcola la massa corporea media dei pinguini e la stampa nella consoleGoogle Cloud .

  7. Crea una nuova cella di codice nel notebook e aggiungi il seguente codice:

    # Create the Linear Regression model
    from bigframes.ml.linear_model import LinearRegression
    
    # Filter down to the data we want to analyze
    adelie_data = df[df.species == "Adelie Penguin (Pygoscelis adeliae)"]
    
    # Drop the columns we don't care about
    adelie_data = adelie_data.drop(columns=["species"])
    
    # Drop rows with nulls to get our training data
    training_data = adelie_data.dropna()
    
    # Pick feature columns and label column
    X = training_data[
        [
            "island",
            "culmen_length_mm",
            "culmen_depth_mm",
            "flipper_length_mm",
            "sex",
        ]
    ]
    y = training_data[["body_mass_g"]]
    
    model = LinearRegression(fit_intercept=False)
    model.fit(X, y)
    model.score(X, y)
    
  8. Esegui la cella di codice.

    Il codice restituisce le metriche di valutazione del modello.

Esegui la pulizia

Il modo più semplice per eliminare la fatturazione è eliminare il progetto creato per il tutorial.

Per eliminare il progetto:

  1. Nella console Google Cloud , vai alla pagina Gestisci risorse.

    Vai a Gestisci risorse

  2. Nell'elenco dei progetti, seleziona quello che vuoi eliminare, quindi fai clic su Elimina.
  3. Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.

Passaggi successivi