Testar os BigQuery DataFrames

Use este guia de início rápido para realizar as seguintes tarefas de análise e machine learning (ML) usando a API DataFrames do BigQuery em um notebook do BigQuery:

  • Crie um DataFrame no conjunto de dados público bigquery-public-data.ml_datasets.penguins.
  • Calcule a massa corporal média de um pinguim.
  • Crie um modelo de regressão linear.
  • Crie um DataFrame com um subconjunto de dados dos pinguins para usar como dados de treinamento.
  • Limpe os dados de treinamento.
  • Defina os parâmetros do modelo.
  • Ajuste o modelo.
  • Pontue o modelo.

Antes de começar

  1. Faça login nasua Google Cloud conta. Se você começou a usar o Google Cloud, crie uma conta para avaliar o desempenho dos nossos produtos em situações reais. Clientes novos também recebem US $300 em créditos para executar, testar e implantar cargas de trabalho.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  4. Verifique se o faturamento está ativado para o Google Cloud projeto.

  5. Verifique se a API BigQuery está ativada.

    Ativar a API

    Se você criou um novo projeto, a API BigQuery será ativada automaticamente.

Permissões necessárias

Para criar e executar notebooks, você precisa dos seguintes papéis do Identity and Access Management (IAM):

Criar um notebook

Siga as instruções em Criar um notebook a partir do editor do BigQuery para criar um novo notebook.

Teste os DataFrames do BigQuery

Teste os DataFrames do BigQuery seguindo estas etapas:

  1. Crie uma célula de código no notebook.
  2. Adicione o seguinte código à célula de código:

    import bigframes.pandas as bpd
    
    # Set BigQuery DataFrames options
    # Note: The project option is not required in all environments.
    # On BigQuery Studio, the project ID is automatically detected.
    bpd.options.bigquery.project = your_gcp_project_id
    
    # Use "partial" ordering mode to generate more efficient queries, but the
    # order of the rows in DataFrames may not be deterministic if you have not
    # explictly sorted it. Some operations that depend on the order, such as
    # head() will not function until you explictly order the DataFrame. Set the
    # ordering mode to "strict" (default) for more pandas compatibility.
    bpd.options.bigquery.ordering_mode = "partial"
    
    # Create a DataFrame from a BigQuery table
    query_or_table = "bigquery-public-data.ml_datasets.penguins"
    df = bpd.read_gbq(query_or_table)
    
    # Efficiently preview the results using the .peek() method.
    df.peek()
    
  3. Modifique a linha bpd.options.bigquery.project = your_gcp_project_id para especificar o ID do projeto. Google Cloud Por exemplo, bpd.options.bigquery.project = "myProjectID".

  4. Execute a célula de código.

    O código retorna um objeto DataFrame com dados sobre pinguins.

  5. Crie uma célula de código no notebook e adicione o seguinte código:

    # Use the DataFrame just as you would a pandas DataFrame, but calculations
    # happen in the BigQuery query engine instead of the local system.
    average_body_mass = df["body_mass_g"].mean()
    print(f"average_body_mass: {average_body_mass}")
    
  6. Execute a célula de código.

    O código calcula a massa corporal média dos pinguins e a imprime no Google Cloud console.

  7. Crie uma célula de código no notebook e adicione o seguinte código:

    # Create the Linear Regression model
    from bigframes.ml.linear_model import LinearRegression
    
    # Filter down to the data we want to analyze
    adelie_data = df[df.species == "Adelie Penguin (Pygoscelis adeliae)"]
    
    # Drop the columns we don't care about
    adelie_data = adelie_data.drop(columns=["species"])
    
    # Drop rows with nulls to get our training data
    training_data = adelie_data.dropna()
    
    # Pick feature columns and label column
    X = training_data[
        [
            "island",
            "culmen_length_mm",
            "culmen_depth_mm",
            "flipper_length_mm",
            "sex",
        ]
    ]
    y = training_data[["body_mass_g"]]
    
    model = LinearRegression(fit_intercept=False)
    model.fit(X, y)
    model.score(X, y)
    
  8. Execute a célula de código.

    O código retorna as métricas de avaliação do modelo.

Liberar espaço

O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.

Para excluir o projeto:

  1. No Google Cloud console, acesse a página Gerenciar recursos.

    Acessar "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir.
  3. Na caixa de diálogo, digite o ID do projeto e clique em Desligar para excluir o projeto.

A seguir