Configurar el acceso a la red de Dataproc Metastore

En esta página se ofrecen instrucciones detalladas sobre cómo configurar el acceso a la red para tus instancias de Dataproc Metastore. Es fundamental configurar correctamente la red para que los clústeres de Dataproc y las cargas de trabajo de Google Cloud Serverless para Apache Spark se comuniquen de forma segura y privada con tu servicio Dataproc Metastore gestionado.

Para obtener una visión general de los conceptos de redes, consulta Información general sobre las redes.

Conceptos clave de redes

Las instancias de Dataproc Metastore suelen residir en una red de productor de servicios gestionada por Google y se comunican con tu red de nube privada virtual (VPC) mediante conectividad privada. Es fundamental que conozcas los siguientes conceptos para configurar correctamente la cuenta:

  • Nube privada virtual compartida: si tus clústeres de Dataproc o tus cargas de trabajo de Serverless para Apache Spark están en un proyecto de servicio que usa una red de VPC compartida de un proyecto del host, comprueba que se hayan realizado las configuraciones de red adecuadas en el proyecto del host. Para obtener más información, consulta la descripción general de la VPC compartida.
  • Acceso privado de Google: las instancias de Dataproc Metastore suelen usar el acceso privado de Google para comunicarse de forma privada con tu red de VPC. De esta forma, las instancias de máquina virtual (VM) de tu VPC pueden conectarse a las APIs y los servicios de Google mediante direcciones IP internas. Para obtener más información, consulta el artículo Acceso privado a Google.
  • Emparejamiento entre redes de VPC: este mecanismo permite la conectividad de IP privada entre dos redes de VPC, lo que permite que los recursos de una red se comuniquen con los recursos de la otra mediante direcciones IP internas. Dataproc Metastore establece una conexión de emparejamiento entre redes de VPC gestionada con tu red de VPC como parte de su configuración. Para obtener más información, consulta Emparejamiento entre redes de VPC.
  • Reglas de cortafuegos: es necesario que haya reglas de cortafuegos adecuadas para permitir el tráfico entre tus cargas de trabajo de Dataproc y la instancia de Dataproc Metastore.
  • Resolución de Cloud DNS: comprueba que la resolución de DNS esté configurada correctamente en tu red de VPC para resolver el URI del endpoint de Dataproc Metastore en su dirección IP privada.

Pasos del proceso de configuración

Para verificar que tu instancia de Dataproc Metastore tiene acceso a la red, sigue estos pasos:

1. Configurar el acceso privado a servicios

Dataproc Metastore usa Private Service Access para establecer una conexión privada entre tu red de VPC y la red del productor de servicios gestionada por Google en la que reside tu instancia de Dataproc Metastore.

  • Verificar la conexión de acceso a servicios privados:
    1. En la Google Cloud consola, ve a Red de nube privada virtual > Red de VPC emparejada.
    2. Verifica que existe una conexión de peering llamada servicenetworking-googleapis-com y que su estado es ACTIVE.
    3. Si falta esta conexión o no está activa, sigue las instrucciones de Configurar el acceso privado a los servicios. Esto incluye la asignación de un intervalo de direcciones IP a la red del productor de servicios.

2. Configurar reglas de cortafuegos

Verifica que las reglas de cortafuegos de tu red de VPC (o del proyecto host de la VPC compartida, si procede) permitan el tráfico necesario.

  • Regla de salida de la carga de trabajo a Metastore:
    • Verifica que una regla de cortafuegos de salida permita el tráfico TCP saliente de tu clúster de Dataproc o de las cargas de trabajo de Serverless para Apache Spark al intervalo de direcciones IP de tu instancia de Dataproc Metastore en el puerto 9083. Este es el puerto predeterminado de Hive Metastore.
    • Si usas el acceso privado a servicios, este tráfico se enrutará de forma privada.
  • Reglas de entrada (menos habituales para las comunicaciones entre el cliente y Metastore):
    • Por lo general, no es necesario configurar reglas de entrada en tu VPC para el tráfico desde la instancia de Dataproc Metastore hasta tu carga de trabajo, ya que la comunicación suele originarse en la carga de trabajo. Sin embargo, comprueba que no haya reglas de entrada demasiado restrictivas que bloqueen por error las respuestas necesarias.

3. Verificar la resolución de DNS

Tus cargas de trabajo de Dataproc deben resolver el URI del endpoint de Dataproc Metastore en su dirección IP privada.

  • Peering de DNS o zonas privadas: si utilizas servidores DNS personalizados o zonas de Cloud DNS privadas, comprueba que las consultas de DNS del endpoint de Dataproc Metastore (por ejemplo, your-metastore-endpoint.us-central1.dataproc.cloud.google.com) se reenvíen o se resuelvan correctamente en el intervalo de IP privadas que utiliza el acceso a servicios privados.
  • Prueba de resolución de DNS: desde una VM de la misma subred que tu carga de trabajo de Dataproc, usa nslookup o dig para verificar que el endpoint de Dataproc Metastore se resuelve en una dirección IP privada.

Solucionar problemas de conectividad de red

Si tienes problemas de conectividad después de configurar el acceso a la red, sigue estos pasos para solucionarlos:

Siguientes pasos