Configura el acceso a la red para Dataproc Metastore

En esta página, se proporciona orientación detallada para configurar el acceso a la red de tus instancias de Dataproc Metastore. La configuración correcta de la red es fundamental para que los clústeres de Dataproc y las cargas de trabajo de Google Cloud Serverless for Apache Spark se comuniquen de forma segura y privada con tu servicio administrado de Dataproc Metastore.

Para obtener una descripción general más general de los conceptos de redes, consulta Descripción general de las redes.

Conceptos clave de redes

Por lo general, las instancias de Dataproc Metastore residen dentro de una red de productor de servicios administrada por Google y se comunican con tu red de nube privada virtual (VPC) a través de conectividad privada. Comprender los siguientes conceptos es fundamental para una configuración exitosa:

  • Nube privada virtual compartida: Si tus clústeres de Dataproc o tus cargas de trabajo de Serverless para Apache Spark se encuentran en un proyecto de servicio que usa una red de VPC compartida de un proyecto host, verifica que se hayan realizado las configuraciones de red adecuadas en el proyecto host. Para obtener más información, consulta Descripción general de la VPC compartida.
  • Acceso privado a Google: Las instancias de Dataproc Metastore suelen depender del Acceso privado a Google para la comunicación privada con tu red de VPC. Esto permite que las instancias de máquinas virtuales (VM) en tu VPC se conecten a las APIs y los servicios de Google con direcciones IP internas. Para obtener más información, consulta Acceso privado a Google.
  • Intercambio de tráfico entre redes de VPC: Este mecanismo permite la conectividad de IP privada entre dos redes de VPC, lo que permite que los recursos de una red se comuniquen con los recursos de la otra a través de direcciones IP internas. Dataproc Metastore establece una conexión administrada de intercambio de tráfico entre redes de VPC a tu red de VPC como parte de su configuración. Para obtener más información, consulta Intercambio de tráfico entre redes de VPC.
  • Reglas de firewall: Se necesitan reglas de firewall adecuadas para permitir el tráfico entre tus cargas de trabajo de Dataproc y la instancia de Dataproc Metastore.
  • Resolución de Cloud DNS: Verifica que la resolución de DNS esté configurada correctamente en tu red de VPC para resolver el URI del extremo de Dataproc Metastore en su dirección IP privada.

Pasos de configuración

Para verificar el acceso de red adecuado para tu instancia de Dataproc Metastore, sigue estos pasos:

1. Configura el acceso privado a los servicios

Dataproc Metastore usa el acceso privado a servicios para establecer una conexión privada entre tu red de VPC y la red del productor de servicios administrado por Google en la que reside tu instancia de Dataproc Metastore.

  • Verifica la conexión de acceso a servicios privados:
    1. En la consola de Google Cloud , ve a Red de nube privada virtual > Intercambio de tráfico entre redes de VPC.
    2. Verifica que exista una conexión de intercambio de tráfico llamada servicenetworking-googleapis-com y que su estado sea ACTIVE.
    3. Si falta esta conexión o no está activa, sigue las instrucciones en Configura el acceso privado a servicios. Esto incluye la asignación de un rango de direcciones IP para la red del productor de servicios.

2. Configura las reglas de firewall

Verifica que las reglas de firewall en tu red de VPC (o en el proyecto host de la VPC compartida, si corresponde) permitan el tráfico necesario.

  • Regla de salida de la carga de trabajo a Metastore:
    • Verifica que una regla de firewall de salida permita el tráfico de TCP saliente desde tu clúster de Dataproc o las cargas de trabajo de Serverless para Apache Spark al rango de direcciones IP de tu instancia de Dataproc Metastore en el puerto 9083. Este es el puerto predeterminado para Hive Metastore.
    • Si se usa el acceso privado a servicios, este tráfico se enrutará de forma privada.
  • Reglas de entrada (menos comunes para la comunicación del cliente con Metastore):
    • En general, no es necesario que configures reglas de entrada en tu VPC para el tráfico desde la instancia de Dataproc Metastore hacia tu carga de trabajo, ya que la comunicación suele originarse en la carga de trabajo. Sin embargo, verifica que no haya reglas de entrada demasiado restrictivas que bloqueen de forma involuntaria las respuestas necesarias.

3. Verifica la resolución de DNS

Tus cargas de trabajo de Dataproc deben resolver el URI de extremo de Dataproc Metastore en su dirección IP privada.

  • Intercambio de tráfico de DNS o zonas privadas: Si usas servidores DNS personalizados o zonas privadas de Cloud DNS, verifica que las consultas de DNS para el extremo de Dataproc Metastore (por ejemplo, your-metastore-endpoint.us-central1.dataproc.cloud.google.com) se reenvíen o resuelvan correctamente al rango de IP privadas que usa el acceso a servicios privados.
  • Prueba de resolución de DNS: Desde una VM dentro de la misma subred que tu carga de trabajo de Dataproc, usa nslookup o dig para verificar que el extremo de Dataproc Metastore se resuelva en una dirección IP privada.

Solución de problemas de conectividad de red

Si tienes problemas de conectividad después de configurar el acceso a la red, considera los siguientes pasos para solucionarlos:

¿Qué sigue?