En esta página, se proporciona orientación para configurar la conectividad de red de los clústeres de Dataproc cuando se usa Private Service Connect. Se explica la interacción entre Private Service Connect y el intercambio de tráfico de la nube privada virtual para diferentes casos de uso de Dataproc. También se resumen las similitudes y diferencias de las funciones entre el Acceso privado a Google, Private Service Connect y Cloud NAT.
Descripción general
Los clústeres de Dataproc requieren conectividad de red a Google Cloud las APIs y los servicios, como la API de Dataproc, Cloud Storage y Cloud Logging, y a los recursos del usuario, como las fuentes de datos en otras redes de nube privada virtual o entornos locales.
De forma predeterminada, los clústeres de Dataproc creados con las versiones de imagen 2.2 y posteriores
se crean solo con direcciones IP internas. Dataproc habilita automáticamente
el Acceso privado a Google
en la subred regional que usa el clúster solo con IP interna para
habilitar las conexiones a las APIs y los servicios de Google sin conectarse a Internet
pública.
Para proporcionar un control de red más detallado, puedes configurar un clúster para que use Private Service Connect, que enruta el tráfico a las APIs y los servicios de Google compatibles a través de un extremo privado dentro de tu red de VPC. Esto puede ser beneficioso para la seguridad y el cumplimiento.
Opciones comunes de redes privadas
En esta sección, se describen las funciones y las diferencias del Acceso privado a Google, Private Service Connect y Cloud NAT.
El Acceso privado a Google es una ruta unidireccional para que las VMs lleguen a los servicios públicos de Google sin usar Internet. Es similar a una salida especial de la carretera de tu vecindario (subred de VPC) que conduce directamente a el centro comercial de servicios de Google, sin pasar por las rutas públicas. Todos en el vecindario pueden usarla. Dataproc habilita automáticamente el Acceso privado a Google en la subred regional que usan los clústeres de Serverless para Apache Spark creados con la versión de imagen
2.2y posteriores.Private Service Connect crea un extremo privado y bidireccional para un servicio que se encuentra dentro de tu red de VPC. Es similar a una ruta privada dedicada desde tu ubicación (red de VPC) directamente a un servicio. Tiene una dirección en tu ubicación (una dirección IP interna en tu red de VPC) y solo tú puedes usarla.
Cloud NAT permite que las VMs con direcciones IP privadas accedan a Internet.
Funciones y diferencias
| Función | Acceso privado a Google (PGA) | Private Service Connect (PSC) |
|---|---|---|
| Cómo funciona | Dirige el tráfico de una VM a un rango especial de direcciones IP de Google (private.googleapis.com). |
Crea una regla de reenvío (extremo) dentro de tu red de VPC que representa el servicio de Google. |
| Dirección IP | Tu VM se conecta a una dirección IP propiedad de Google. | Tu VM se conecta a una dirección IP interna que posees dentro de tu red de VPC. |
| Dirección | Solo saliente: Tu VM inicia una conexión a Google. | Bidireccional: Tu VM se conecta al servicio, y el servicio puede iniciar el tráfico de retorno. |
| Alcance | Habilitado o inhabilitado para toda una subred. | Se implementa como un recurso de extremo específico. |
| Servicios | Se conecta solo a las APIs de Google, como Cloud Storage, BigQuery o la API de Dataproc. | Se conecta a las APIs de Google, a los servicios de otras empresas y a tus propios servicios. |
Para Dataproc, el Acceso privado a Google es el método tradicional más simple, para permitir que las VMs del clúster se comuniquen con el plano de control de Dataproc. Private Service Connect es un enfoque más reciente y flexible que te brinda un control detallado, en particular en redes complejas o de múltiples usuarios.
¿Por qué usar Private Service Connect? Incluso si tu clúster de Dataproc
tiene direcciones IP solo internas con el Acceso privado a Google
habilitado (la configuración predeterminada para los clústeres de la versión de imagen 2.2+),
Private Service Connect ofrece las siguientes ventajas:
En lugar de usar el conjunto compartido de extremos del Acceso privado a Google para conectarte a las APIs y los servicios de Google, Private Service Connect te permite crear un extremo privado con una dirección IP interna dentro de tu red de VPC que se asigna directamente a un servicio específico de Google.
Puedes crear reglas de firewall que permitan el tráfico solo a la dirección IP del extremo de Private Service Connect. Por ejemplo, puedes configurar una regla que permita el tráfico de salida de las VMs del clúster de Dataproc exclusivamente a la dirección IP interna del extremo de Private Service Connect para BigQuery, mientras que se deniega todo el tráfico de salida. Este es un enfoque más seguro que crear reglas de firewall más amplias con el Acceso privado a Google.
El uso del extremo de Private Service Connect dentro de tu red de VPC hace que la ruta de red sea explícita y más fácil de auditar para la seguridad y el cumplimiento, ya que el tráfico a un servicio como Cloud Storage no comparte una ruta con otro tráfico de API.
Rutas privadas y públicas
El Acceso privado a Google, Private Service Connect,
y Cloud NAT permiten que los hosts con
RFC 1918 direcciones lleguen a
Google Cloud los servicios. También permiten que los Google Cloud recursos con
direcciones RFC 1918 privadas inicien conexiones a los Google Cloud servicios.
Una distinción importante que se debe hacer cuando se evalúan diferentes opciones de conexión es si el tráfico que usa la conexión permanece privado o viaja a través de la Internet pública.
El Acceso privado a Google y Private Service Connect mantienen el tráfico dentro de la red privada de Google. Los datos no viajan a través de Internet pública para llegar a los servicios, lo que es ideal para la seguridad y el rendimiento predecible. Google Cloud
Cloud NAT llega a un Google Cloud servicio conectándose a un extremo público para el servicio. El tráfico sale de tu red de VPC a través de la puerta de enlace de NAT y viaja a través de Internet.
Cómo funciona cada opción
A continuación, se muestra un desglose de cada mecanismo de conexión:
| Método | Ruta al servicio | Extremo de destino | Caso de uso principal |
|---|---|---|---|
| Acceso privado a Google | Red privada de Google | Direcciones IP especiales de Google (private.googleapis.com) |
Acceso simple a nivel de subred para que las VMs lleguen a las APIs de Google de forma privada |
| Private Service Connect | Red privada de Google | Un extremo de dirección IP privada dentro de tu red de VPC | Acceso seguro y detallado a las APIs de Google, a terceros o a tus propios servicios |
| Cloud NAT | Internet pública | Dirección IP pública del servicio | Acceso general a Internet saliente para VMs con direcciones IP privadas |
Configura Private Service Connect
Para usar Private Service Connect con tu clúster de Dataproc, debes configurar los extremos y el DNS de Private Service Connect necesarios en tu red de VPC para todas las APIs de Google de las que depende Dataproc. Para obtener instrucciones sobre cómo configurar tu subred y configurar el DNS, consulta Información sobre el acceso a las APIs de Google a través de extremos.
Habilita el intercambio de tráfico si es necesario
Si bien Private Service Connect proporciona acceso privado a muchos servicios de Google, es posible que también debas habilitar el intercambio de tráfico de VPC, en particular en las siguientes situaciones:
Otras redes de nube privada virtual: Private Service Connect se conecta a los servicios administrados por Google, no directamente a otras redes de VPC del cliente. Si tus fuentes de datos, aplicaciones personalizadas o cualquier otro servicio se encuentran en una red de VPC diferente a la de tu clúster de Dataproc, por lo general, se requiere el intercambio de tráfico de VPC para habilitar la comunicación privada entre estas redes.
Redes locales: Si tu clúster de Dataproc accede a datos o servicios en tu entorno local, necesitarás una conexión de Cloud VPN o Cloud Interconnect a tu red local, que a menudo se combina con el intercambio de tráfico de VPC.
Comunicación interna integral a los servicios de Google: Si bien Private Service Connect proporciona acceso privado a los servicios de Google configurados, como Cloud Storage y BigQuery, las comunicaciones internas del plano de control o las funciones específicas de Dataproc pueden requerir el intercambio de tráfico de VPC a una red con amplia accesibilidad al servicio de Google para acceder a la infraestructura subyacente de Google o a otras APIs de Google.
Acceso a fuentes de datos en otras redes de VPC: Si tus trabajos de Dataproc leen o escriben en fuentes de datos, como Cloud SQL, bases de datos autoadministradas y aplicaciones personalizadas, que se encuentran en una red de VPC diferente, debes establecer el intercambio de tráfico de VPC entre la red de VPC de tu clúster de Dataproc y la red de VPC que contiene esas fuentes de datos. Private Service Connect no proporciona comunicación entre redes de VPC entre redes propiedad del cliente.
Conectividad híbrida: Para las implementaciones de nube híbrida en las que los clústeres de Dataproc deben interactuar con recursos en un centro de datos local, el intercambio de tráfico de VPC es esencial para conectar tu red local a tu Google Cloud red de VPC con Cloud VPN o Cloud Interconnect.
Soluciona problemas de Private Service Connect
Si tu clúster de Dataproc con Private Service Connect (sin intercambio de tráfico de VPC) no se crea o tiene problemas de conectividad, sigue estos pasos para solucionar el problema:
Confirma el acceso a la API requerido:
- Verifica que todas las APIs de Google necesarias estén habilitadas en tu Google Cloud proyecto.
Verifica la configuración del extremo de Private Service Connect:
Verifica que un extremo de Private Service Connect esté configurado correctamente para todas las APIs de Google que requiere el clúster, como
dataproc.googleapis.com,storage.googleapis.com,logging.googleapis.com,bigquery.googleapis.com,compute.googleapis.com.Usa herramientas como
digonslookupdesde una VM dentro de la subred de VPC para confirmar que los registros DNS de los servicios requeridos se resuelvan correctamente en las direcciones IP privadas dentro de tu red de VPC con el extremo de Private Service Connect.
Revisa las reglas del firewall:
Verifica que las reglas de firewall en tu red de VPC permitan conexiones salientes desde instancias del clúster de Dataproc a extremos de Private Service Connect.
Si usas la VPC compartida, verifica que las reglas de firewall adecuadas estén configuradas en el proyecto host.
Examina los registros del clúster de Dataproc:
- Revisa los registros de creación de clústeres en Logging para detectar errores relacionados con la red, como
connection refused,timeout, o "unreachable host. Estos errores pueden indicar una ruta faltante o una regla de firewall incorrecta. Examina los registros de la consola en serie de las instancias del clúster.
- Revisa los registros de creación de clústeres en Logging para detectar errores relacionados con la red, como
Evalúa la necesidad de intercambio de tráfico de VPC:
Según las dependencias de la carga de trabajo, si tu clúster de Dataproc requiere conectividad a recursos que no están administrados por Google, como bases de datos en una red de VPC separada y servidores locales, establece el intercambio de tráfico de VPC.
Examina los requisitos de red de Google Cloud los servicios con los que interactúa tu clúster de Dataproc. Es posible que algunos servicios tengan requisitos de intercambio de tráfico específicos, incluso cuando se usan con Private Service Connect.
Sigue las prácticas recomendadas
Planificación integral de la arquitectura de red: Antes de implementar Dataproc con Private Service Connect, diseña cuidadosamente tu arquitectura de red, teniendo en cuenta todas las dependencias implícitas y explícitas , y las rutas de flujo de datos. Esto incluye identificar todas las APIs de Google con las que interactúa tu clúster de Dataproc durante el aprovisionamiento y la operación.
Prueba la conectividad: Prueba minuciosamente la conectividad de red desde tu clúster de Dataproc a todos los servicios y fuentes de datos requeridos durante las fases de desarrollo y etapa de pruebas.
Usa el Network Intelligence Center: Usa Google Cloud las herramientas de Network Intelligence Center, como las pruebas de conectividad, para diagnosticar y solucionar problemas de conectividad de red.
¿Qué sigue?
- Más información sobre Private Service Connect
- Comprende el intercambio de tráfico entre redes de VPC.
- Explora la configuración de redes del clúster de Dataproc .