AlloyDB 고가용성 개요

이 문서에서는 PostgreSQL용 AlloyDB 인스턴스의 고가용성 (HA) 구성을 간략하게 설명합니다. 새 인스턴스의 HA를 구성하거나 기존 인스턴스에 HA를 사용 설정하려면 클러스터 및 인스턴스 설정 보기를 참고하세요.

HA 구성은 장애 이벤트 후에도 지속적인 작업을 보장합니다. 영역 인스턴스는 장애 이벤트 중에 다운타임이 길어질 수 있지만 HA를 사용하면 클라이언트 애플리케이션에서 데이터를 계속 사용할 수 있습니다.

기본 인스턴스 및 보조 인스턴스

고가용성으로 구성된 AlloyDB 기본 인스턴스에는 서로 다른 영역에 있는 활성 노드와 대기 노드가 포함됩니다. 스토리지의 경우 AlloyDB는 리전 로그 영속자를 사용하여 데이터베이스 미리 쓰기 로그 (WAL)를 저장하고 AlloyDB의 리전 스토리지 서비스를 사용하여 데이터 블록을 저장합니다. 인스턴스의 IP 주소는 부하 분산기를 사용하여 트래픽을 활성 노드로 라우팅합니다.

쓰기를 처리할 때 AlloyDB 데이터베이스는 먼저 활성 노드의 리전 로그 영속기에 WAL을 쓴 다음 로그를 AlloyDB의 리전 로그 처리 서버로 비동기식으로 전송합니다. 그러면 로그가 장기 저장을 위한 데이터 블록으로 구체화됩니다. 그런 다음 AlloyDB에서 성공적으로 처리된 로그를 정리합니다.

다음 다이어그램은 고가용성 아키텍처를 보여줍니다.

고가용성 아키텍처

그림 1. 고가용성 아키텍처

장애 조치

활성 노드를 사용할 수 없게 되면 AlloyDB는 기본 인스턴스를 대기 노드로 자동 장애 조치하여 새 활성 노드로 만듭니다. 부하 분산기가 새 활성 노드를 인식하고 트래픽을 라우팅하기 시작합니다. 장애 조치 후에는 원래 노드가 다시 온라인 상태가 되더라도 새 활성 노드가 활성 상태로 유지됩니다. 지역 로그 영속기에 대한 동기식 WAL 쓰기로 인해 장애 조치 중에 데이터 손실이 발생하지 않습니다.

다음 다이어그램은 장애 조치 후의 트래픽 흐름을 보여줍니다.

장애 조치 후 트래픽 흐름

그림 2. 장애 조치 후 트래픽 흐름

장애 조치는 다음과 같은 순서로 발생합니다.

  1. 활성 노드 또는 영역에 장애가 발생합니다. AlloyDB 상태 모니터링 시스템은 활성 노드가 정상인지 주기적으로 확인합니다. 상태 모니터링 시스템이 여러 번의 검사에 실패하면 장애 조치를 시작합니다. 이 감지에는 최대 30초가 걸릴 수 있습니다.
  2. 데이터베이스가 대기 노드에서 시작되고 연결 수신을 시작합니다. 일반적으로 30초 미만이 소요됩니다.
  3. 대기 노드가 기본 노드로 승격됩니다. 인스턴스의 고정 IP 주소를 사용하여 새 기본 노드가 데이터 제공을 시작하고 다시 연결 후 클라이언트 쿼리가 성공합니다.
  4. AlloyDB는 이전에 활성 상태였던 영역에 대기 노드를 다시 만듭니다. 그러면 이 대기 노드는 향후 장애 조치를 위해 준비됩니다.

요구사항

AlloyDB에서 장애 조치를 허용하려면 구성이 다음 요구사항을 충족해야 합니다.

  • 기본 인스턴스가 정상 작동 상태 (중단되거나 유지보수 작업 중이 아님)여야 합니다.
  • 대기 영역과 대기 노드가 모두 정상 상태여야 합니다.

새 아키텍처

PostgreSQL 18을 사용하는 새로 생성된 AlloyDB 인스턴스는 대기 노드 (상시 대기 노드)의 읽기 복제본을 사용하여 장애 조치를 개선합니다.

AlloyDB에는 상시 대기 노드에 읽기 복제본이 포함됩니다. 장애 조치 중에 이 읽기 복제본이 읽기-쓰기 모드로 더 빠르게 전환되어 다운타임이 줄어듭니다. 또한 읽기 복제본을 사용하면 캐시를 미리 로드할 수 있으므로 장애 조치 후에도 일관된 쿼리 성능을 유지할 수 있습니다.

다음 다이어그램은 핫 스탠바이가 포함된 고가용성 아키텍처를 보여줍니다. 상시 대기

그림 3. 상시 대기

읽기 풀

노드가 2개 이상인 읽기 풀 인스턴스는 가용성이 높습니다. 노드는 영역에 고르게 분산되어 장애 이벤트에 대한 복원력을 제공합니다. 노드 또는 영역 장애와 같은 장애 이벤트가 발생하면 리전 부하 분산기가 나머지 정상 노드로 트래픽을 라우팅하여 클라이언트의 다운타임을 방지합니다.

기본 인스턴스 장애 조치 중에는 읽기 풀이 온라인 상태를 유지합니다. 장애 조치 중에 기본 인스턴스의 WAL 복제가 일시적으로 중지되고 기본 인스턴스가 복구된 후 자동으로 재개됩니다.

다음 단계