애플리케이션 복원력 고려사항

이 페이지에서는 Google Cloud NetApp Volumes 애플리케이션 복원력에 대해 자세히 설명합니다.

애플리케이션 복원력 고려사항

NetApp Volumes는 가용성이 높지만 플랫폼 업데이트, 서비스 업그레이드, 소프트웨어 업그레이드와 같은 계획된 유지보수 이벤트나 서비스의 계획되지 않은 구성요소 오류로 인해 입력 및 출력 (I/O) 작업이 잠시 일시중지될 수 있습니다.

I/O 일시중지

운영체제 내의 네트워크 파일 시스템 (NFS), 서버 메시지 블록 (SMB), iSCSI 클라이언트 소프트웨어는 짧은 I/O 일시중지를 처리합니다. 클라이언트는 기다렸다가 애플리케이션에 문제를 제기하지 않고 I/O 작업을 다시 시도합니다. 이러한 짧은 일시중지는 애플리케이션 사용자가 더 긴 응답 시간을 볼 수 있지만 애플리케이션에서 I/O 오류를 보고하지 않으므로 중단되지 않는 것으로 간주됩니다.

I/O 일시중지가 길어지면 동작은 운영체제의 NFS, SMB 또는 iSCSI 클라이언트와 애플리케이션에 구성된 잠재적 제한 시간에 따라 달라집니다. 다음 섹션에서는 I/O 일시중지에 관한 프로토콜별 세부정보를 설명합니다.

NFS I/O 일시중지

사용할 수 없고 하드 마운트된 NFS 공유에 대한 모든 호출은 NFS 클라이언트에서 차단되고 NFS 서버가 다시 응답할 때까지 무기한 대기합니다. NFS 클라이언트가 대기하는 동안 NFS 서버가 응답하지 않음을 나타내는 메시지가 클라이언트 로그에 표시됩니다.

애플리케이션 관점에서 읽기 또는 쓰기와 같은 I/O 작업은 NFS 공유가 성공적으로 반환될 때까지 차단되고 미해결 상태로 유지됩니다. I/O 일시중지 중에는 I/O 작업이 손실되지 않으며 NetApp Volumes는 클라이언트 측에서 미해결 I/O 작업을 강제로 중지하지 않는 한 데이터 일관성을 보장합니다.

클러스터 소프트웨어 애플리케이션을 사용하여 장애 조치 자동화

클라이언트 VM에서 Pacemaker와 같은 클러스터 소프트웨어 애플리케이션을 사용하여 애플리케이션의 장애 조치를 자동화하는 경우 NetApp Volumes 유지관리 이벤트를 견딜 수 있도록 NFS 공유의 제한 시간을 구성하세요. 이러한 장애 조치로 인해 클라이언트에서 미해결 I/O 작업이 중단되고 트랜잭션이 손실될 수 있습니다. 다음 제한 시간을 사용하는 것이 좋습니다.

프로토콜 유형 권장 제한 시간 참고
NFSv3 공유 60초 (Standard, Premium, Extreme 서비스 수준)
120초 (Flex 서비스 수준)
NFS 잠금에 의존하는 대신 nolock 마운트 옵션을 사용하는 펜싱 방법을 사용하는 것이 좋습니다.
NFSv4.1 105초 (Standard, Premium, Extreme 서비스 수준)
165초 (Flex 서비스 수준)
NFSv4.1 프로토콜은 NFSv3에 안정적인 잠금을 자동으로 추가합니다(NFSv4.x RFC, 섹션 9.6.2). 이를 펜싱 메커니즘으로 사용할 수 있습니다. 잠금 상태 복구에 45초가 추가됩니다.

SMB 공유 I/O 일시중지

NFS와 달리 SMB 세션은 시간 초과될 수 있는 연결을 사용합니다. NetApp Volumes는 대부분의 경우 제한 시간 미만으로 유지됩니다.

세션 제한 시간

세션 시간 제한은 클라이언트에서 정의됩니다. Windows 클라이언트의 기본 제한 시간은 60초입니다. SessionTimeout 매개변수를 사용하여 Get-SmbClientConfiguration/Set-SmbClientConfiguration 명령어를 실행하여 세션 제한 시간을 읽거나 변경할 수 있습니다.

세션 제한 시간이 발생하면 SMB 세션이 중단되고 I/O를 실행하는 애플리케이션에 I/O 오류가 보고됩니다. 사용자가 SMB 공유에 다시 액세스하면 파일 탐색기 또는 Microsoft 365 애플리케이션이 일반적으로 다시 연결됩니다. I/O 오류가 발생하면 일부 애플리케이션은 다시 연결을 시도하고 실패한 I/O 작업을 다시 시도하지만 다른 애플리케이션은 그렇지 않습니다. 애플리케이션이 SMB 제한 시간을 처리하고 SMB 공유에서 탄력적으로 작동하는 방법을 알아보려면 애플리케이션 공급업체의 문서를 참고하세요.

지속적으로 사용 가능한 (CA) 공유는 데이터베이스와 유사한 애플리케이션의 장애 조치 복원력을 개선하는 SMB3.x 기능입니다. NetApp Volumes는 Microsoft SQL Server 및 FSLogix에 지속적으로 사용 가능한 공유를 지원합니다.

실패 복구는 새로운 SMB 버전이 출시될 때마다 개선됩니다. NetApp Volumes는 SMB 2.1, 3.0, 3.1.1을 지원합니다. 가능하면 지원되는 최신 SMB 버전을 사용하세요. Windows 10/Server 2016 이상에서는 최신 SMB 버전 3.1.1을 지원합니다.

SMB 애플리케이션 기반 예방 조치

특정 SMB 기반 애플리케이션에는 SMB 투명성 장애 조치가 필요합니다. SMB 투명성 장애 조치를 사용하면 데이터를 저장하고 액세스하는 서버 애플리케이션 연결을 중단하지 않고도 NetApp Volumes 내 SMB 볼륨에서 유지보수 작업을 실행할 수 있습니다. NetApp Volumes는 특정 애플리케이션이 SMB 투명성 장애 조치를 지원하도록 SMB 지속적 가용성 공유 옵션을 지원합니다. SMB 지속적 가용성 공유를 사용하면 다음 워크로드만 지원됩니다.

  • FSLogix 사용자 프로필 컨테이너

  • Microsoft SQL Server (Linux SQL Server 아님)

SMB 지속적으로 사용 가능한 공유는 맞춤 애플리케이션을 지원하지 않습니다.

iSCSI I/O 일시중지

Linux 및 Windows 환경 모두에서 iSCSI 클라이언트 (이니시에이터)는 타겟 (NetApp Volumes)을 사용할 수 있을 때까지 명령어를 재시도하여 I/O 일시중지를 처리합니다. 짧은 유지보수 이벤트 중에 iSCSI 이니시에이터는 다시 연결하고 미해결 I/O 작업을 재개하려고 시도하여 애플리케이션 복원력을 유지하는 데 도움이 됩니다.

iSCSI 시간 제한

유지보수 이벤트 또는 예기치 않은 서비스 중단 중에 애플리케이션 복원력을 유지하려면 iSCSI 시간 제한을 적절하게 구성해야 합니다.

Linux 시스템의 경우 NetApp Volumes는 기본 iSCSI 이니시에이터 설정을 사용합니다. 이러한 설정에는 NetApp 볼륨 유지보수 이벤트 중에 시간 제한 요구사항을 자동으로 관리하는 기본 Linux 기기 매퍼 멀티패스 내의 NetApp 관련 구성이 포함됩니다.

하지만 Windows 시스템의 경우 다음 명령어를 사용하여 NetApp Volumes 유지관리 이벤트를 처리하도록 Windows MPIO 설정을 수정합니다.

 Set-MPIOSetting -NewPathVerificationState Enabled `
 -NewPDORemovePeriod 130 `
 -NewRetryCount 6 `
 -CustomPathRecovery Enabled `
 -NewPathRecoveryInterval 30 `

I/O 일시중지 중에 iSCSI 초기자는 명령어를 재시도하고 시간 제한 기간 동안 미해결 I/O를 유지합니다. 시간 초과가 발생하면 운영체제에서 애플리케이션에 I/O 오류를 보고할 수 있으며, 이로 인해 트랜잭션이 손실되거나 애플리케이션 수준 복구가 필요할 수 있습니다.

애플리케이션 및 클러스터 고려사항

장애 조치를 자동화하는 클러스터링 소프트웨어 또는 애플리케이션을 사용하는 경우 NetApp 볼륨 유지관리 이벤트를 수용하도록 iSCSI 제한 시간을 구성하세요. 조기 장애 조치는 미해결 I/O 작업을 중단할 수 있으며 데이터 또는 트랜잭션 손실이 발생할 수 있습니다. iSCSI 제한 시간 설정에 관한 권장사항은 항상 애플리케이션 및 운영체제 문서를 참고하세요.

플랫폼 업그레이드 및 서비스 소프트웨어 업그레이드와 같은 계획된 유지보수 이벤트가 가끔 발생할 수 있습니다. 애플리케이션이 이러한 이벤트 중에 발생할 수 있는 I/O 일시중지를 처리할 수 있는 한 유지보수 이벤트는 파일 프로토콜 (NFS 또는 SMB) 관점에서 중단되지 않는 것으로 간주됩니다.

Standard, Premium, Extreme 서비스 수준의 경우 I/O 일시중지는 일반적으로 짧으며 몇 초에서 최대 30초까지입니다.

Flex 서비스 수준의 경우 I/O 일시중지가 최대 70초까지 지속될 수 있습니다.

다음 단계

Google Cloud NetApp Volumes 보안 고려사항에 대해 알아보세요.