이 문서에서는 Cloud Storage FUSE에 사용할 수 있는 캐싱 옵션과 각 캐시 유형을 구성하는 방법을 자세히 설명합니다.
데이터 검색 성능을 향상시키기 위해 Cloud Storage FUSE는 네 가지 유형의 캐싱 옵션을 제공합니다. 다음 표를 사용하여 각 캐싱 유형에 대해 자세히 알아보세요.
캐싱 유형 | 설명 |
---|---|
파일 캐싱 | 데이터에 반복적으로 액세스하는 읽기 중심 워크로드의 파일 데이터 읽기를 가속화합니다. 특히 동일한 대용량 파일을 여러 번 읽는 인공지능 및 머신러닝 학습에서 지연 시간을 크게 줄입니다. |
목록 캐싱 | 처리 작업 시작 시 대규모 파일 집합을 반복하는 등 디렉터리의 전체 콘텐츠를 자주 나열하는 워크로드의 디렉터리 나열 작업을 가속화하여 디렉터리 순회 속도를 개선합니다. |
통계 캐싱 | 파일 속성을 자주 확인하는 애플리케이션의 파일 메타데이터 작업을 가속화합니다. 이는 파일이 변경되었는지 반복적으로 확인하는 많은 애플리케이션에서 일반적이며 Cloud Storage의 `GetMetadata` 호출 수를 줄입니다. |
유형 캐싱 | 파일 또는 디렉터리 존재 확인이나 경로 조회를 많이 실행하는 워크로드의 파일 또는 디렉터리 존재 확인을 가속화하여 경로가 존재하는지 확인하기 위해 Cloud Storage에 요청하는 횟수를 줄여 지연 시간을 개선합니다. |
고려사항
캐싱을 사용 설정하면 성능은 향상되지만 일관성이 저하될 수 있으며, 이는 일반적으로 변경 비율이 높은 여러 클라이언트를 사용하여 동일한 버킷에 액세스할 때 발생합니다. 일관성에 미치는 영향을 줄이려면 버킷을 읽기 전용으로 마운트하는 것이 좋습니다. 캐싱 동작에 관한 자세한 내용은 Cloud Storage FUSE GitHub 문서의 Cloud Storage FUSE 시맨틱스를 참고하세요.
캐시 스래싱을 방지하려면 전체 데이터 세트가 캐시 용량에 적합해야 합니다. 또한 캐시 미디어가 제공할 수 있는 최대 용량과 성능도 고려하세요. 프로비저닝된 캐시의 최대 성능, 용량 한도 또는 둘 다에 도달한 경우 Cloud Storage FUSE보다 한도가 훨씬 높은 Cloud Storage에서 직접 읽는 것이 좋습니다.
캐시된 데이터의 읽기 경로
Cloud Storage FUSE 캐시는 캐시에 수집된 후 반복 읽기를 가속화합니다. 처음 읽기와 캐시 부적중은 모두 Cloud Storage로 직접 이동하며, 일반적인 Cloud Storage 네트워크 지연 시간이 적용됩니다. 최초 읽기 성능을 개선하려면 메타데이터 캐시 자동 입력을 참고하세요.