블룸 필터는 요소가 집합의 구성원인지 여부를 테스트하는 데 사용할 수 있는 공간 효율적인 확률적 데이터 구조입니다. 이러한 유형의 구조에서는 거짓양성이 발생할 수 있습니다. 예를 들어 필터는 요소가 집합에 없더라도 집합에 있다고 나타낼 수 있습니다. 하지만 거짓음성은 허용되지 않습니다. 따라서 집합에 요소를 추가하면 필터는 요소가 집합에 있음을 나타내야 합니다.
필터는 여러 해시 함수를 사용하여 요소를 고정 크기 비트 배열의 여러 비트에 매핑하여 이를 달성합니다. 위양성 확률을 제어하려면 배열의 비트 수와 사용된 해시 함수 수를 조정하면 됩니다.
사용 사례
이 섹션에서는 Bloom 필터 사용에 관한 다음 사용 사례를 설명합니다.
광고 및 이벤트 중복 삭제: 전자상거래 사이트, 스트리밍 서비스, 광고 네트워크 또는 마케팅 플랫폼이 있는 경우 Bloom 필터를 사용하면 사용자가 광고를 보았는지, 프로모션 이메일이나 알림을 받았는지, 제품을 구매했는지 확인할 수 있습니다.
Bloom 필터를 사용하여 사용자가 구매한 모든 제품을 저장할 수 있습니다.
- 제품이 필터에 없으면 사용자에게 광고를 표시하고 제품을 필터에 추가합니다.
- 제품이 필터에 있는 경우 사용자가 연결된 광고를 보고 제품을 구매했을 가능성이 높습니다. 따라서 사용자에게 표시할 다른 광고를 찾아야 합니다.
사기 감지: Bloom 필터를 사용하여 신용카드가 도난된 것으로 표시되는지 감지할 수 있습니다. 이렇게 하려면 도난된 것으로 신고된 카드가 포함된 필터를 사용하세요. 카드를 사용한 경우 필터에 표시되는지 확인합니다.
- 카드가 필터에 없으면 도난당한 것으로 표시되지 않습니다.
- 카드가 필터에 있으면 기본 데이터베이스에 대해 카드를 확인하거나 구매를 거부할 수 있습니다.
스팸 및 유해 콘텐츠 필터링: Bloom 필터를 사용하여 콘텐츠에서 잠재적인 위협, 유해한 자료, 스팸을 검사할 수 있습니다. 이렇게 하려면 악성 URL, 스팸 이메일 주소, 스팸 전화번호가 포함된 필터를 만드세요. 사용자가 URL을 입력하거나 이메일 또는 문자를 수신하면 이 정보가 필터에 표시되는지 확인합니다.
- URL, 이메일 또는 텍스트가 필터에 없으면 사용자가 URL로 표시되는 사이트에 액세스하거나 이메일 또는 텍스트를 수신하도록 허용합니다.
- URL, 이메일 또는 텍스트가 필터에 있으면 사용자에게 연결된 사이트 액세스를 거부하거나 사용자가 이메일 또는 텍스트를 수신하지 못하도록 합니다.
중복 사용자 아이디 감지: Bloom 필터를 사용하여 사용자 아이디가 신규인지 아니면 이미 존재하는지 확인할 수 있습니다. 이렇게 하려면 필터를 사용하여 전자상거래 사이트 또는 스트리밍 서비스에 가입하는 모든 사용자 이름을 추적하세요. 신규 사용자가 사용자 이름으로 가입하려고 하면 사용자 이름이 필터에 표시되는지 확인합니다.
- 사용자 이름이 필터에 없으면 계정을 만들고 사용자 이름을 필터에 추가합니다.
- 사용자 이름이 필터에 있으면 사용자 이름을 거부합니다.
이러한 사용 사례에 대한 자세한 내용은 Bloom 필터의 일반적인 사용 사례를 참고하세요.
가용성
버전 8.0 이상의 Memorystore for Valkey 인스턴스를 만들면 Bloom 데이터 유형 및 관련 명령어의 버전 1.0이 자동으로 제공됩니다. 이 데이터 유형은 다음 Valkey 클라이언트 라이브러리의 Bloom 필터 명령 구문과 API 호환됩니다.
블룸 필터 유형
다음과 같은 유형의 Bloom 필터를 사용할 수 있습니다.
- 확장: 이 유형의 필터는 고정된 용량이 없으므로 필터가 늘어날 수 있습니다. 필터가 용량에 도달한 상태에서 필터에 고유한 새 항목을 추가하면 필터가 확장되고 새 하위 필터가 생성됩니다. 이 하위 필터는 필터보다 용량이 큽니다.
- 확장 불가: 이 유형의 필터는 용량이 고정되어 있으므로 필터에 추가할 수 있는 항목 수에 제한이 있습니다. 필터가 용량에 도달한 상태에서 고유한 새 항목을 필터에 추가하려고 하면 오류가 발생합니다.
이러한 유형의 Bloom 필터 간 차이점에 대한 자세한 내용은 확장 및 비확장 Bloom 필터를 참고하세요.
블룸 필터 속성
블룸 필터에는 다음과 같은 속성이 있습니다.
- 용량: 필터가 확장 (확장 필터의 경우)되거나 추가 항목을 거부 (비확장 필터의 경우)하기 전에 Bloom 필터가 보유할 수 있는 항목 수입니다.
- 거짓양성률: Bloom 필터의 작업이 거짓양성을 초래할 확률을 제어하는 비율입니다. 예를 들어 요소가 필터에 있는지 확인하는 데 사용하는 작업이 요소가 필터에 없는데도 필터에 있다고 표시합니다.
- 확장: 이 속성은 Bloom 필터의 확장과 관련이 있습니다. 필터가 용량에 도달하여 필터가 확장될 때 전체 용량의 증가를 제어합니다.
- 확장 또는 비확장: Bloom 필터가 확장 필터인지 비확장 필터인지 여부입니다.
Bloom 필터의 속성에 대한 자세한 내용은 Bloom 속성을 참고하세요.
블룸 필터 객체
Bloom 필터 객체는 최대 128MB의 메모리를 사용할 수 있습니다. Bloom 필터가 사용하는 메모리 양을 확인하려면 BF.INFO key SIZE 명령어를 사용합니다. 여기서 key은 필터의 키 이름이고 SIZE은 필터가 사용하는 바이트 수입니다.
빛 번짐 카테고리
Bloom 명령어 및 데이터에 대한 액세스를 관리하려면 @bloom 카테고리를 사용하세요. 이 카테고리 외에도 @read, @write, @fast 카테고리에서 Bloom 명령어를 사용합니다.
다음 표는 Bloom 명령어를 @read, @write, @fast, @bloom 카테고리에 매핑할 수 있는지 여부를 나타냅니다.
| 블룸 명령어 | @bloom |
@read |
@write |
@fast |
|---|---|---|---|---|
BF.ADD |
Y | N | 예 | Y |
BF.CARD |
Y | Y | N | 예 |
BF.EXISTS |
Y | Y | N | 예 |
BF.INFO |
Y | Y | N | 예 |
BF.INSERT |
Y | N | 예 | Y |
BF.MADD |
Y | N | 예 | Y |
BF.MEXISTS |
Y | Y | N | 예 |
BF.RESERVE |
Y | Y | N | Y |
Bloom 명령어
이 섹션에서는 Bloom 데이터 유형에 대한 Bloom 작업을 실행하는 데 사용할 수 있는 Bloom 명령어를 나열하고 설명합니다.
| 명령어 | 설명 |
|---|---|
BF.ADD |
Bloom 필터에 단일 항목을 추가합니다. 필터가 없으면 명령어가 필터를 만듭니다. |
BF.CARD |
Bloom 필터의 카디널리티를 반환합니다. |
BF.EXISTS |
블룸 필터에 지정된 항목이 포함되어 있는지 확인합니다. |
BF.INFO |
Bloom 필터의 사용 정보와 속성을 반환합니다. |
BF.INSERT |
0개 이상의 항목으로 Bloom 필터를 만들거나 기존 필터에 항목을 추가합니다. |
BF.MADD |
하나 이상의 항목을 Bloom 필터에 추가합니다. 필터가 없으면 명령어가 필터를 만듭니다. |
BF.MEXISTS |
블룸 필터에 하나 이상의 항목이 포함되어 있는지 확인합니다. |
BF.RESERVE |
지정한 속성으로 빈 블룸 필터를 만듭니다. |
블룸 필터 확인
블룸 필터에 관한 다음 정보를 확인할 수 있습니다.
- 메모리 사용량: 필터가 메모리 사용량 한도에 도달하는지 확인합니다. 필터에서 사용하는 메모리 양을 확인하려면
BF.INFO명령어를 사용합니다. - 용량: 필터가 스케일링 필터인지 확인합니다. 그렇다면 필터가 용량에 도달하도록 확장한 다음 스케일 아웃합니다.
Bloom 필터의 메모리 사용량과 용량을 확인하는 방법에 대한 자세한 내용은 대규모 Bloom 필터 처리를 참고하세요.