Apache Hadoop 로그 수집

다음에서 지원:

이 문서에서는 Bindplane을 사용하여 Apache Hadoop 로그를 Google Security Operations로 수집하는 방법을 설명합니다. 파서는 먼저 일반적인 Hadoop 로그 형식을 기반으로 Grok 패턴을 사용하여 원시 Hadoop 로그에서 필드를 추출합니다. 그런 다음 추출된 필드를 통합 데이터 모델 (UDM) 스키마의 해당 필드에 매핑하고, 데이터 유형 변환을 수행하고, 추가 컨텍스트로 데이터를 보강합니다.

시작하기 전에

다음 기본 요건이 충족되었는지 확인합니다.

  • Google SecOps 인스턴스
  • systemd가 설치된 Windows 2016 이상 또는 Linux 호스트
  • 프록시 뒤에서 실행하는 경우 Bindplane 에이전트 요구사항에 따라 방화벽 포트가 열려 있는지 확인합니다.
  • Apache Hadoop 클러스터 구성 파일에 대한 권한 있는 액세스

Google SecOps 수집 인증 파일 가져오기

  1. Google SecOps 콘솔에 로그인합니다.
  2. SIEM 설정 > 수집 에이전트로 이동합니다.
  3. 수집 인증 파일을 다운로드합니다. Bindplane이 설치될 시스템에 파일을 안전하게 저장합니다.

Google SecOps 고객 ID 가져오기

  1. Google SecOps 콘솔에 로그인합니다.
  2. SIEM 설정 > 프로필로 이동합니다.
  3. 조직 세부정보 섹션에서 고객 ID를 복사하여 저장합니다.

Bindplane 에이전트 설치

다음 안내에 따라 Windows 또는 Linux 운영체제에 Bindplane 에이전트를 설치합니다.

Windows 설치

  1. 명령 프롬프트 또는 PowerShell을 관리자로 엽니다.
  2. 다음 명령어를 실행합니다.

    msiexec /i "https://github.com/observIQ/bindplane-agent/releases/latest/download/observiq-otel-collector.msi" /quiet
    

Linux 설치

  1. 루트 또는 sudo 권한으로 터미널을 엽니다.
  2. 다음 명령어를 실행합니다.

    sudo sh -c "$(curl -fsSlL https://github.com/observiq/bindplane-agent/releases/latest/download/install_unix.sh)" install_unix.sh
    

추가 설치 리소스

Syslog를 수집하여 Google SecOps로 전송하도록 Bindplane 에이전트 구성

  1. 구성 파일에 액세스합니다.

    1. config.yaml 파일을 찾습니다. 일반적으로 Linux에서는 /etc/bindplane-agent/ 디렉터리에 있고 Windows에서는 설치 디렉터리에 있습니다.
    2. 텍스트 편집기 (예: nano, vi, 메모장)를 사용하여 파일을 엽니다.
  2. 다음과 같이 config.yaml 파일을 수정합니다.

    receivers:
      udplog:
        # Replace the port and IP address as required
        listen_address: "0.0.0.0:514"
    
    exporters:
      chronicle/chronicle_w_labels:
        compression: gzip
        # Adjust the path to the credentials file you downloaded in Step 1
        creds_file_path: '/path/to/ingestion-authentication-file.json'
        # Replace with your actual customer ID from Step 2
        customer_id: <CUSTOMER_ID>
        endpoint: malachiteingestion-pa.googleapis.com
        # Add optional ingestion labels for better organization
        log_type: 'HADOOP'
        raw_log_field: body
        ingestion_labels:
    
    service:
      pipelines:
        logs/source0__chronicle_w_labels-0:
          receivers:
            - udplog
          exporters:
            - chronicle/chronicle_w_labels
    
    • 인프라에 필요한 대로 포트와 IP 주소를 바꿉니다.
    • <CUSTOMER_ID>를 실제 고객 ID로 바꿉니다.
    • Google SecOps 수집 인증 파일 가져오기 섹션에서 인증 파일이 저장된 경로로 /path/to/ingestion-authentication-file.json를 업데이트합니다.

Bindplane 에이전트를 다시 시작하여 변경사항 적용

  • Linux에서 Bindplane 에이전트를 다시 시작하려면 다음 명령어를 실행합니다.

    sudo systemctl restart bindplane-agent
    
  • Windows에서 Bindplane 에이전트를 다시 시작하려면 서비스 콘솔을 사용하거나 다음 명령어를 입력하면 됩니다.

    net stop BindPlaneAgent && net start BindPlaneAgent
    

Apache Hadoop에서 Syslog 전달 구성

Apache Hadoop은 로깅에 Log4j를 사용합니다. Hadoop 데몬 (NameNode, DataNode, ResourceManager, NodeManager 등)이 로그를 syslog 수신기 (Bindplane 호스트)로 직접 전달하도록 Log4j 버전에 따라 적절한 Syslog appender를 구성합니다. Log4j는 파일을 통해 구성됩니다 (웹 UI 없음).

옵션 1: Log4j 1.x 구성

  1. log4j.properties 파일 (일반적으로 $HADOOP_CONF_DIR/log4j.properties에 있음)을 찾습니다.
  2. 파일에 다음 SyslogAppender 구성을 추가합니다.

    # Syslog appender (UDP example)
    log4j.appender.SYSLOG=org.apache.log4j.net.SyslogAppender
    log4j.appender.SYSLOG.SyslogHost=<BINDPLANE_HOST_IP>:514
    log4j.appender.SYSLOG.Facility=LOCAL0
    log4j.appender.SYSLOG.FacilityPrinting=true
    log4j.appender.SYSLOG.layout=org.apache.log4j.PatternLayout
    log4j.appender.SYSLOG.layout.ConversionPattern=%d{ISO8601} level=%p logger=%c thread=%t msg=%m%n
    
    # Example: send NameNode logs to syslog
    log4j.logger.org.apache.hadoop.hdfs.server.namenode=INFO,SYSLOG
    log4j.additivity.org.apache.hadoop.hdfs.server.namenode=false
    
    # Or attach to root logger to send all Hadoop logs
    # log4j.rootLogger=INFO, SYSLOG
    
  3. <BINDPLANE_HOST_IP>를 Bindplane 호스트의 IP 주소로 바꿉니다.

  4. 파일을 저장합니다.

  5. Hadoop 데몬을 다시 시작하여 구성 변경사항을 적용합니다.

옵션 2: Log4j 2.x 구성

  1. log4j2.xml 파일 (일반적으로 $HADOOP_CONF_DIR/log4j2.xml에 있음)을 찾습니다.
  2. 파일에 다음 Syslog appender 구성을 추가합니다.

    <Configuration status="WARN">
      <Appenders>
        <!-- UDP example; for TCP use protocol="TCP" -->
        <Syslog name="SYSLOG" format="RFC5424"
                host="<BINDPLANE_HOST_IP>"
                port="514"
                protocol="UDP"
                facility="LOCAL0"
                appName="hadoop"
                enterpriseNumber="18060"
                mdcId="mdc">
          <PatternLayout pattern="%d{ISO8601} level=%p logger=%c thread=%t msg=%m %X%n"/>
        </Syslog>
      </Appenders>
    
      <Loggers>
        <!-- Send NameNode logs to syslog -->
        <Logger name="org.apache.hadoop.hdfs.server.namenode" level="info" additivity="false">
          <AppenderRef ref="SYSLOG"/>
        </Logger>
    
        <!-- Or send all Hadoop logs -->
        <Root level="info">
          <AppenderRef ref="SYSLOG"/>
        </Root>
      </Loggers>
    </Configuration>
    
    • <BINDPLANE_HOST_IP>를 Bindplane 호스트의 IP 주소로 바꿉니다.
  3. 파일을 저장합니다.

  4. Hadoop 데몬을 다시 시작하여 구성 변경사항을 적용합니다.

UDM 매핑 테이블

로그 필드 UDM 매핑 논리
허용됨 security_result.action 'false'인 경우 작업은 'BLOCK'입니다. 'true'인 경우 작업은 'ALLOW'입니다.
auth_type additional.fields.key = 'auth_type', additional.fields.value.string_value grok 패턴 '%{DATA:suser}@.*auth:%{WORD:auth_type}'을 사용하여 'ugi' 필드에서 추출했습니다. 괄호와 'auth:'가 삭제됩니다.
call additional.fields.key = 'Call#', additional.fields.value.string_value 직접 매핑됩니다.
call_context additional.fields.key = 'callerContext', additional.fields.value.string_value 직접 매핑됩니다.
cliIP principal.ip 'json_data' 필드가 있고 JSON으로 성공적으로 파싱된 경우에만 매핑됩니다.
cmd principal.process.command_line 직접 매핑됩니다.
cluster_name target.hostname 있는 경우 대상 호스트 이름으로 사용됩니다.
metadata.event_timestamp.seconds 월, 연도, 시간, 분, 초와 함께 사용하여 event_timestamp를 구성합니다.
설명 metadata.description 직접 매핑됩니다.
driver additional.fields.key = 'driver', additional.fields.value.string_value 직접 매핑됩니다.
dst target.ip 또는 target.hostname 또는 target.file.full_path IP로 성공적으로 파싱된 경우 타겟 IP에 매핑됩니다. 값이 '/user'로 시작하면 대상 파일 경로에 매핑됩니다. 그렇지 않으면 대상 호스트 이름에 매핑됩니다.
dstport target.port 직접 매핑되고 정수로 변환됩니다.
enforcer security_result.rule_name 직접 매핑됩니다.
event_count additional.fields.key = "event_count", additional.fields.value.string_value 직접 매핑되고 문자열로 변환됩니다.
fname src.file.full_path 직접 매핑됩니다.
시간 metadata.event_timestamp.seconds 월, 일, 년, 분, 초와 함께 사용하여 event_timestamp를 구성합니다.
id additional.fields.key = "id", additional.fields.value.string_value 직접 매핑됩니다.
ip principal.ip 선행 '/' 문자를 삭제한 후 주 구성자 IP에 매핑됩니다.
json_data JSON으로 파싱됩니다. 추출된 필드는 해당 UDM 필드에 매핑됩니다.
logType additional.fields.key = 'logType', additional.fields.value.string_value 직접 매핑됩니다.
메시지 grok 패턴을 사용하여 다양한 필드를 추출하는 데 사용됩니다.
method network.http.method 직접 매핑됩니다.
metadata.event_timestamp.seconds 월, 일, 연도, 시간, 초와 함께 사용하여 event_timestamp를 구성합니다.
metadata.event_timestamp.seconds 일, 연도, 시간, 분, 초와 함께 사용하여 event_timestamp를 구성합니다.
관찰자 observer.hostname 또는 observer.ip IP로 성공적으로 파싱된 경우 관찰자 IP에 매핑됩니다. 그렇지 않으면 관찰자 호스트 이름에 매핑됩니다.
perm additional.fields.key = 'perm', additional.fields.value.string_value 직접 매핑됩니다.
정책 security_result.rule_id 직접 매핑되고 문자열로 변환됩니다.
제품 metadata.product_name 직접 매핑됩니다.
product_event metadata.product_event_type 직접 매핑됩니다. 'rename'인 경우 'dst' 필드가 'target.file.full_path'에 매핑됩니다.
proto network.application_protocol 'webhdfs'가 아닌 경우 직접 매핑되고 대문자로 변환됩니다.
reason security_result.summary 직접 매핑됩니다.
저장소 additional.fields.key = 'repo', additional.fields.value.string_value 직접 매핑됩니다.
resType additional.fields.key = "resType", additional.fields.value.string_value 직접 매핑됩니다.
결과 additional.fields.key = 'result', additional.fields.value.string_value 직접 매핑되고 문자열로 변환됩니다.
다시 시도 additional.fields.key = 'Retry#', additional.fields.value.string_value 직접 매핑됩니다.
metadata.event_timestamp.seconds 월, 일, 연도, 시간, 분과 함께 사용하여 event_timestamp를 구성합니다.
seq_num additional.fields.key = 'seq_num', additional.fields.value.string_value 직접 매핑되고 문자열로 변환됩니다.
줄이는 것을 security_result.severity 값에 따라 다른 심각도 수준에 매핑됩니다. 'INFO', 'Info', 'info' -> 'INFORMATIONAL'; 'Low', 'low', 'LOW' -> 'LOW'; 'error', 'Error', 'WARN', 'Warn' -> 'MEDIUM'; 'High', 'high', 'HIGH' -> 'HIGH'; 'Critical', 'critical', 'CRITICAL' -> 'CRITICAL'
shost principal.hostname 'src'와 다른 경우 기본 호스트 이름으로 사용됩니다.
src principal.ip 또는 principal.hostname 또는 observer.ip IP로 성공적으로 파싱된 경우 주 구성원 및 관찰자 IP에 매핑됩니다. 그렇지 않으면 principal 호스트 이름에 매핑됩니다.
srcport principal.port 직접 매핑되고 정수로 변환됩니다.
요약 security_result.summary 직접 매핑됩니다.
suser principal.user.userid 직접 매핑됩니다.
tags additional.fields.key = 'tags', additional.fields.value.string_value 직접 매핑됩니다.
스레드 additional.fields.key = "thread", additional.fields.value.string_value 직접 매핑됩니다.
tip target.ip 직접 매핑됩니다.
ugi target.hostname 'log_data' 필드에 '·'이 포함되지 않은 경우 타겟 호스트 이름으로 사용됩니다.
url target.url 직접 매핑됩니다.
vendor metadata.vendor_name 직접 매핑됩니다.
version metadata.product_version 직접 매핑됩니다.
metadata.event_timestamp.seconds 월, 일, 시간, 분, 초와 함께 사용하여 event_timestamp를 구성합니다.
해당 사항 없음 metadata.event_type 기본적으로 'NETWORK_CONNECTION'으로 설정됩니다. 타겟이 식별되지 않은 경우 'STATUS_UPDATE'로 변경됩니다.
해당 사항 없음 metadata.log_type 'HADOOP'으로 설정합니다.
해당 사항 없음 security_result.alert_state 심각도가 'HIGH' 또는 'CRITICAL'인 경우 'ALERTING'으로 설정됩니다.
해당 사항 없음 is_alert 심각도가 '높음' 또는 '심각'인 경우 'true'로 설정합니다.
해당 사항 없음 is_significant 심각도가 '높음' 또는 '심각'인 경우 'true'로 설정합니다.

도움이 더 필요하신가요? 커뮤니티 회원 및 Google SecOps 전문가에게 문의하여 답변을 받으세요.