Apache Spark Streaming 241205

2024. 12. 5. 14:18

q1: Apache Spark Streaming

a1:

Apache Spark Streaming이란?

Apache Spark Streaming은 오픈 소스 분산 데이터 처리 플랫폼인 Apache Spark의 확장 모듈로, 실시간 데이터를 마이크로 배치(Micro-Batch) 방식으로 처리합니다. 즉, 지속적으로 들어오는 스트림 데이터를 일정한 크기의 배치로 나누어 처리하면서, 대규모 데이터 분석을 실시간에 가깝게 수행합니다.

Apache Spark Streaming의 주요 특징

1. 마이크로 배치 처리 방식
• 실시간 데이터를 초 단위로 배치 단위로 나누어 처리.
• 예: 1초 동안 들어오는 데이터를 하나의 배치로 묶어 처리.
• 이는 진정한 스트림 처리 엔진(Flink)와는 다르지만, 대규모 데이터 처리에 안정적.
2. 높은 처리량
• 분산 처리 기반으로 설계되어 대규모 스트림 데이터 처리에 적합.
• 데이터가 많아질수록 클러스터를 확장하여 처리 성능을 높일 수 있음.
3. 탄탄한 API 지원
• 기존 Spark의 RDD(Resilient Distributed Dataset) 및 DataFrame API와 연동 가능.
• SQL, 머신러닝, 그래프 분석 등과 통합 처리 가능.
4. 내결함성(Fault Tolerance)
• 장애가 발생해도 데이터를 손실 없이 복구 가능.
• 데이터를 복구하기 위해 **체크포인트(Checkpoint)**와 **Write Ahead Logs (WAL)**를 사용.
5. 통합된 워크플로우
• 배치 처리, 스트림 처리, 머신러닝, 그래프 분석을 하나의 플랫폼에서 수행 가능.

Apache Spark Streaming의 주요 구성 요소

1. DStream (Discretized Stream)
• Spark Streaming에서 데이터를 나타내는 기본 단위.
• 스트림 데이터를 일정 시간 간격으로 나누어 작은 RDD들의 연속으로 처리.
• DStream은 실시간으로 데이터 스트림을 처리하면서 기존의 Spark RDD API와 동일한 기능을 제공합니다.
2. Receiver
• 외부 데이터 소스(Kafka, Flume, 소켓 등)로부터 데이터를 수신하는 구성 요소.
• 데이터를 Spark 클러스터로 스트리밍하여 처리.
3. Transformation
• 데이터를 변환하고 가공하는 작업.
• 예: map, filter, reduceByKey 등 Spark의 기본 RDD 연산과 유사.
4. Output Operations
• 최종 처리 결과를 외부 시스템으로 저장하거나 전송.
• 예: HDFS, Kafka, 데이터베이스 등으로 결과 저장.
5. Checkpointing
• 장애 복구를 위해 스트림 처리 중간 상태를 저장.
• 설정된 간격마다 처리 상태를 HDFS 같은 분산 스토리지에 저장.

Spark Streaming의 데이터 처리 흐름

1. 데이터 수집 (Input Sources)
• Receiver를 통해 데이터를 수집.
• 지원 소스: Apache Kafka, Flume, 소켓 데이터, AWS Kinesis 등.
2. 데이터 변환 및 가공 (Transformations)
• DStream API를 사용해 데이터 변환 작업 수행.
• 예: 필터링, 매핑, 집계, 윈도우 연산 등.
3. 데이터 저장 (Output)
• 처리된 데이터를 파일 시스템, 데이터베이스, 메시징 시스템(Kafka) 등으로 저장하거나 전송.
4. 장애 복구 (Fault Tolerance)
• 장애 발생 시, WAL과 체크포인트를 기반으로 스트림 데이터 복구.

Spark Streaming의 활용 사례

1. 실시간 로그 분석
• 웹 서버 로그 데이터를 수집해 트래픽, 사용자 행동, 오류를 실시간으로 분석.
2. IoT 데이터 처리
• IoT 센서 데이터(온도, 위치, 속도 등)를 실시간으로 처리하여 이상 상황 감지.
3. 금융 거래 모니터링
• 실시간 금융 거래 데이터를 분석해 이상 거래 탐지 및 알림.
4. 소셜 미디어 분석
• 트위터, 페이스북 등에서 실시간 데이터를 수집해 트렌드를 분석.
5. 실시간 광고 캠페인 관리
• 광고 노출 및 클릭 데이터를 분석해 실시간 광고 전략을 최적화.
6. 실시간 대시보드 생성
• 실시간 데이터를 처리하여 비즈니스 성과를 보여주는 대시보드 제공.

Spark Streaming vs. Apache Flink 비교

특징 Apache Spark Streaming Apache Flink
처리 방식 마이크로 배치(Micro-Batch) 처리 진정한 스트림 처리(True Stream Processing)
지연 시간 낮음(수초 단위) 매우 낮음(밀리초 단위)
내결함성 Checkpoint 및 WAL 기반 Checkpoint 기반
상태 관리 제한적 강력한 상태 관리
유연성 배치 및 스트림 작업 통합 가능 스트림 처리에 최적화
성능 대규모 배치 데이터에 유리 실시간 스트림 데이터에 유리

Spark Streaming의 장점

1. 확장성
• 분산 클러스터를 기반으로 설계되어 데이터가 증가해도 클러스터를 확장하여 대응 가능.
2. 통합 처리
• Spark의 다른 모듈(SQL, MLlib, GraphX)과 쉽게 통합 가능.
3. 광범위한 데이터 소스 지원
• Kafka, Flume, 소켓 데이터, Kinesis 등 다양한 소스에서 데이터를 수집할 수 있음.
4. 비용 효율성
• 오픈 소스 소프트웨어로서 비용 없이 강력한 스트림 처리 기능 제공.

Spark Streaming의 한계

1. 지연 시간
• 마이크로 배치 방식으로 인해 진정한 실시간 처리에는 다소 한계가 있음.
• 초 단위의 지연 시간이 허용되는 경우에 적합.
2. 상태 관리의 한계
• Flink와 비교해 상태 관리 및 이벤트 시간 처리에서 상대적으로 약함.
3. 고급 스트림 처리 기능 부족
• 복잡한 이벤트 처리는 Flink가 더 적합.

Spark Structured Streaming (향상된 대안)

Apache Spark는 기존 Spark Streaming의 한계를 극복하기 위해 Structured Streaming을 도입했습니다. Structured Streaming은 SQL-like API를 사용하며, 스트림 처리와 배치 처리의 경계를 완전히 없앤 엔진입니다.

Apache Spark Streaming은 실시간 데이터 분석과 대규모 데이터 처리에서 강력한 도구입니다. 특히 기존 Spark 기반 워크플로우와의 통합이 용이하며, 분석 작업에서 효율성과 확장성을 제공합니다. Structured Streaming을 고려해 Spark 기반 스트림 분석 워크플로우를 더 강화할 수도 있습니다.

MezzanineX

Apache Spark Streaming 241205

+ Recent posts

티스토리툴바