[프로그래밍] 아파치 스파크

2020. 10. 28. 13:54

하둡 분산형 파일 시스템(Haddop Distributed File System, HDFS) : 빅데이터에 적합한 스토리지 플랫폼

YARN : 빅데이터 환경에 도입할 수 있는 자원 할당 및 관리 프레임워크

*하둡 단점

- 하둡은 오랜 기간 이용이 어렵고

- 하둡 이용할 수 있는 사람을 찾기도 어렵다.

*스파크 장점

- 스파크는 디스크 액세스가 필요한 다른 기법보다 몇 배는 빨리 결과를 제시하는 병렬 in-memory 프로세싱 기능을 제공

- 스파크 기반의 애플리케이션을 개발하기 시작하면, 분석 워크플로우의 속도도 크게 개선될 전망

- 결과값 도출 준비 시간을 가속화한다는 것은 반복적으로 분석을 수행해 더 정확한 답을 찾을 수 있다.

- 스파크는 오픈소스

- 자유롭게 스파크 기반의 분석 인프라를 구현할 수 있다.

- Spark SQL, Spark Streaming, MLlib, GraphX

- Runs Everywhere ( Hadoop, Apache Mesos, Kubernetes, standalone, cloud

- 스파크는 기본적으로 맵리듀스 개념을 사용하지만, 스파크만의 데이터 처리 방법과 테스크 정리 방법으로 인해 메모리 내의 연산 속도가 하둡보다 100배 가량 빠르다.

데이터 처리 분야에서 시간은 곧 돈이다.

데이터 인프라 유지 비용

쿼리를 더 빠르게, 더 큰 데이터를 더 적은 자원으로 실행할 수 있도록 도움을 주는 것

스파크의 진정한 성능 발휘는 스칼라를 써서 가장 쉽게 이루어진다.

스파크는 스칼라로 쓰였기 때문에, 스칼라 코드를 읽을 수 없다면 스파크 소스 코드를 이해하는 것은 당연히 힘들 수 밖에 없다.

map, filter, flatMap, reduce, fold 같은 RDD 함수들은 스칼라의 동일한 이름의 함수들과 거의 같은 스펙을 가지고 있다.

스파크는 함수형 프레임워크, 불변성이나 람다 정의 같은 개념에 매우 크게 의존하고 있음

스칼라는 정적 타입 언어, 파이썬은 JVM과의 통신 비용 때문에, 파이썬 스파크 코드는 종종 같은 JVM 코드보다 훨씬 느리다.

스파크의 독보적인 장점으로 메모리 기반 처리와 함께 지연 평가 방식으로 효율을 극대화하는 능력

스파크는 고속 분산 처리를 위한 최초의 고차원 프로그래밍 언어

스파크는 일반화된 병렬 처리로 데이터를 다룰 수 있는 수단을 제공하는 오픈소스 프레임워크

[프로그래밍] WAS 와 Web 차이점 (0)	2020.09.10
[프로그래밍] Flask 필요한 것만 요약_#3 (0)	2020.09.09
[프로그래밍] Flask 필요한 것만 요약_#2 (0)	2020.09.09
[프로그래밍] Flask 필요한 것만 요약_#1 (0)	2020.09.08
[프로그래밍] bash_profile 과 profile 차이점 (0)	2020.09.07

MezzanineX