(1) Parquet(파케이) : hadoop 생태계에서 많이 사용되는 파일 포멧

 

(2) 특징 : 빠르게 읽고, 압축률이 좋고, 특정 언어에 종속되지 않음

 

(3) 비슷한 포멧 : ORC file, avro(에이브로)

 

(4) 컬럼기반 저장 포멧 : 컬럼 단위로 데이터가 저장, 데이터를 미리 컬럼 단위로 압축시키고, 필요한 칼럼만 빠르게 읽고, 집계하는데 빠름

 

(5) dict -> dataframe -> parquet

 

(6) pyarrow : 대용량 파일을 읽을 수 있는 라이브러리, 메모리 내 분석을 위한 개발 플랫폼, 빅데이터를 빠르게 처리할 수 있음

 

(7) snappy : parquet 형식에서 기본적으로 사용하는 압축 라이브러리, 구글에서 자체 개발한 압축 라이브러리

 

(8) parquet 파일 읽기 : pandas read_parquet()를 사용하면 dataframe 형태로 읽을 수 있음

반응형

+ Recent posts