데이터 압축1 DataFrame을 압축하는 형태({‘snappy’, ‘gzip’, ‘brotli’ ) 알아보기 - Parquet 와는 어떻게 다를까? 틀린점이 있을 수 있습니다. 배경 ETL 작업을 진행하고 있었다. Raw 데이터는 Parquet 로 변환하는 작업을 진행 중이고, 사용하는 파이썬 라이브러리는 Pandas 이다. Pandas 에서는 DataFrame 을 Parquet 로 변환하는 to_parquet 함수를 제공한다. to_parquet 는 3가지 Compression 방식을 옵션으로 제공한다. ... Parquet 는 압축이 아닌걸까? 우선 첫 번째로 헷갈렸던 내용은 “Parquet 도 압축 방식이 아닌건가?” 였다. Parquet 에 대해서 인터넷의 글들을 읽어보면서 Parquet 가 압축방식인지 헷갈렸었다. 왜냐하면, 아래의 그림처럼 Parquet 가 CSV 보다 파일 사이즈를 많이 줄인다라는 글들이 너무 많았다. 그래서 Parque.. 2022. 6. 6. 이전 1 다음