목록2024/09/22 (1)
NIRVANA
아파치 파케이(Parquet)와 열 지향 데이터베이스
데이터 집계 시간을 단축하기 위해 사용하는 방법에는 2가지가 있다. 데이터가 작을 경우, 데이터를 모두 메모리에 올리는 방법압축과 분산을 통해서 지연을 줄이는 방법 1. 압축 - 열 지향 데이터베이스 vs 행 지향 데이터베이스 우리가 잘 알고 사용하는 RDB는 행 지향 데이터베이스로 데이터를 행 단위로 추가하며, 레코드 단위의 읽고 쓰기에 최적화 되어 있다. 행 지향 데이터베이스에서는 데이터 검색을 고속화하기 위해 인덱스를 사용한다. 행 지향 데이터베이스의 경우 레코드 단위로 데이터가 저장되므로 특정 쿼리에서는 행의 모든 데이터가 필요하지 않는 경우가 종종 생기게 된다. 이런 행 지향 데이터베이스의 경우, 쓰기 작업이 작은 I/O 데이터 분석 작업에는 유용하나, 데이터가 많은 분석 환경에서는 집계에..
DataEngineering
2024. 9. 22. 20:59