데이터 파이프라인 패턴
2022. 7. 20. 10:57
ML/Hadoop & Spark
데이터 분석 외부 데이터, 내부 데이터, 로그데이터 들이 따로 존재하였습니다. 데이터웨어하우스는 대량의 데이터를 처리하고 오래동안 보관하는것에 최적화 되어있습니다. 소량의 데이터를 처리하는것에서는 효율적이지 못합니다. 정규화된 스키마 vs 스타 스키마 일반적으로 RBD는 정규화된 스키마입니다. RBD에 있는 데이터를 웨어하우스에 저장하면 비효율적입니다. 분석을 위한 쿼리로는 비효율적이다. 각각의 테이블들을 조합을 해야하기 때문입니다. 그래서 다르게 구성된 스키마가 오른쪽 같은 스타 스키마입니다. ETL 와 ELT 추출: 원본 데이터베이스 또는 데이터 소스에서 소스 데이터를 가져오는 것을 추출이라고 합니다. ETL에서는 데이터가 임시 스테이징 영역으로 들어갑니다. ELT의 경우, 데이터는 데이터 레이크 스..