아파치 스톰 과 아파치 카프카
2024. 7. 16. 20:59
잡담
안녕하세요, 요즘 야근에 푹 빠져 살고있어서 오랜만에 글을 적습니다.예전부터 늘 공유하고 싶었던 아파치 스톰과 카프카의 장단점에 대해 적어보도록하겠습니다.저는 FDS(이상거래방지 시스템) 과 관련된 솔루션 회사에 근무를 하고 있고,제가 오기전부터 대용량 처리를 위한 파이프라인의 한 축을 카프카 아닌 스톰을 데이터 스트림의 실시간 처리를 위해 채택을 했습니다.이런식으로 데이터가 오갈때 log 를 수집하기도 하며 룰탐지를 통해서 미리 예방할수도 있습니다. 요즘은 금감원에서 더더욱 책임을 은행에 묻고 있어서 더 견고하게 만들어야하는 경우가 생기고있습니다.왜 카프카 가 아닌 스톰을 했는지 알지는 못하여서 둘의 차이점을 살펴보면서 왜 도입하게 되었는지 알아보도록하겠습니다.먼저, 대용량 처리에 필수적인 요소인..
데이터 파이프라인 패턴
2022. 7. 20. 10:57
ML/Hadoop & Spark
데이터 분석 외부 데이터, 내부 데이터, 로그데이터 들이 따로 존재하였습니다. 데이터웨어하우스는 대량의 데이터를 처리하고 오래동안 보관하는것에 최적화 되어있습니다. 소량의 데이터를 처리하는것에서는 효율적이지 못합니다. 정규화된 스키마 vs 스타 스키마 일반적으로 RBD는 정규화된 스키마입니다. RBD에 있는 데이터를 웨어하우스에 저장하면 비효율적입니다. 분석을 위한 쿼리로는 비효율적이다. 각각의 테이블들을 조합을 해야하기 때문입니다. 그래서 다르게 구성된 스키마가 오른쪽 같은 스타 스키마입니다. ETL 와 ELT 추출: 원본 데이터베이스 또는 데이터 소스에서 소스 데이터를 가져오는 것을 추출이라고 합니다. ETL에서는 데이터가 임시 스테이징 영역으로 들어갑니다. ELT의 경우, 데이터는 데이터 레이크 스..