728x90

파이프라인이란?

        하나의 데이터 처리 단계의 출력이 다음 단계의 입력으로 이어지는 형태로 연결된 구조 

 

Unix pipeline

데이터 파이프라인이란?

        다양한 소스에서 데이터를 변환하고 옮기는 일련의 과정을 구성한 시스템

간단한 예)

요구사항에 따라 더욱 복잡하고 많은 단계로 구성될수 있다. 

 

 

데이터 파이프라인

WHY :

데이터 기반 의사 결정

-비지니스 데이터 분석

리포팅

데이터 기반 애플리케이션

-머신러닝

-데이터 사이언스

Who : 

데이터 팀

데이터 엔지니어 : 데이터 파이프라인 구축하고 관리하는 업무

빅데이터 처리 툴을 잘 다룰줄 아는 사람들. 

 

How: 데이터 파이프라인 예시 -1 

굉장히 간단한 파이프라인의 예를 보여준다. 

조금더 복잡한 예 ) 

 

데이터소스로부터 주기적으로 Batch processing 을 실행하여 Data Lake 에 저장하고 분석을 하고 대시보드에 주기적으로 업데이트한것들을 보여준다. 

 

데이터 팀에서 보여주는 일반적인 프로세싱입니다. 

다양한 요구라인을 만족시킬수 있는 파이프라인을 만들어줍니다. 

 

 

728x90

'ML > Hadoop & Spark' 카테고리의 다른 글

데이터파이프라인 오케스트레이션  (0) 2022.07.21
데이터 파이프라인 패턴  (0) 2022.07.20
빅데이터 플랫폼 이해하기 -2  (0) 2022.07.20
빅데이터 플랫폼 이해하기  (0) 2022.07.20
Overview  (0) 2022.07.20
복사했습니다!