728x90

데이터 분석

 외부 데이터, 내부 데이터, 로그데이터 들이 따로 존재하였습니다. 

 

데이터웨어하우스는 대량의 데이터를 처리하고 오래동안 보관하는것에 최적화 되어있습니다.

소량의 데이터를 처리하는것에서는 효율적이지 못합니다.

 

 

정규화된 스키마 vs 스타 스키마 

 

 

일반적으로 RBD는 정규화된 스키마입니다. 

RBD에 있는 데이터를 웨어하우스에 저장하면 비효율적입니다. 

분석을 위한 쿼리로는 비효율적이다. 각각의 테이블들을  조합을 해야하기 때문입니다. 

그래서 다르게 구성된 스키마가 오른쪽 같은 스타 스키마입니다. 

 

ETL 와 ELT

  • 추출: 원본 데이터베이스 또는 데이터 소스에서 소스 데이터를 가져오는 것을 추출이라고 합니다. ETL에서는 데이터가 임시 스테이징 영역으로 들어갑니다. ELT의 경우, 데이터는 데이터 레이크 스토리지 시스템으로 곧바로 들어갑니다.
  • 변환: 변환이란 대상 데이터 시스템 및 해당 시스템의 나머지 데이터와 통합할 수 있도록 정보의 구조를 변경하는 과정을 일컫습니다.
  • 로드: 로드란 정보를 데이터 스토리지 시스템에 보관하는 과정을 말합니다.

 

 

앞서 설명한 바와 같이 ETL과 ELT는 이 세 가지 단계를 서로 다른 순서로 수행합니다. 여기에서 질문이 생깁니다. 데이터 변환 시점은 데이터 리포지토리에 데이터를 로드하기 과  중 어느 쪽이 바람직할까요? 질문에 답변을 하려면 ETL와 ELT를 따로 이해해야 합니다.

 

따라서 변환이 로드 전에 발생해야 하므로 데이터 웨어하우스에서는 ETL을 요구합니다. ETL을 이해하는 데 필요한 몇 가지 세부 사항은 다음과 같습니다.

  • 명확한 워크플로우를 통한 지속적인 프로세스: ETL은 가장 먼저 같은 유형 또는 다른 유형의 데이터 소스에서 데이터를 추출합니다. 그다음, 데이터를 스테이징 영역에 보관합니다. 스테이징 영역에서 데이터는 정제 과정을 거쳐 보강되고 변환되어 마지막으로 데이터 웨어하우스에 보관됩니다.
  • 데이터 엔지니어 및 개발자가 필요한 상세 계획, 감독, 코딩을 하는 데 사용: 데이터 웨어하우징에서 기존의 핸드 코딩 ETL 변환 방식은 엄청난 시간이 소요되었습니다. 프로세스가 설계된 후에도 새로운 정보로 데이터 웨어하우스를 업데이트할 때는 데이터가 각 단계를 거치는 데 시간이 걸렸습니다.
  • 쉽고 빠른 최신 ETL 솔루션: 특히 클라우드 기반 데이터 웨어하우스와 클라우드 기반 SaaS 플랫폼의 경우 최신 ETL의 진행 속도가 훨씬 빠릅니다. Integrate.io 같은 클라우드 기반 ETL 솔루션을 사용함으로써 사용자는 프로그래밍 전문가 없이도 다양한 소스에서 즉각적으로 데이터를 추출, 변환, 로드할 수 있습니다.

 

 

 

 

 

ETL

ETL의 최대 장점

ELT 대비 ETL의 가장 큰 장점 중 하나는 OLAP 데이터 웨어하우스가 사전 구성된다는 특성과 관련이 있습니다. 데이터가 구조화되고 변환되면 ETL을 통해 더욱 빠르고 효율적이며 안정적으로 데이터를 분석할 수 있습니다. 반대로 ELT는 빠른 분석을 요구하는 작업에는 적합하지 않습니다.

ELT 대비 ETL의 또 다른 커다란 장점은 규정 준수에 있습니다. GDPRHIPAA 또는 CCPA의 규정을 따르는 기업은 고객 개인 정보 보호를 위해 특정 데이터 필드를 제거, 마스킹 또는 암호화해야 하는 경우가 많습니다. 여기에는 이메일을 도메인으로 변환하거나 IP 주소의 마지막 부분을 제거하는 작업이 포함될 수 있습니다. ETL의 경우 데이터 웨어하우스에 데이터를 로드하기 전에 변환하기 때문에 더욱 안전하게 변환을 수행할 수 있습니다.

반면, ELT의 경우에는 먼저 민감한 데이터부터 업로드해야 합니다. 그 결과 시스템 관리자가 액세스할 수 있는 로그에 데이터가 나타나게 됩니다. 또한, ELT를 사용하여 데이터를 변환하면 데이터를 데이터 레이크에 업로드할 때 미준수 데이터가 EU를 벗어날 경우 EU의 GDPR 규정 준수 표준을 의도치 않게 위반할 수 있습니다. 궁극적으로, ETL의 경우 미준수 데이터가 실수로 데이터 웨어하우스나 보고서에 나타나는 일이 절대 없기 때문에 규정 준수 위반의 위험이 낮습니다. 

마지막으로, 데이터 통합/변환 프로세스로서 ETL은 20년 이상 존재해 왔습니다. 즉, 데이터 추출, 변환, 로드 요구 사항을 지원해줄 수 있는 제대로 개발된 ETL 툴과 플랫폼이 많습니다. 또한 ETL 파이프라인 설정에 능숙한 숙련된 데이터 엔지니어를 쉽게 찾을 수 있습니다.

 

ELT 프로세스는 데이터 레이크와도 밀접한 관련이 있습니다. "데이터 레이크"는 OLAP 데이터 웨어하우스와 달리 모든 종류의 구조화된 데이터 또는 구조화되지 않은 데이터를 수용하는 특별한 종류의 데이터 저장소입니다. 데이터 레이크의 경우 데이터를 로드하기 전에 변환해야 합니다. 모든 유형 원시 정보는 형식이나 부족 여부에 상관없이 데이터 레이크에 즉시 로드할 수 있습니다.

데이터를 비즈니스 인텔리전스 플랫폼으로 분석하기 전에도 데이터 변환이 필요합니다. 그러나 데이터 정리, 보강, 변환은 데이터가 데이터 레이크에 로드된 후에 진행됩니다. ELT와 데이터 레이크를 이해하는 데 필요한 몇 가지 세부 사항은 다음과 같습니다.

  • 속도가 빠른 클라우드 기반 서버를 통해 가능해진 신기술: ELT는 최신 클라우드 기반 서버 기술로 덕분에 가능해진 비교적 새로운 기술입니다. 클라우드 기반 데이터 웨어하우스는 거의 무한대의 스토리지 기능과 확장 가능한 처리 능력을 제공합니다. 예를 들어 Amazon Redshift 및 Google BigQuery와 같은 플랫폼의 뛰어난 처리 역량을 기반으로 ELT 파이프라인 구축이 가능해집니다.
  • 데이터 사용 가능 시 모든 것을 수집: ELT를 데이터 레이크와 함께 사용하면 데이터가 사용 가능해지는 즉시 지속적으로 확장하는 원시 데이터 풀을 수집할 수 있습니다. 데이터를 데이터 레이크에 저장하기 전에 특별 형식으로 변환할 필요는 없습니다.
  • 필요한 데이터만 변환: ELT는 특정 분석 시에 필요한 데이터만 변환합니다. ELT 때문에 데이터 분석 프로세스는 느려질 수 있지만 다양한 유형의 메트릭, 예측, 보고서 등을 생성하기 위해 즉시 다양한 방식으로 데이터를 변환할 수 있으므로 유연성은 더 높습니다. 반대로 ETL을 사용하면, 사전에 결정된 구조로는 새로운 유형의 분석이 불가능할 경우 전체 ETL 파이프라인과 OLAP 웨어하우스의 데이터 구조를 변경해야 할 수도 있습니다.
  • ETL보다 안정성이 부족한 ELT: 아직 발전 단계에 있는 ELT 툴과 시스템은 OLAP 데이터베이스와 함께 사용할 수 있는 ETL에 비해 안정성이 떨어집니다. ETL이 설정은 더 힘들어도 대규모 데이터 풀을 처리할 때는 보다 정확한 인사이트를 제공합니다. 또한 ETL 개발자보다 ELT 기술을 사용할 줄 아는 ELT 개발자를 찾기가 더 어렵습니다.

 

 

ELT란?

ELT는 "Extract(추출), Load(로드), Transform(변환)"의 약자입니다. ELT 프로세스에서는 기본 변환을 수행하기 위해 데이터 웨어하우스를 통해 데이터가 활용됩니다. 따라서 데이터 스테이징이 필요하지 않습니다. ELT는 구조화된 데이터, 구조화되지 않은 데이터, 반구조화된 데이터, 원시 데이터 형식 등 모든 데이터 형식에 클라우드 기반 데이터 웨어하우징 솔루션을 사용합니다.

이미지나 동영상 등 데이터 웨어하우스에 넣을수 없어서 나온것이 ELT입니다. 

 

ELT로 트랜드가 바뀌는 추세입니다.

ELT로 바뀌면서 

ELT의 최대 장점

ETL 대비 ELT의 주요 장점으로는 유연성과 새로운 구조화되지 않은 데이터 저장의 용이성이 있습니다. ELT를 사용하면 처음에 정보를 변환하고 구조화할 수 있는 시간이나 기술이 없어도 모든 유형의 정보를 저장할 수 있기 때문에 원할 때 언제든지 모든 정보를 즉시 사용할 수 있습니다. 아울러, 데이터 수집 전에 복잡한 ETL 프로세스를 개발할 필요가 없고 개발자와 BI 분석가가 새로운 정보를 처리할 때 시간을 절약할 수 있습니다. 

기타 ELT의 이점은 다음과 같습니다.

이점 #1: 빠른 속도

데이터 가용성 측면에서 ELT가 더 빠른 옵션입니다. ELT를 사용하면 모든 데이터가 시스템으로 즉시 들어가고, 사용자는 변환과 분석이 모두 필요한 데이터를 정확히 판단할 수 있습니다.

이점 #2: 유지 관리의 번거로움 감소

ELT를 사용하면 일반적으로 사용자는 수동적인 개입이 필요한 유지 관리 계획을 수립하지 않아도 됩니다. ELT는 클라우드 기반이므로 사용자의 수동 업데이트에 의존하지 않고 자동화 솔루션을 활용합니다. 

이점 #3: 신속한 로드

데이터가 웨어하우스에 들어가기 전까지는 변환 단계가 일어나지 않으므로 데이터를 최종 위치에 로드하는 데 소요되는 시간이 단축됩니다. 데이터가 정리 또는 변경될 때까지 기다릴 필요가 없으며, 데이터는 대상 시스템에 한 번만 들어가기만 하면 됩니다.

가장 좋은 ELT 사용 방법

이 게시글에서 설명한 바와 같이 ETL과 ELT의 비교는 여전히 진행 중인 논쟁 대상입니다. 그렇다면 어떤 상황에서 ETL 대신에 ELT 사용을 고려할 수 있을까요? 몇 가지 사용 사례를 소개합니다.

사용 사례 #1:

방대한 양의 데이터를 보유한 기업. ELT는 구조화된 데이터 및 구조화되지 않은 데이터를 모두 대량으로 사용할 때 가장 적합합니다. 대상 시스템이 클라우드 기반일 때 ELT 솔루션보다 더 신속하게 대규모 데이터를 처리할 수 있는 가능성이 높습니다.

사용 사례 #2:

필요한 처리 능력을 다룰 수 있는 리소스를 갖춘 조직. ETL 사용 시, 대부분의 처리는 데이터가 웨어하우스에 들어가기 전에 파이프라인에 존재하는 동안 진행됩니다. 반면 ELT는 데이터가 데이터 레이크에 도달하면 작업을 진행합니다. 목적에 부합하는 데이터 처리에 필요한 요구 사항에 따라 소규모 기업은 데이터 레이크의 이점을 충분히 누리기 위해 필요한 광범위한 기술을 개발 또는 탐색할 만한 재정적 여유가 부족할 수 있습니다.

사용 사례 #3: 

최대한 빨리 모든 데이터를 동일 위치에서 사용해야 하는 기업. 프로세스의 마지막 단계에 변환이 진행되면 ELT는 전송 속도를 최우선시하므로 좋고 나쁨을 떠나서 모든 데이터가 추후 변환을 위해 데이터 레이크에 들어가게 됩니다.

 

 

 

요약

  • ETL은 Extract(추출), Transform(변환), Load(로드)의 약자이고, ELT는 Extract(추출), Load(로드), Transform(변환)의 약자입니다.
  • ETL에서 데이터는 데이터 소스에서 스테이징을 거쳐 데이터 대상으로 이동합니다.
  • ELT에서는 데이터 대상에서 변환을 수행하므로 데이터 스테이징이 필요하지 않습니다.
  • ETL은 민감한 데이터가 데이터 대상에 로드되기 전에 정리되므로 데이터 개인 정보 보호와 규정 준수에 도움이 되는 반면, ELT는 더 간단하며 데이터 요구 사항이 많지 않은 기업에 적합합니다.

 

 

이 글을 더 자세히 읽고 싶으면 링크를 타고 가기 바랍니다. 장단점을 표로 나타내어 보기가 편합니다. 

 

 

 

Data Lake란?

링크를 타고 가면  아주 잘 설명이 되어있습니다. 

Data Lake

 

1단계 : 원본 데이터

2단계 : 분석용 데이터

3단계 : 피치 데이터(ML,AI)/ 집계 데이터

 

Data Lake vs Data WareHouse

 

                  데이터 레이크와 데이터 웨어 하우스는 종종 혼동되지만, 이 둘은 동일하지 않으며 그 목적도 다릅니다. 둘 다 빅데이터를 위한 데이터 스토리지 리포지토리라는 것만이 유일한 유사점입니다. 많은 기업들이 데이터 웨어하우스와 데이터 레이크를 모두 사용하여 특정 요구 사항과 목표를 충족합니다.

 

데이터 웨어하우스보고를 위해 설계된 구조화된 데이터 모델을 제공합니다. 이는 데이터 레이크와 데이터 웨어하우스의 주요 차이점입니다. 데이터 레이크는 현재 정의된 용도가 없는 비정형 원시 데이터를 저장합니다. 

데이터는 데이터 웨어하우스에 저장하기 전에 처리되어야 합니다. 이때 데이터 웨어하우스에 어떤 데이터를 포함할지 결정하게 되는데, 이를 "쓰기 스키마(schema on write)"라고 합니다. 

 

데이터를 데이터 웨어하우스에 저장하기 전에 데이터를 정제하는 프로세스는 시간이 오래 걸리고 어려울 수 있으며 몇 개월 또는 몇 년씩 걸리는 경우도 있으므로, 즉시 데이터를 수집할 수 없습니다. 데이터 레이크를 활용하면 즉시 데이터를 수집하여 향후 해당 데이터를 어디에 사용할지 파악할 수 있습니다.

 

데이터 구조 때문에, 정기적인 보고에 어떤 데이터가 필요한지 미리 알고 있는 비즈니스 애널리스트와 다른 비즈니스 사용자가 데이터 웨어하우스를 더 자주 사용합니다.

데이터 레이크는 데이터를 이용해 연구를 수행하는 데이터 과학자 및 애널리스트가 보다 자주 사용하며, 데이터를 사용하려면 고급 필터 및 분석이 적용되어야 합니다.

 

데이터 레이크와 데이터 웨어하우스는 일반적으로 다른 하드웨어를 이용하여 데이터를 저장합니다. 데이터 웨어하우스는 비용이 많이 들 수 있는 반면, 데이터 레이크는 대규모임에도 불구하고 상용 하드웨어를 자주 사용하기 때문에 그보다 비용이 저렴합니다.

 

 

 

 

728x90
복사했습니다!