728x90
Data Storage

 

 Data Warehouse 

 

-정형화된 데이터가 들어가있고 

서로 다른 시스템에 모델링이 되어있는것이고 

리포팅이나 분석쿼리에 최적화 되어있습니다. 

요즘은 클라우드 기반의 웨어하우스 서비스 를 많이 사용합니다. 

 

 

 

Google BigQuery

 -  빅쿼리는 데이터를 복제해서 저장해서 안전하다.

 

 

Amazon REDSHIFT

- 테이블 계산 효율을 위한 

 

snowflake

-정형 혹은 비정형 데이터를 제공하는곳

aws 나 에저에 구동이 됩니다. 

 

 

Data Lake 

아마존이나 다른 클라우드들을 사용한다. 

요즘은 데이터레이크 하우스라고도 부른다. 

 

Data Analytics and Prediction 

 

 

 

실시간 분석을 지원하기 위해서 다양한 것들이 있다. 

 

 

데이터 분석을 가능하게 해주는 interactive Query Engine 

 

trino - hive와 다르게 중간 결과를 디스크에 저장하지 않고 메모리에 저장해서 빠른 처리함.

 - presto db 에 비해 작은 용량과 커뮤니티가 조금더 활성화 되어있다.  

 

presto - amazon EMR 기반 

clouderaimpala - 오픈소스이고 다양한 아키텍쳐를 들고있고 다른 노트북 ㄱ환경에 제공되서 분석가나 연구원들이 쉽게 사용가능

 

 

Realtime Analytics -

druid

pinot - 실시간 분석 

ClickHouse - 얀데스에서 개발한 컬럼기반 온라인

 

ML

-Spark : 머신러닝 라이브러리로 사용가능하다.

-AmazonSageMaker - 머신러닝을 위한 서비스를 제공한다.

-Azure ML 

 

Output

목적

데이터 기반 의사 결정

-비지니스 의사 결정도와주기

 

데이터 기반 애플리케이션

-데이터의 도움을 받아 프로덕트를 향상시킴

 

 

데이터를 시각화 하여 보여주는 대시보드

 

tableau -

 

Superset - open 소스이고 에이비엔비에서 만든 오픈소스이다.

시각화한 기능이 있다. 보안이 타블리에 비해 좀 부족하다.

 

Redash

Workflow Management

  • 파이프라인을 작업할때는 스케쥴링이 필요하다 
  • Task를 실행하고 비정상적인것들은 정상적으로 돌아가게끔 하는것

 

Airflow - airbnb 에서 만든것으로 스크립트형 도구이다.

oozie - hadoop 에서 만든것이고 excel 기반이다. 

 

 

728x90

'ML > Hadoop & Spark' 카테고리의 다른 글

데이터파이프라인 오케스트레이션  (0) 2022.07.21
데이터 파이프라인 패턴  (0) 2022.07.20
데이터 파이프라인이란?  (0) 2022.07.20
빅데이터 플랫폼 이해하기  (0) 2022.07.20
Overview  (0) 2022.07.20
복사했습니다!