Hadoop-Overview
2022. 7. 21. 10:52
카테고리 없음
분산 파일 시스템 - HDFS(Hadoop Distrivuted File System) 리소스 관리자 -YARN(Yet Another ResourceNegotiation) 분산처리 - MapReduce Hadoop의 역사 Hadoop ecosystem -보이는것 외에도 더 있습니다. 더보기 수집을 위한 프로젝트는 plum 등이 있다. 데이터 처리는 Hive MapReduce 그리고 spark 이고 Spark 이 요즘 많이 쓰입니다. HIve는 sql를 통해서 처리한다. 대표적으로 스트림 처리 기능은 Flink 가 있다. 카프카 역시 스트림 처리 기능이 존재합니다. 분산처리 기반을 제공하는 HDFS 가 있다.
데이터파이프라인 오케스트레이션
2022. 7. 21. 10:42
ML/Hadoop & Spark
오케스트레이션이란? 여러개의 컴퓨터시스템, 애플리케이션 또는 서비스를 조율하고 관리하는것 복잡한 Task와 workflow를 쉽게 관리 할수 있도록 도와주는 역할데이터 파이프라인 예) 구축해주면 한가지 job만 하느것이 아니라 여러가지의 job을 해결해준다. 워크플로 관리 도구의 필요성 스크립트의 한계 워크플로가 복잡Task의 의존 관계가 복잡실패 시 처리 어려움(결과를 매번 확인해야하며 실패하면 처음부터 다시해야한다.) 워크플로 관리도구 기능스케쥴링Takst 의존관계 정의실행 결과 알림 및 보관실패시 재실행DAG(Directed Acyclic Graph) 방향성(Directed) 간선에 방향이 존재 (그래프에서 노드와 간선으로 이루어져있다.) 비순환(Acyclic) 사이클이 존재하지 않음 그래프의 한 ..
Hierarchical clustering 소개
2022. 7. 20. 14:22
ML/머신러닝
hierarchical clustering 계층적 군집화(Hierarchical Clustering) 개체들을 가까운 집단부터 순차적/계층적으로 차근차근 묶어 나가는 방식 유사한 개체들이 결합되는 dendogram 을 통해 시각화 가능 사전에 군집의 개수를 정하지 않아도 수행가능 모든 개체들 사이의 거리에 대한 유사도 행렬 계산 거리가 인접한 관측치끼리 cluster형성 유사도 행렬 update 학습 과정 Hierarchical Clustering 를 수행하려면 모든 개체들 간 거리(distance)나 유사도(similarity)가 이미 계산되어 있어야 합니다. 이표는 A와 D의 거리가 가까워서 cluestring 을 한다. AD군집과 가장 가까운 거리는 C라는것이라고 해서 묶어서 새로운 cluester..
데이터 파이프라인 패턴
2022. 7. 20. 10:57
ML/Hadoop & Spark
데이터 분석 외부 데이터, 내부 데이터, 로그데이터 들이 따로 존재하였습니다. 데이터웨어하우스는 대량의 데이터를 처리하고 오래동안 보관하는것에 최적화 되어있습니다. 소량의 데이터를 처리하는것에서는 효율적이지 못합니다. 정규화된 스키마 vs 스타 스키마 일반적으로 RBD는 정규화된 스키마입니다. RBD에 있는 데이터를 웨어하우스에 저장하면 비효율적입니다. 분석을 위한 쿼리로는 비효율적이다. 각각의 테이블들을 조합을 해야하기 때문입니다. 그래서 다르게 구성된 스키마가 오른쪽 같은 스타 스키마입니다. ETL 와 ELT 추출: 원본 데이터베이스 또는 데이터 소스에서 소스 데이터를 가져오는 것을 추출이라고 합니다. ETL에서는 데이터가 임시 스테이징 영역으로 들어갑니다. ELT의 경우, 데이터는 데이터 레이크 스..
데이터 파이프라인이란?
2022. 7. 20. 10:29
ML/Hadoop & Spark
파이프라인이란? 하나의 데이터 처리 단계의 출력이 다음 단계의 입력으로 이어지는 형태로 연결된 구조 Unix pipeline 데이터 파이프라인이란? 다양한 소스에서 데이터를 변환하고 옮기는 일련의 과정을 구성한 시스템 간단한 예) 요구사항에 따라 더욱 복잡하고 많은 단계로 구성될수 있다. 데이터 파이프라인 WHY : 데이터 기반 의사 결정 -비지니스 데이터 분석 리포팅 데이터 기반 애플리케이션 -머신러닝 -데이터 사이언스 Who : 데이터 팀 데이터 엔지니어 : 데이터 파이프라인 구축하고 관리하는 업무 빅데이터 처리 툴을 잘 다룰줄 아는 사람들. How: 데이터 파이프라인 예시 -1 굉장히 간단한 파이프라인의 예를 보여준다. 조금더 복잡한 예 ) 데이터소스로부터 주기적으로 Batch processing ..
빅데이터 플랫폼 이해하기 -2
2022. 7. 20. 10:16
ML/Hadoop & Spark
Data Storage Data Warehouse -정형화된 데이터가 들어가있고 서로 다른 시스템에 모델링이 되어있는것이고 리포팅이나 분석쿼리에 최적화 되어있습니다. 요즘은 클라우드 기반의 웨어하우스 서비스 를 많이 사용합니다. Google BigQuery - 빅쿼리는 데이터를 복제해서 저장해서 안전하다. Amazon REDSHIFT - 테이블 계산 효율을 위한 snowflake -정형 혹은 비정형 데이터를 제공하는곳 aws 나 에저에 구동이 됩니다. Data Lake 아마존이나 다른 클라우드들을 사용한다. 요즘은 데이터레이크 하우스라고도 부른다. Data Analytics and Prediction 실시간 분석을 지원하기 위해서 다양한 것들이 있다. 데이터 분석을 가능하게 해주는 interactive ..
빅데이터 플랫폼 이해하기
2022. 7. 20. 09:52
ML/Hadoop & Spark
빅데이터 플랫폼이란? 플랫폼의 정의 오늘날 굉장히 다양한 것들을 말합니다. 많은 사람들이 쉽게 이용할수 있고 다양한 목적의 비지니스가 이루어지는 공간 플랫폼은 프랑스 어원에서 나왔습니다. 플랫폼을 떠올리면 기차역을 쉽게 말할수 있습니다. 하드웨어 플랫폼이란 - 동일한 제품을 일정한 품질로 만드는 프로세스와 그 제품을 만드는 장치 소프트웨어 실행할수 있는 기반이나 환경 Java Platform -JVM -OS -Hardware 서비스플랫폼 서비스 제공자의 서비스를 다른 서비스들이 쉬벡 사용할 수 있게 해주는 환경 예) 앱스토어 플랫폼이 있습니다. 빅데이터 플랫폼 Big data + Platform 합성어입니다. - 기업내에 많은 사용자들이 데이터를 처리하고 분석을 쉽게 할수 있는 환경을 제공해주는 시스템 ..
Overview
2022. 7. 20. 09:13
ML/Hadoop & Spark
빅데이터의 정의 기존의 데이터 처리 응용소프르웨어로는 수집 저장 분석 처리하기 어려울 정도로 방대한 양의 데이터 데이터로 부터 가치를 추출하고 결과를 분석하는 기술 빅데이터의 3대 요소 Volume - 데이터의 양 / 빅데이터에서는 테라바이트나 페타바이트를 말한다. Velocity - 빠른 시간에 저장, 수집 처리 분석까지 이루어지는것 Variety - 다양한 소스로 부터 다양한 형식을 처리할수 있는것. 요즘에는 3V가 아닌 5V 까지 말한다. 왜 빅데이터가 필요할까요? -빠르고 더 나은 의사 결정 지원 새로운 전략과 제품구축 고객에 관한 통찰력 향상 가까운 미래를 예측하고 새로운 기회 창출 데이터 활요 사례 페이스북 -> 소셜 네트워킹 분석 및 광고 최적화 아마존 -> 고객 제품 추천 넷플릭스 -> 컨..
numpy -인덱싱 / 슬라이싱
2022. 6. 21. 17:24
Language/python
2차원 인덱싱입니다. 23번째 보시면 0번째안에 배열2를 가져오면 1행의 3열을 가져옵니다. 3차원 인덱싱입니다. 1차원 벡터 슬라이싱 2차원 벡터 슬라이싱 위 그림을 보시면 차원이 줄어드는것을 보실수있습니다. x[0,:2]형태는 똑같아 보이지만 행렬이 아닌 벡터인것이다. 3차원 벡터 슬라이싱
numpy - ndarray 데이터 형태 바꿔보기
2022. 6. 21. 17:07
Language/python
ravel,np.ravel : 다차원배열을 1차원으로 변경 'order'파라미터 -'C' - row 우선 변경 'F' - column 우선변경 Flatten 다차원 배열을 1차원으로 변경 ravel 과의 차이점: copy 를 생성하여 변경함(즉 원본 데이터가 아닌 복사본을 반환) 'order'파라미터 'c' -row 우선 변경 'F'-column 우선변경 내부적으로 변경이냐아니냐 이고 데이터에 변경되는게 중요하지 않으면 아무거나 쓰고 중요하면 flatten 을 사용해서 복사본을 사용하자! ravel 에는 중요한 함수가 있습니다. order! order 라고 하는 값은 C값이다. 다시 한번 호출된걸 보자 이해가 가시나요? 행과 열의 기준으로 값을 나타냅니다. reshape 함수 array 의 shape 을..