Hadoop window 설치
2022. 7. 28. 08:53
ML/Hadoop & Spark
Java 설치 다운로드 https://www.oracle.com/java/technologies/downloads/#java8 windows탭을 클릭하여 자바 8 다운로드 다운로드 설치 설치 확인 $ java --version Hadoop 다운로드 hadoop.apache.org 접속 Download > Binary 클릭 hadoop download 다운로드 후 압축 풀기 환경 변수 등록 시스템 속성 > 환경 변수 윈도우 환경 변수에 JAVA_HOME과 HADOOP_HOME 등록 Path에 %HADOOP_HOME%/bin과 %JAVA_HOME%/bin 등록 환경 변수 등록시 디렉토리에 띄어쓰기가 있으면 안됩니다. java의 경우에는 C:\Program Files 하위에 존재하기 때문에 환경 변수 등록시 ..
Hadoop - HDFS 분산 파일 시스템
2022. 7. 21. 13:30
ML/Hadoop & Spark
분산 파일 시스템 네트워크로 연결된 여러 머신의 스토리지를 관리하는 팡리 시스템 일반적인 컴퓨터도 분산 파일 시스템을 가지고 있습니다. Google File system(GFS) 구글 파일 시스템(Google File System, GFS 또는 GoogleFS)은 구글에 의해 자기 회사 사용 목적으로 개발된 분산 파일 시스템이다.[일반 상용 하드웨어를 이용하여 대량의 서버를 연결하여 데이터에 대한 접근이 효율적이고 안정적이다. 새로운 버전의 구글 파일 시스템 코드이름은 콜로서스(Colossus)이다 구글 파일 시스템 - 위키백과, 우리 모두의 백과사전 ko.wikipedia.org 하둡에서는 HDFS 라는 분산 파일 시스템을 제공합니다. 대표적인 시스템은 의 특징 : 범용 하드웨어를 사용하여 분산 파일 ..
Hadoop 클러스터 구축 고려사항/하둡 버전에 다른점
2022. 7. 21. 13:00
ML/Hadoop & Spark
클러스터(Cluster)란? -여러 대의 컴퓨터들이 연결되어 하나의 시스템처럼 동작하는 컴퓨터들의 집합 클러스터는 확장성을 가지고 있어서 work -node만 추가하면 확장을 하는 구조를 가지고 있습니다. Gateway 노드를 따로 두는데 설정파일등을 통해서 클라이언트들의 조건을 통제하것을 수행합니다. 마스터/work Architecture 철수가 사정상 프로젝트 C를 못하는상황이 생기면 해당 프로젝트를 올바르게 대처를 할수 없기에 프로젝트 별로 담당자를 한명이 아닌 두명이 담당을 하면서 백업 식으로 일 처리가 돌아가게 됩니다. 즉 철수가 없더라고 영희가 해당 프로젝트를 처리할수 있습니다. 사람이 즉 노드가 되어 한 노드가 작동을 못하더라도 다른 노드가 해결을 할수 있습니다. 정상적으로 동작을 하지 않아..
데이터파이프라인 오케스트레이션
2022. 7. 21. 10:42
ML/Hadoop & Spark
오케스트레이션이란? 여러개의 컴퓨터시스템, 애플리케이션 또는 서비스를 조율하고 관리하는것 복잡한 Task와 workflow를 쉽게 관리 할수 있도록 도와주는 역할데이터 파이프라인 예) 구축해주면 한가지 job만 하느것이 아니라 여러가지의 job을 해결해준다. 워크플로 관리 도구의 필요성 스크립트의 한계 워크플로가 복잡Task의 의존 관계가 복잡실패 시 처리 어려움(결과를 매번 확인해야하며 실패하면 처음부터 다시해야한다.) 워크플로 관리도구 기능스케쥴링Takst 의존관계 정의실행 결과 알림 및 보관실패시 재실행DAG(Directed Acyclic Graph) 방향성(Directed) 간선에 방향이 존재 (그래프에서 노드와 간선으로 이루어져있다.) 비순환(Acyclic) 사이클이 존재하지 않음 그래프의 한 ..
데이터 파이프라인 패턴
2022. 7. 20. 10:57
ML/Hadoop & Spark
데이터 분석 외부 데이터, 내부 데이터, 로그데이터 들이 따로 존재하였습니다. 데이터웨어하우스는 대량의 데이터를 처리하고 오래동안 보관하는것에 최적화 되어있습니다. 소량의 데이터를 처리하는것에서는 효율적이지 못합니다. 정규화된 스키마 vs 스타 스키마 일반적으로 RBD는 정규화된 스키마입니다. RBD에 있는 데이터를 웨어하우스에 저장하면 비효율적입니다. 분석을 위한 쿼리로는 비효율적이다. 각각의 테이블들을 조합을 해야하기 때문입니다. 그래서 다르게 구성된 스키마가 오른쪽 같은 스타 스키마입니다. ETL 와 ELT 추출: 원본 데이터베이스 또는 데이터 소스에서 소스 데이터를 가져오는 것을 추출이라고 합니다. ETL에서는 데이터가 임시 스테이징 영역으로 들어갑니다. ELT의 경우, 데이터는 데이터 레이크 스..
데이터 파이프라인이란?
2022. 7. 20. 10:29
ML/Hadoop & Spark
파이프라인이란? 하나의 데이터 처리 단계의 출력이 다음 단계의 입력으로 이어지는 형태로 연결된 구조 Unix pipeline 데이터 파이프라인이란? 다양한 소스에서 데이터를 변환하고 옮기는 일련의 과정을 구성한 시스템 간단한 예) 요구사항에 따라 더욱 복잡하고 많은 단계로 구성될수 있다. 데이터 파이프라인 WHY : 데이터 기반 의사 결정 -비지니스 데이터 분석 리포팅 데이터 기반 애플리케이션 -머신러닝 -데이터 사이언스 Who : 데이터 팀 데이터 엔지니어 : 데이터 파이프라인 구축하고 관리하는 업무 빅데이터 처리 툴을 잘 다룰줄 아는 사람들. How: 데이터 파이프라인 예시 -1 굉장히 간단한 파이프라인의 예를 보여준다. 조금더 복잡한 예 ) 데이터소스로부터 주기적으로 Batch processing ..
빅데이터 플랫폼 이해하기 -2
2022. 7. 20. 10:16
ML/Hadoop & Spark
Data Storage Data Warehouse -정형화된 데이터가 들어가있고 서로 다른 시스템에 모델링이 되어있는것이고 리포팅이나 분석쿼리에 최적화 되어있습니다. 요즘은 클라우드 기반의 웨어하우스 서비스 를 많이 사용합니다. Google BigQuery - 빅쿼리는 데이터를 복제해서 저장해서 안전하다. Amazon REDSHIFT - 테이블 계산 효율을 위한 snowflake -정형 혹은 비정형 데이터를 제공하는곳 aws 나 에저에 구동이 됩니다. Data Lake 아마존이나 다른 클라우드들을 사용한다. 요즘은 데이터레이크 하우스라고도 부른다. Data Analytics and Prediction 실시간 분석을 지원하기 위해서 다양한 것들이 있다. 데이터 분석을 가능하게 해주는 interactive ..
빅데이터 플랫폼 이해하기
2022. 7. 20. 09:52
ML/Hadoop & Spark
빅데이터 플랫폼이란? 플랫폼의 정의 오늘날 굉장히 다양한 것들을 말합니다. 많은 사람들이 쉽게 이용할수 있고 다양한 목적의 비지니스가 이루어지는 공간 플랫폼은 프랑스 어원에서 나왔습니다. 플랫폼을 떠올리면 기차역을 쉽게 말할수 있습니다. 하드웨어 플랫폼이란 - 동일한 제품을 일정한 품질로 만드는 프로세스와 그 제품을 만드는 장치 소프트웨어 실행할수 있는 기반이나 환경 Java Platform -JVM -OS -Hardware 서비스플랫폼 서비스 제공자의 서비스를 다른 서비스들이 쉬벡 사용할 수 있게 해주는 환경 예) 앱스토어 플랫폼이 있습니다. 빅데이터 플랫폼 Big data + Platform 합성어입니다. - 기업내에 많은 사용자들이 데이터를 처리하고 분석을 쉽게 할수 있는 환경을 제공해주는 시스템 ..
Overview
2022. 7. 20. 09:13
ML/Hadoop & Spark
빅데이터의 정의 기존의 데이터 처리 응용소프르웨어로는 수집 저장 분석 처리하기 어려울 정도로 방대한 양의 데이터 데이터로 부터 가치를 추출하고 결과를 분석하는 기술 빅데이터의 3대 요소 Volume - 데이터의 양 / 빅데이터에서는 테라바이트나 페타바이트를 말한다. Velocity - 빠른 시간에 저장, 수집 처리 분석까지 이루어지는것 Variety - 다양한 소스로 부터 다양한 형식을 처리할수 있는것. 요즘에는 3V가 아닌 5V 까지 말한다. 왜 빅데이터가 필요할까요? -빠르고 더 나은 의사 결정 지원 새로운 전략과 제품구축 고객에 관한 통찰력 향상 가까운 미래를 예측하고 새로운 기회 창출 데이터 활요 사례 페이스북 -> 소셜 네트워킹 분석 및 광고 최적화 아마존 -> 고객 제품 추천 넷플릭스 -> 컨..