Hadoop window 설치
2022. 7. 28. 08:53
ML/Hadoop & Spark
Java 설치 다운로드 https://www.oracle.com/java/technologies/downloads/#java8 windows탭을 클릭하여 자바 8 다운로드 다운로드 설치 설치 확인 $ java --version Hadoop 다운로드 hadoop.apache.org 접속 Download > Binary 클릭 hadoop download 다운로드 후 압축 풀기 환경 변수 등록 시스템 속성 > 환경 변수 윈도우 환경 변수에 JAVA_HOME과 HADOOP_HOME 등록 Path에 %HADOOP_HOME%/bin과 %JAVA_HOME%/bin 등록 환경 변수 등록시 디렉토리에 띄어쓰기가 있으면 안됩니다. java의 경우에는 C:\Program Files 하위에 존재하기 때문에 환경 변수 등록시 ..

Hadoop - HDFS 분산 파일 시스템
2022. 7. 21. 13:30
ML/Hadoop & Spark
분산 파일 시스템 네트워크로 연결된 여러 머신의 스토리지를 관리하는 팡리 시스템 일반적인 컴퓨터도 분산 파일 시스템을 가지고 있습니다. Google File system(GFS) 구글 파일 시스템(Google File System, GFS 또는 GoogleFS)은 구글에 의해 자기 회사 사용 목적으로 개발된 분산 파일 시스템이다.[일반 상용 하드웨어를 이용하여 대량의 서버를 연결하여 데이터에 대한 접근이 효율적이고 안정적이다. 새로운 버전의 구글 파일 시스템 코드이름은 콜로서스(Colossus)이다 구글 파일 시스템 - 위키백과, 우리 모두의 백과사전 ko.wikipedia.org 하둡에서는 HDFS 라는 분산 파일 시스템을 제공합니다. 대표적인 시스템은 의 특징 : 범용 하드웨어를 사용하여 분산 파일 ..

Hadoop 클러스터 구축 고려사항/하둡 버전에 다른점
2022. 7. 21. 13:00
ML/Hadoop & Spark
클러스터(Cluster)란? -여러 대의 컴퓨터들이 연결되어 하나의 시스템처럼 동작하는 컴퓨터들의 집합 클러스터는 확장성을 가지고 있어서 work -node만 추가하면 확장을 하는 구조를 가지고 있습니다. Gateway 노드를 따로 두는데 설정파일등을 통해서 클라이언트들의 조건을 통제하것을 수행합니다. 마스터/work Architecture 철수가 사정상 프로젝트 C를 못하는상황이 생기면 해당 프로젝트를 올바르게 대처를 할수 없기에 프로젝트 별로 담당자를 한명이 아닌 두명이 담당을 하면서 백업 식으로 일 처리가 돌아가게 됩니다. 즉 철수가 없더라고 영희가 해당 프로젝트를 처리할수 있습니다. 사람이 즉 노드가 되어 한 노드가 작동을 못하더라도 다른 노드가 해결을 할수 있습니다. 정상적으로 동작을 하지 않아..

데이터파이프라인 오케스트레이션
2022. 7. 21. 10:42
ML/Hadoop & Spark
오케스트레이션이란? 여러개의 컴퓨터시스템, 애플리케이션 또는 서비스를 조율하고 관리하는것 복잡한 Task와 workflow를 쉽게 관리 할수 있도록 도와주는 역할데이터 파이프라인 예) 구축해주면 한가지 job만 하느것이 아니라 여러가지의 job을 해결해준다. 워크플로 관리 도구의 필요성 스크립트의 한계 워크플로가 복잡Task의 의존 관계가 복잡실패 시 처리 어려움(결과를 매번 확인해야하며 실패하면 처음부터 다시해야한다.) 워크플로 관리도구 기능스케쥴링Takst 의존관계 정의실행 결과 알림 및 보관실패시 재실행DAG(Directed Acyclic Graph) 방향성(Directed) 간선에 방향이 존재 (그래프에서 노드와 간선으로 이루어져있다.) 비순환(Acyclic) 사이클이 존재하지 않음 그래프의 한 ..

데이터 파이프라인 패턴
2022. 7. 20. 10:57
ML/Hadoop & Spark
데이터 분석 외부 데이터, 내부 데이터, 로그데이터 들이 따로 존재하였습니다. 데이터웨어하우스는 대량의 데이터를 처리하고 오래동안 보관하는것에 최적화 되어있습니다. 소량의 데이터를 처리하는것에서는 효율적이지 못합니다. 정규화된 스키마 vs 스타 스키마 일반적으로 RBD는 정규화된 스키마입니다. RBD에 있는 데이터를 웨어하우스에 저장하면 비효율적입니다. 분석을 위한 쿼리로는 비효율적이다. 각각의 테이블들을 조합을 해야하기 때문입니다. 그래서 다르게 구성된 스키마가 오른쪽 같은 스타 스키마입니다. ETL 와 ELT 추출: 원본 데이터베이스 또는 데이터 소스에서 소스 데이터를 가져오는 것을 추출이라고 합니다. ETL에서는 데이터가 임시 스테이징 영역으로 들어갑니다. ELT의 경우, 데이터는 데이터 레이크 스..