Hadoop window 설치
2022. 7. 28. 08:53
ML/Hadoop & Spark
Java 설치 다운로드 https://www.oracle.com/java/technologies/downloads/#java8 windows탭을 클릭하여 자바 8 다운로드 다운로드 설치 설치 확인 $ java --version Hadoop 다운로드 hadoop.apache.org 접속 Download > Binary 클릭 hadoop download 다운로드 후 압축 풀기 환경 변수 등록 시스템 속성 > 환경 변수 윈도우 환경 변수에 JAVA_HOME과 HADOOP_HOME 등록 Path에 %HADOOP_HOME%/bin과 %JAVA_HOME%/bin 등록 환경 변수 등록시 디렉토리에 띄어쓰기가 있으면 안됩니다. java의 경우에는 C:\Program Files 하위에 존재하기 때문에 환경 변수 등록시 ..
Hadoop - HDFS 분산 파일 시스템
2022. 7. 21. 13:30
ML/Hadoop & Spark
분산 파일 시스템 네트워크로 연결된 여러 머신의 스토리지를 관리하는 팡리 시스템 일반적인 컴퓨터도 분산 파일 시스템을 가지고 있습니다. Google File system(GFS) 구글 파일 시스템(Google File System, GFS 또는 GoogleFS)은 구글에 의해 자기 회사 사용 목적으로 개발된 분산 파일 시스템이다.[일반 상용 하드웨어를 이용하여 대량의 서버를 연결하여 데이터에 대한 접근이 효율적이고 안정적이다. 새로운 버전의 구글 파일 시스템 코드이름은 콜로서스(Colossus)이다 구글 파일 시스템 - 위키백과, 우리 모두의 백과사전 ko.wikipedia.org 하둡에서는 HDFS 라는 분산 파일 시스템을 제공합니다. 대표적인 시스템은 의 특징 : 범용 하드웨어를 사용하여 분산 파일 ..
Hadoop 클러스터 구축 고려사항/하둡 버전에 다른점
2022. 7. 21. 13:00
ML/Hadoop & Spark
클러스터(Cluster)란? -여러 대의 컴퓨터들이 연결되어 하나의 시스템처럼 동작하는 컴퓨터들의 집합 클러스터는 확장성을 가지고 있어서 work -node만 추가하면 확장을 하는 구조를 가지고 있습니다. Gateway 노드를 따로 두는데 설정파일등을 통해서 클라이언트들의 조건을 통제하것을 수행합니다. 마스터/work Architecture 철수가 사정상 프로젝트 C를 못하는상황이 생기면 해당 프로젝트를 올바르게 대처를 할수 없기에 프로젝트 별로 담당자를 한명이 아닌 두명이 담당을 하면서 백업 식으로 일 처리가 돌아가게 됩니다. 즉 철수가 없더라고 영희가 해당 프로젝트를 처리할수 있습니다. 사람이 즉 노드가 되어 한 노드가 작동을 못하더라도 다른 노드가 해결을 할수 있습니다. 정상적으로 동작을 하지 않아..
데이터파이프라인 오케스트레이션
2022. 7. 21. 10:42
ML/Hadoop & Spark
오케스트레이션이란? 여러개의 컴퓨터시스템, 애플리케이션 또는 서비스를 조율하고 관리하는것 복잡한 Task와 workflow를 쉽게 관리 할수 있도록 도와주는 역할데이터 파이프라인 예) 구축해주면 한가지 job만 하느것이 아니라 여러가지의 job을 해결해준다. 워크플로 관리 도구의 필요성 스크립트의 한계 워크플로가 복잡Task의 의존 관계가 복잡실패 시 처리 어려움(결과를 매번 확인해야하며 실패하면 처음부터 다시해야한다.) 워크플로 관리도구 기능스케쥴링Takst 의존관계 정의실행 결과 알림 및 보관실패시 재실행DAG(Directed Acyclic Graph) 방향성(Directed) 간선에 방향이 존재 (그래프에서 노드와 간선으로 이루어져있다.) 비순환(Acyclic) 사이클이 존재하지 않음 그래프의 한 ..
Hierarchical clustering 소개
2022. 7. 20. 14:22
ML/머신러닝
hierarchical clustering 계층적 군집화(Hierarchical Clustering) 개체들을 가까운 집단부터 순차적/계층적으로 차근차근 묶어 나가는 방식 유사한 개체들이 결합되는 dendogram 을 통해 시각화 가능 사전에 군집의 개수를 정하지 않아도 수행가능 모든 개체들 사이의 거리에 대한 유사도 행렬 계산 거리가 인접한 관측치끼리 cluster형성 유사도 행렬 update 학습 과정 Hierarchical Clustering 를 수행하려면 모든 개체들 간 거리(distance)나 유사도(similarity)가 이미 계산되어 있어야 합니다. 이표는 A와 D의 거리가 가까워서 cluestring 을 한다. AD군집과 가장 가까운 거리는 C라는것이라고 해서 묶어서 새로운 cluester..