728x90
Java 설치
다운로드
- https://www.oracle.com/java/technologies/downloads/#java8
- windows탭을 클릭하여 자바 8 다운로드
- 다운로드 설치
- 설치 확인
- $ java --version
Hadoop 다운로드
- hadoop.apache.org 접속
- Download > Binary 클릭
- hadoop download
- 다운로드 후 압축 풀기
환경 변수 등록
- 시스템 속성 > 환경 변수
- 윈도우 환경 변수에 JAVA_HOME과 HADOOP_HOME 등록
- Path에 %HADOOP_HOME%/bin과 %JAVA_HOME%/bin 등록
- 환경 변수 등록시 디렉토리에 띄어쓰기가 있으면 안됩니다.
- java의 경우에는 C:\Program Files 하위에 존재하기 때문에 환경 변수 등록시 변경을 해야 합니다.
- 그래서 설정할 때 Program Files 대신 C:\Progra~1\Java\jdk1.8.0_xxx 형태로 등록해주어야 합니다.
설정 파일 수정
etc/hadoop/core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/hadoop-3.3.2/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/hadoop-3.3.2/dfs/data</value>
</property>
</configuration>
* 참고
name dir과 data dir 생성
위에서 설정한 디렉토리와 동일한 위치에 생성
etc/hadoop/mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
etc/hadoop/yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_HOME,PATH,LANG,TZ,HADOOP_MAPRED_HOME</value>
</property>
</configuration>
Hadoop winutils 다운로드
- https://github.com/kontext-tech/winutils 에서 하둡 버전에 맞는 winutils를 다운로드
- %HADOOP_HOME%/bin 디렉토리에 winutils 파일을 복사
HDFS 실행
네임 노드 포맷
$ hdfs namenode -format
hdfs 시작
$ sbin/start-dfs.sh
hdfs web ui 접속
yarn 실행
$ sbin/start-yarn.sh
resource manage web ui
예제 실행
$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.2.jar pi 16 10000
728x90
'ML > Hadoop & Spark' 카테고리의 다른 글
Hadoop - HDFS 분산 파일 시스템 (0) | 2022.07.21 |
---|---|
Hadoop 클러스터 구축 고려사항/하둡 버전에 다른점 (0) | 2022.07.21 |
데이터파이프라인 오케스트레이션 (0) | 2022.07.21 |
데이터 파이프라인 패턴 (0) | 2022.07.20 |
데이터 파이프라인이란? (0) | 2022.07.20 |