개발자 던킨

2022. 7. 28. 11:28 카테고리 없음

HTTPResponse Rendering View, Json Response View 모두 API의 일종 HTML 을 랜더링 하는지, Json의 형태로 단순히 정보만을 주는 차이 랜더링을 해야할 때는 Django의 render 를 사용(HTTPResponse 사용) Json 포맷으로 전달해야 할때는 JsonResponse를 사용 RestAPI REST(Representational State Transfer) 프로토콜 아님 표준 아님 누가 정해놓은 법칙이 아니고 약속이라고 할수있습니다. 즉 REST하다 REST하지 않다 라고 하지만, 서로의 이해도 다르고 공식문서보단 스스로가 다른 누군가의 REST에 대해 발표하는것들을 듣고 재해석하는 경우가 많아서 굳이 지켜야한다기보단 지키면 편하다 보니 많은 이용자들..

Hadoop window 설치

2022. 7. 28. 08:53 ML/Hadoop & Spark

Java 설치 다운로드 https://www.oracle.com/java/technologies/downloads/#java8 windows탭을 클릭하여 자바 8 다운로드 다운로드 설치 설치 확인 $ java --version Hadoop 다운로드 hadoop.apache.org 접속 Download > Binary 클릭 hadoop download 다운로드 후 압축 풀기 환경 변수 등록 시스템 속성 > 환경 변수 윈도우 환경 변수에 JAVA_HOME과 HADOOP_HOME 등록 Path에 %HADOOP_HOME%/bin과 %JAVA_HOME%/bin 등록 환경 변수 등록시 디렉토리에 띄어쓰기가 있으면 안됩니다. java의 경우에는 C:\Program Files 하위에 존재하기 때문에 환경 변수 등록시 ..

Hadoop - HDFS 분산 파일 시스템

2022. 7. 21. 13:30 ML/Hadoop & Spark

분산 파일 시스템 네트워크로 연결된 여러 머신의 스토리지를 관리하는 팡리 시스템 일반적인 컴퓨터도 분산 파일 시스템을 가지고 있습니다. Google File system(GFS) 구글 파일 시스템(Google File System, GFS 또는 GoogleFS)은 구글에 의해 자기 회사 사용 목적으로 개발된 분산 파일 시스템이다.[일반 상용 하드웨어를 이용하여 대량의 서버를 연결하여 데이터에 대한 접근이 효율적이고 안정적이다. 새로운 버전의 구글 파일 시스템 코드이름은 콜로서스(Colossus)이다 구글 파일 시스템 - 위키백과, 우리 모두의 백과사전 ko.wikipedia.org 하둡에서는 HDFS 라는 분산 파일 시스템을 제공합니다. 대표적인 시스템은 의 특징 : 범용 하드웨어를 사용하여 분산 파일 ..

Hadoop 클러스터 구축 고려사항/하둡 버전에 다른점

2022. 7. 21. 13:00 ML/Hadoop & Spark

클러스터(Cluster)란? -여러 대의 컴퓨터들이 연결되어 하나의 시스템처럼 동작하는 컴퓨터들의 집합 클러스터는 확장성을 가지고 있어서 work -node만 추가하면 확장을 하는 구조를 가지고 있습니다. Gateway 노드를 따로 두는데 설정파일등을 통해서 클라이언트들의 조건을 통제하것을 수행합니다. 마스터/work Architecture 철수가 사정상 프로젝트 C를 못하는상황이 생기면 해당 프로젝트를 올바르게 대처를 할수 없기에 프로젝트 별로 담당자를 한명이 아닌 두명이 담당을 하면서 백업 식으로 일 처리가 돌아가게 됩니다. 즉 철수가 없더라고 영희가 해당 프로젝트를 처리할수 있습니다. 사람이 즉 노드가 되어 한 노드가 작동을 못하더라도 다른 노드가 해결을 할수 있습니다. 정상적으로 동작을 하지 않아..

Django debug-toolbar error or Hidden - 해결 방안

2022. 7. 21. 11:06 카테고리 없음

Django 디버그 툴바를 설치 하였고 코드를 보았을때 아무 문제가 없었습니다. 서버를 돌렸을때 보이지 않아 F12로 소스를 보니 debug toolbar 는 body 안에 존재하는데 div 안에 class= djdt hidden이라고 나올겁니다. 즉 숨겨져 있다는 뜻인데요 저의 해결 방안으로는 (Just put this code into setting.py then it will help to work properly) if DEBUG: import mimetypes mimetypes.add_type("application/javascript", ".js", True) 위에 코드를 setting.py 에 넣으면 해결이 됩니다. 잘 동작이 되네요.~!

Hadoop-Overview

2022. 7. 21. 10:52 카테고리 없음

분산 파일 시스템 - HDFS(Hadoop Distrivuted File System) 리소스 관리자 -YARN(Yet Another ResourceNegotiation) 분산처리 - MapReduce Hadoop의 역사 Hadoop ecosystem -보이는것 외에도 더 있습니다. 더보기 수집을 위한 프로젝트는 plum 등이 있다. 데이터 처리는 Hive MapReduce 그리고 spark 이고 Spark 이 요즘 많이 쓰입니다. HIve는 sql를 통해서 처리한다. 대표적으로 스트림 처리 기능은 Flink 가 있다. 카프카 역시 스트림 처리 기능이 존재합니다. 분산처리 기반을 제공하는 HDFS 가 있다.

데이터파이프라인 오케스트레이션

2022. 7. 21. 10:42 ML/Hadoop & Spark

오케스트레이션이란? 여러개의 컴퓨터시스템, 애플리케이션 또는 서비스를 조율하고 관리하는것 복잡한 Task와 workflow를 쉽게 관리 할수 있도록 도와주는 역할데이터 파이프라인 예) 구축해주면 한가지 job만 하느것이 아니라 여러가지의 job을 해결해준다. 워크플로 관리 도구의 필요성 스크립트의 한계 워크플로가 복잡Task의 의존 관계가 복잡실패 시 처리 어려움(결과를 매번 확인해야하며 실패하면 처음부터 다시해야한다.) 워크플로 관리도구 기능스케쥴링Takst 의존관계 정의실행 결과 알림 및 보관실패시 재실행DAG(Directed Acyclic Graph) 방향성(Directed) 간선에 방향이 존재 (그래프에서 노드와 간선으로 이루어져있다.) 비순환(Acyclic) 사이클이 존재하지 않음 그래프의 한 ..

Hierarchical clustering 소개

2022. 7. 20. 14:22 ML/머신러닝

hierarchical clustering 계층적 군집화(Hierarchical Clustering) 개체들을 가까운 집단부터 순차적/계층적으로 차근차근 묶어 나가는 방식 유사한 개체들이 결합되는 dendogram 을 통해 시각화 가능 사전에 군집의 개수를 정하지 않아도 수행가능 모든 개체들 사이의 거리에 대한 유사도 행렬 계산 거리가 인접한 관측치끼리 cluster형성 유사도 행렬 update 학습 과정 Hierarchical Clustering 를 수행하려면 모든 개체들 간 거리(distance)나 유사도(similarity)가 이미 계산되어 있어야 합니다. 이표는 A와 D의 거리가 가까워서 cluestring 을 한다. AD군집과 가장 가까운 거리는 C라는것이라고 해서 묶어서 새로운 cluester..

데이터 파이프라인 패턴

2022. 7. 20. 10:57 ML/Hadoop & Spark

데이터 분석 외부 데이터, 내부 데이터, 로그데이터 들이 따로 존재하였습니다. 데이터웨어하우스는 대량의 데이터를 처리하고 오래동안 보관하는것에 최적화 되어있습니다. 소량의 데이터를 처리하는것에서는 효율적이지 못합니다. 정규화된 스키마 vs 스타 스키마 일반적으로 RBD는 정규화된 스키마입니다. RBD에 있는 데이터를 웨어하우스에 저장하면 비효율적입니다. 분석을 위한 쿼리로는 비효율적이다. 각각의 테이블들을 조합을 해야하기 때문입니다. 그래서 다르게 구성된 스키마가 오른쪽 같은 스타 스키마입니다. ETL 와 ELT 추출: 원본 데이터베이스 또는 데이터 소스에서 소스 데이터를 가져오는 것을 추출이라고 합니다. ETL에서는 데이터가 임시 스테이징 영역으로 들어갑니다. ELT의 경우, 데이터는 데이터 레이크 스..

데이터 파이프라인이란?

2022. 7. 20. 10:29 ML/Hadoop & Spark

파이프라인이란? 하나의 데이터 처리 단계의 출력이 다음 단계의 입력으로 이어지는 형태로 연결된 구조 Unix pipeline 데이터 파이프라인이란? 다양한 소스에서 데이터를 변환하고 옮기는 일련의 과정을 구성한 시스템 간단한 예) 요구사항에 따라 더욱 복잡하고 많은 단계로 구성될수 있다. 데이터 파이프라인 WHY : 데이터 기반 의사 결정 -비지니스 데이터 분석 리포팅 데이터 기반 애플리케이션 -머신러닝 -데이터 사이언스 Who : 데이터 팀 데이터 엔지니어 : 데이터 파이프라인 구축하고 관리하는 업무 빅데이터 처리 툴을 잘 다룰줄 아는 사람들. How: 데이터 파이프라인 예시 -1 굉장히 간단한 파이프라인의 예를 보여준다. 조금더 복잡한 예 ) 데이터소스로부터 주기적으로 Batch processing ..

티스토리툴바