빅데이터 플랫폼 이해하기 -2
2022. 7. 20. 10:16
ML/Hadoop & Spark
Data Storage Data Warehouse -정형화된 데이터가 들어가있고 서로 다른 시스템에 모델링이 되어있는것이고 리포팅이나 분석쿼리에 최적화 되어있습니다. 요즘은 클라우드 기반의 웨어하우스 서비스 를 많이 사용합니다. Google BigQuery - 빅쿼리는 데이터를 복제해서 저장해서 안전하다. Amazon REDSHIFT - 테이블 계산 효율을 위한 snowflake -정형 혹은 비정형 데이터를 제공하는곳 aws 나 에저에 구동이 됩니다. Data Lake 아마존이나 다른 클라우드들을 사용한다. 요즘은 데이터레이크 하우스라고도 부른다. Data Analytics and Prediction 실시간 분석을 지원하기 위해서 다양한 것들이 있다. 데이터 분석을 가능하게 해주는 interactive ..
빅데이터 플랫폼 이해하기
2022. 7. 20. 09:52
ML/Hadoop & Spark
빅데이터 플랫폼이란? 플랫폼의 정의 오늘날 굉장히 다양한 것들을 말합니다. 많은 사람들이 쉽게 이용할수 있고 다양한 목적의 비지니스가 이루어지는 공간 플랫폼은 프랑스 어원에서 나왔습니다. 플랫폼을 떠올리면 기차역을 쉽게 말할수 있습니다. 하드웨어 플랫폼이란 - 동일한 제품을 일정한 품질로 만드는 프로세스와 그 제품을 만드는 장치 소프트웨어 실행할수 있는 기반이나 환경 Java Platform -JVM -OS -Hardware 서비스플랫폼 서비스 제공자의 서비스를 다른 서비스들이 쉬벡 사용할 수 있게 해주는 환경 예) 앱스토어 플랫폼이 있습니다. 빅데이터 플랫폼 Big data + Platform 합성어입니다. - 기업내에 많은 사용자들이 데이터를 처리하고 분석을 쉽게 할수 있는 환경을 제공해주는 시스템 ..
Overview
2022. 7. 20. 09:13
ML/Hadoop & Spark
빅데이터의 정의 기존의 데이터 처리 응용소프르웨어로는 수집 저장 분석 처리하기 어려울 정도로 방대한 양의 데이터 데이터로 부터 가치를 추출하고 결과를 분석하는 기술 빅데이터의 3대 요소 Volume - 데이터의 양 / 빅데이터에서는 테라바이트나 페타바이트를 말한다. Velocity - 빠른 시간에 저장, 수집 처리 분석까지 이루어지는것 Variety - 다양한 소스로 부터 다양한 형식을 처리할수 있는것. 요즘에는 3V가 아닌 5V 까지 말한다. 왜 빅데이터가 필요할까요? -빠르고 더 나은 의사 결정 지원 새로운 전략과 제품구축 고객에 관한 통찰력 향상 가까운 미래를 예측하고 새로운 기회 창출 데이터 활요 사례 페이스북 -> 소셜 네트워킹 분석 및 광고 최적화 아마존 -> 고객 제품 추천 넷플릭스 -> 컨..
numpy -인덱싱 / 슬라이싱
2022. 6. 21. 17:24
Language/python
2차원 인덱싱입니다. 23번째 보시면 0번째안에 배열2를 가져오면 1행의 3열을 가져옵니다. 3차원 인덱싱입니다. 1차원 벡터 슬라이싱 2차원 벡터 슬라이싱 위 그림을 보시면 차원이 줄어드는것을 보실수있습니다. x[0,:2]형태는 똑같아 보이지만 행렬이 아닌 벡터인것이다. 3차원 벡터 슬라이싱
numpy - ndarray 데이터 형태 바꿔보기
2022. 6. 21. 17:07
Language/python
ravel,np.ravel : 다차원배열을 1차원으로 변경 'order'파라미터 -'C' - row 우선 변경 'F' - column 우선변경 Flatten 다차원 배열을 1차원으로 변경 ravel 과의 차이점: copy 를 생성하여 변경함(즉 원본 데이터가 아닌 복사본을 반환) 'order'파라미터 'c' -row 우선 변경 'F'-column 우선변경 내부적으로 변경이냐아니냐 이고 데이터에 변경되는게 중요하지 않으면 아무거나 쓰고 중요하면 flatten 을 사용해서 복사본을 사용하자! ravel 에는 중요한 함수가 있습니다. order! order 라고 하는 값은 C값이다. 다시 한번 호출된걸 보자 이해가 가시나요? 행과 열의 기준으로 값을 나타냅니다. reshape 함수 array 의 shape 을..
numpy- 기초
2022. 6. 21. 16:45
Language/python
numpy 를 사용하는 이유 - 성능 : 파이썬는 기본 리스트보다 빠름 - 메모리 사이즈: 파이썬 리스트보다 적은 메모리 사용( 더 많은 데이터를 넣어서 많이 로딩할수있어서) - 빌트인 함수: 선형대수, 통계관련 여러 함수 내장 ndarray - C언어가 기본으로 되어있다. 생성 당시에 연속적인 메모리에 잡히게된다. vectorization 라고 ndarray 를 한덩어리생각하고 연산하기 때문에 중요하다 . Vectorization 개념이 정말 중요하다. numpy 를 이용해서 1~100까지 array 를 한덩이라 생각해서 한번에 연산을 하게 하는것이다. matplotlib 은 주피터안에서 간단하게 그래프를 그려준다. ndarry 데이터 생성하기 (random 서브모듈) seed 함수 - 랜덤한 값을 동..
머신 러닝 - cost Function
2022. 6. 20. 15:04
ML/머신러닝
Cost function 은 예측값과 실제 결과 값의 차이를 나타내는 함수입니다. 예측을 하는 데이터를 바꾸면서 실제 결과 값과 차이를 그래프로 나타내어 최소화 된 값을 구한는것이 cost function입니다. Cost function 을 이용하여 Logistic Regression 에 해당하는 그래프를 그리면 아래와 같이 U 자 가 아닌 굴곡이 가득한 그래프가 보일것이다. Gredient descent algorithm 을 통해 최소값을 구하는데 굴곡점에서 컴퓨터는 최소화된 값이라 생각하여 학습을 멈추게 될것입니다. 따라서 가설을 바꾸어 cost function 도 New cost function for logistic 이 생겨났습니다. cost function 은 데이터에 대한 평균을 나태내는데 c..
머신러닝 - logistic classificaction
2022. 6. 20. 14:54
ML/머신러닝
logistic classification - Classification 알고리즘 중에서도 가장 정확도가 높은 알고리즘으로 알려져있습니다. 그중에서도 Binary Classification 으로 둘중에 무엇에 속하는지를 판별하는 알고리즘으로 생각할수있다. 대표적인 예시로 받은 이메일이 스팸인지 아닌지 판별이 필요하다. 또한 페이스북에서 나의 친구들의 모든 타임라인을 보여주는것이 아닌, 내가 좋아요 혹은 특정정보를 Follow 하여 생긴 것들을 판별하여 나의 피드에 띄어주는 학습 그리고 이때 쓰이는것이 encoing 할때 0 과 1이 사용된다. Binary Classfication 으로 값을 구할떄 linear regression 으로 구할수도있다. 단 단점이 너무 극명해진다. 0~ 1 사이에 0.5를 기..
머신러닝 Minimize cost
2022. 6. 20. 14:43
ML/머신러닝
Cost Function 앞서 배운것 linear Regression 의 목표는 우리가 가지고 있는 W,b를 가지고 cost minimize 하는것이다. 간단한 hypothesis 를 만드는 식을보자 그러다면 cost(W) 는 어떻게 보일까? Gradient descent algorithm 수식: 최소화 하는데 있어서 가장 많이 쓰이는 알고리즘이다. 주어진 cost function 에 minimize 를 사용한다. 아무지점이나 시작할수 있다. W가 0일때 시작할수도 있다. W를 조금 바꾸면서 cost 를 줄일수있다. 그 과정을 반복하는것이다. 어떠한 점에서 시작하는 간에 최저점에 도달할수있는 과정이다. Convex function : cost(w,b) 식으로 쓴다면 어느 시점에 시작을 하더라도 항상 답을..
머신 러닝 - Linear Regression 선형 회귀
2022. 6. 16. 18:40
카테고리 없음
Linear Regression - 사람들이 생각할때 되게 정해져있는 답들이 있습니다. 예를 들어서 운동을 하면 건강해지고 살이 빠집니다, 하지만 운동 강도와 시간대비의 살 빠지는것 에 대한 값은 추측은할수있지만 데이터가 없어서 정확한 값을 추출하기 힘듭니다. 또한 집 평수 대비 집 매매 가격이 비싸지는 경향이 있습니다. 이부분을 수학적인 표현을 써서 변수의 값에 따라서 특정 변수의 값을 가져올수있습니다. 조금 더 수학적인 표현을 써보면 어떤 변수의 값에 따라서 특정 변수의 값이 영향을 받고 있다고 볼 수 있습니다. 다른 변수의 값을 변하게하는 변수를 x, 변수 x에 의해서 값이 종속적으로 변하는 변수 y라고 해봅시다. 이때 변수 x의 값은 독립적으로 변할 수 있는 것에 반해, y값은 계속해서 x의 값에..