Linear Regression - 사람들이 생각할때 되게 정해져있는 답들이 있습니다. 예를 들어서 운동을 하면 건강해지고 살이 빠집니다, 하지만 운동 강도와 시간대비의 살 빠지는것 에 대한 값은 추측은할수있지만 데이터가 없어서 정확한 값을 추출하기 힘듭니다. 또한 집 평수 대비 집 매매 가격이 비싸지는 경향이 있습니다.
이부분을 수학적인 표현을 써서 변수의 값에 따라서 특정 변수의 값을 가져올수있습니다.
조금 더 수학적인 표현을 써보면 어떤 변수의 값에 따라서 특정 변수의 값이 영향을 받고 있다고 볼 수 있습니다. 다른 변수의 값을 변하게하는 변수를 x, 변수 x에 의해서 값이 종속적으로 변하는 변수 y라고 해봅시다.
이때 변수 x의 값은 독립적으로 변할 수 있는 것에 반해, y값은 계속해서 x의 값에 의해서, 종속적으로 결정되므로 x를 독립 변수, y를 종속 변수라고도 합니다. 선형 회귀는 한 개 이상의 독립 변수 x와 y의 선형 관계를 모델링합니다. 만약, 독립 변수 x가 1개라면 단순 선형 회귀라고 합니다.
단순 선형 회귀 분석
y=Wx+b
위의 수식은 단순 선형 회귀의 수식을 보여줍니다.
여기서 독립 변수 와 곱해지는 값 를 머신 러닝에서는 가중치(weight),
별도로 더해지는 값 b를 편향(bias)이라고 합니다. 직선의 방정식에서는
각각 직선의 기울기와 절편을 의미합니다. w와 b가 없이 y와 x란 수식은 y는 x와 같다는 하나의 식밖에 표현하지 못합니다.
그래프 상으로 말하면 하나의 직선밖에 표현하지 못합니다.
선형 회귀란
데이터를 가장 잘 대변하는 직선의 방정식을 찾는것으로 요약할수 있다.
그림에 나와있는 빨간색 점 전체를 가장 잘 대변하는 직선을 그슨다면, 이 직선은 파란색 모습이 된다.
이것이 선형 회귀의 핵심이다.
2) 다중 선형 회귀 (Multiple Linear Regression)
독립 변수를 여러 개로 확장한 것이 다중 선형 회귀이다
세계의 거의 대부분의 문제는 여러 개의 독립 변수를 포함하며, 선형 회귀라 함은 보통 다중 선형 회귀를 일컫는다. 하지만 이러한 경우에도 여전히 응답 변수 y는 한 개의 스칼라 변수이다. 다변량 선형 회귀는 응답 변수 y가 벡터인 경우를 의미한다. 이러한 경우를 일반 선형 회귀라 부른다.
Hypothesis (가설)
단순 선형 회귀를 가지고 문제를 풀어봅니다.
단순한 선을 가지고 어떠한것이 이 데이터에 잘맞는것인가를 가지고 학습을 하는것입니다.
수학적으로 나타내면 식은 H(x) =Wx+b 나타냅니다
가설의 첫번째 단계로 linear로 나타냅니다.
저 3가지 선중에서 어떠한 선이 가장 잘맞는선인지 which hypothesis is better?
실제 데이터와 가상 데이터를 거리를 비교해서 좋은지 나쁜지 계산하는것을 cost function 이라 부른다.
cost function 가장 작은값을 가지는것을 목표로 한다.