머신러닝 - logistic classificaction

던킨 2022. 6. 20. 14:54

2022. 6. 20. 14:54

728x90

logistic classification - Classification 알고리즘 중에서도 가장 정확도가 높은 알고리즘으로 알려져있습니다.

그중에서도 Binary Classification 으로 둘중에 무엇에 속하는지를 판별하는 알고리즘으로 생각할수있다.

대표적인 예시로 받은 이메일이 스팸인지 아닌지 판별이 필요하다. 또한 페이스북에서 나의 친구들의 모든 타임라인을 보여주는것이 아닌, 내가 좋아요 혹은 특정정보를 Follow 하여 생긴 것들을 판별하여 나의 피드에 띄어주는 학습 그리고 이때 쓰이는것이 encoing 할때 0 과 1이 사용된다.

Binary Classfication 으로 값을 구할떄 linear regression 으로 구할수도있다. 단 단점이 너무 극명해진다.

0~ 1 사이에 0.5를 기준으로 pass or fail 을 주는 알고리즘으로 생각해보자.

2시간 공부해서 패스한 사람과 4시간 공부해서 패스한사람이 있고 0.5로 나누었을대 둘다 예를 들어 패스라고 가정하고 다른 학생이 50시간 공부해서 패스했다고 치면 평균의 값이 0.5가 아닌 1로 되어버려 학습이 되어버리고 2시간 혹은 4시간 공부한 사람들은 패스를해도 학습을 통한 머신은 불합격처리를 해줄수있다.

이러한 문제 점 때문에 sigmoid 함수를 이용하여 linear Regression 값을 사용하여 logistic Hypothesis 가 탄생하게 된다.

(Linear Regression 형태의 식이 간단하고 좋지만 0 과 1 사이로 함축해주는 것이 z 축을 넣으면 좋을 거 같다 해서 나온 함수: 0~1가 나오는 함수 ( numpy에서 np.exp(-z) 로 쉽게 계산이 가능하다. )

728x90

'ML > 머신러닝' 카테고리의 다른 글

Hierarchical clustering 소개 (0)	2022.07.20
머신 러닝 - cost Function (0)	2022.06.20
머신러닝 Minimize cost (0)	2022.06.20
머신 러닝 - 기본 용어 및 개념 (0)	2022.06.16

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

개발자 던킨