Written by
LSM
on
on
TIL:나이브 베이즈
나이브 베이즈 알고리즘
- 문서를 통계적 기법을 이용해 분류하는 알고리즘
- 베이즈 정리를 이용해 분류하고자 하는 대상의 각 분류 별 확률 측정
- 분류의 확률 중 큰 쪽으로 확률 분류
- 단어 분류가 독립적이라는 가정
베이즈 정리
- 분류1에 속할 확률 : p1(x, y)
- 분류2에 속할 확률 : p2(x, y)
- p1(x, y) > p2(x, y) ==> 분류1
- p1(x, y) < p2(x, y) ==> 분류2
Laplace smoothing
- 빈도 수를 기반으로 분류하기 때문에 학습 시 없던 단어가 나오면 확률이 0이 됨
- 본 기법은 없던 단어가 나와도 빈도수에 +1을 해줘 확률이 0이 되는 것을 방지