Written by
LSM
on
on
nlp:NER
NER?
- 개체명 : 사람 이름, 회사 이름, 지명, 영화 제목, 날짜, 시간 등을 의미
- 개체명 인식 : 텍스트에서 개체명을 찾아 해당하는 의미의 범주를 결정하는 것
개체명 인식이 어려운 이유?
- 품사로는 고유명사/미등록 언어인 경우가 많음
- 같은 단어라도 문장에 따라 상의한 의미를 나타냄
- 대부분의 개체는 2개 이상의 고유명사/일반명사와 결합 형태 (경계 인식이 어려움)
개체명 인식기 학습 및 분석 절차
( 참조 url : http://www.saltlux.com/bigdata/lea.do?menuNumber=1)
- 훈련 데이터 준비
- 문서 수집
- 대상 문서 분류
- 개체명 태깅(수작업)
- 학습 데이터 생성
- 학습 모델 생성
- 학습 데이터 분석
- 형태소 분석
- 특성 추출
- 학습 모델 생성
- 학습 모델 적용
- 분석 문서 전처리
- 형태소 분석
- 특성 추출
- 개체명 태깅
- 개체 인식
- 학습 모델 기반 확률 계산
개체명 인식 지원 패키지
- nltk
- konlpy (Twitter)
- mecab
etc.
도메인/목적에 특화되도록 개체명 인식을 정확히 하는 방법
(url : https://wikidocs.net/34156)
- Bi-LSTM
- Bi-LSTM + CRF
해야할 것들
형태소
- word2vec
- 단어 임베딩
- 문자 임베딩
음절
참고하기 좋은 논문
- 한국어 특질을 고려한 단어 벡터의 Bi-LSTM 기반 개체명 모델 적용 : http://semanticweb.kaist.ac.kr/home/images/e/ea/%ED%95%9C%EA%B5%AD%EC%96%B4%ED%8A%B9%EC%A7%88%EC%9D%84%EA%B3%A0%EB%A0%A4%ED%95%9C_%EB%8B%A8%EC%96%B4%EB%B2%A1%ED%84%B0%EC%9D%98_Bi-LSTM%EA%B8%B0%EB%B0%98%EA%B0%9C%EC%B2%B4%EB%AA%85%EB%AA%A8%EB%8D%B8_%EC%A0%81%EC%9A%A9.pdf