.__.
[ 교육 Day 2 ] NLP - ML_based Approach 본문
해당 글은 카이스트 스마트 에너지 인공지능 연구센터, 정유채 교수님의 강의내용을 정리한 내용입니다.
L2_ML-based Approach
1. Introduction to NLP
2. Word Embedding
3. Machine Learning & NLP
4. ML-based Document Classification
1. Introduction to NLP
1.1 NLP
- meta model for understanding the structure of language.
- NLU(NL Understanding) and NLG(NL Understanding)
2. Word Enbedding
- Local Representation (Statistical approach)
- one-hot endcoding :
- n-gram
- Count Based - Bag of words(DTM)
- Continuous Represnetation (Neural Net)
- Skip-gram model
- CBOW(continuous BoW)
- Glove
- Prediction model -> Word2Vec
One-hot Encoding
: 굉장히 simple 하지만, 굉장히 sparse하다.
Co-occurrence Matrix
: 단어의 문맥정보를 문서 대신 주변 단어로 표현
- Term-Document matrix( 단어 - 문서 행렬 )
- Term-Term matrix ( or word co-occurrence matrix, 단어 - 단어 행렬 )
Word embedding
: 단어의 차원을 축소하여 표현 = 중요한 정보만 남기고 적은 차원에서 단어를 표현
: 유사한 단어를 비슷한 dense vector로 학습하여 문맥적 의미 고려 가능
= Assumtion : 비슷한 분포를 가지는 단어는 비슷한 의미를 지닌다.
- CBOW
ex ) 에어비엔비의 Similar Listings
- 21% 유사 매물 리스트 증가
- 4.9% 매출 증가
3. Machine Learning & NLP
- ML은 labeled data로 학습을 통해 규칙이나 패턴을 발견!
- 규칙 기반 NLP : 문장을 형태소 등의 단위로 분할 & 규칙 기반으로 처리
- 통계 기반 NLP : 조건부 확률에 기반하여 단어의 분포 확률 예측
- DL 기반 NLP : 다층싱경망으로 언어의 다양한 규칙 학습 (성능 향상)
- 지도 학습 :
ex ) 스팸필터링 / 감성분석 / 뉴스 카테고리 분류
- 비지도 학습 :
ex ) tweet이 주어질 때, 주제별로 비슷한 트윗을 찾아보자
text 문서가 주어졌을 때, 유사도 측정을 해보자
- 강화 학습 : 주어진 상황에서 보상을 최대화할 수 있는 행동을 하도록 학습을 반복
ex ) 알파고, 딥블루, Atari
자연어 처리와 기계학습
: 대부분의 자연어처리 문제들은 분류문제로 해결 가능
ex ) 자동 띄어쓰기 (Automatic word spacing)
ex ) 개체명 인식( Named entity recognition)과 BIO 태깅
4. ML-based Document Classification
Document Representation
- Bag of Words
: 문서를 단어의 집합으로 간주
: 문서에 나타나는 각 단어는 feature로 간주
: 단어의 출현 빈도에 따른 가중치 부여
- Feature Selection
: 학습 문서에 출현한 용어의 부분 집합을 선택하는 것
: 사전의 크기를 줄여서 학습에 더 효율적인 분류기를 만드는 것
: Noise feature를 제거하여 분류의 정확도를 높인다.
: WordNet 등 어휘 리소스를 활용하여 동의어, 상위어로 단어를 확장한다.
- 목적
: 대량의 문서를 자동 분류하여 정보 추출 및 insight 획득