.__.

[ 교육 Day 2 ] NLP - ML_based Approach 본문

자연어처리/KAIST스마트인공지능연구센터 NLP 교육

[ 교육 Day 2 ] NLP - ML_based Approach

yesjiyoung 2021. 1. 27. 03:07

해당 글은 카이스트 스마트 에너지 인공지능 연구센터, 정유채 교수님의 강의내용을 정리한 내용입니다. 

L2_ML-based Approach 

1. Introduction to NLP

2. Word Embedding

3. Machine Learning & NLP

4. ML-based Document Classification

1. Introduction to NLP

1.1 NLP

- meta model for understanding the structure of language.

- NLU(NL Understanding) and NLG(NL Understanding) 

 

2. Word Enbedding

- Local Representation (Statistical approach)

  • one-hot endcoding : 
  • n-gram
  • Count Based - Bag of words(DTM)

- Continuous Represnetation (Neural Net)

  • Skip-gram model
  • CBOW(continuous BoW)
  • Glove
  • Prediction model -> Word2Vec

One-hot Encoding

: 굉장히 simple 하지만, 굉장히 sparse하다.

Co-occurrence Matrix

: 단어의 문맥정보를 문서 대신 주변 단어로 표현

  1. Term-Document matrix( 단어 - 문서 행렬 )
  2. Term-Term matrix ( or word co-occurrence matrix, 단어 - 단어 행렬 )

Word embedding 

: 단어의 차원을 축소하여 표현 = 중요한 정보만 남기고 적은 차원에서 단어를 표현

: 유사한 단어를 비슷한 dense vector로 학습하여 문맥적 의미 고려 가능

= Assumtion : 비슷한 분포를 가지는 단어는 비슷한 의미를 지닌다.

 

카이스트, 자연어 처리 및 BERT 실습 강의, 강의자료 L2,24p,정유채 교수님 

- CBOW 

 

- Skip-gram 

 

- Word2vex을 추천에 이용한다면?

ex ) 에어비엔비의 Similar Listings 

      - 21% 유사 매물 리스트 증가

      - 4.9% 매출 증가

 

에어비엔비, 특정 매물 text를 분석하여, 유사한 매물(context)를 찾아 listing함 

 

3. Machine Learning & NLP 

- ML은 labeled data로 학습을 통해 규칙이나 패턴을 발견!

 

- 규칙 기반 NLP : 문장을 형태소 등의 단위로 분할 & 규칙 기반으로 처리

- 통계 기반 NLP : 조건부 확률에 기반하여 단어의 분포 확률 예측

-  DL  기반 NLP : 다층싱경망으로 언어의 다양한 규칙 학습 (성능 향상)

 

- 지도 학습 :

ex ) 스팸필터링 / 감성분석 / 뉴스 카테고리 분류

- 비지도 학습 : 

ex ) tweet이 주어질 때, 주제별로 비슷한 트윗을 찾아보자  

      text 문서가 주어졌을 때, 유사도 측정을 해보자

- 강화 학습 : 주어진 상황에서 보상을 최대화할 수 있는 행동을 하도록 학습을 반복 

ex ) 알파고, 딥블루, Atari

 

자연어 처리와 기계학습

: 대부분의 자연어처리 문제들은 분류문제로 해결 가능 

ex ) 자동 띄어쓰기 (Automatic word spacing)

 

 

ex ) 개체명 인식( Named entity recognition)과 BIO 태깅 

카이스트, 자연어 처리 및 BERT 실습 강의, 강의자료 L2,67p,정유채 교수님

 

4. ML-based Document Classification

Document Representation

- Bag of Words

: 문서를 단어의 집합으로 간주

: 문서에 나타나는 각 단어는 feature로 간주 

: 단어의 출현 빈도에 따른 가중치 부여

 

- Feature Selection

: 학습 문서에  출현한 용어의 부분 집합을 선택하는 것

: 사전의 크기를 줄여서 학습에 더 효율적인 분류기를 만드는 것 

: Noise feature를 제거하여 분류의 정확도를 높인다.

: WordNet 등 어휘 리소스를 활용하여 동의어, 상위어로 단어를 확장한다.

 

- 목적 

: 대량의 문서를 자동 분류하여 정보 추출 및 insight 획득