[ 교육 Day 2 ] NLP - ML

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

.__.

[ 교육 Day 2 ] NLP - ML_based Approach 본문

자연어처리/KAIST스마트인공지능연구센터 NLP 교육

[ 교육 Day 2 ] NLP - ML_based Approach

yesjiyoung 2021. 1. 27. 03:07

해당 글은 카이스트 스마트 에너지 인공지능 연구센터, 정유채 교수님의 강의내용을 정리한 내용입니다.

L2_ML-based Approach

1. Introduction to NLP

2. Word Embedding

3. Machine Learning & NLP

4. ML-based Document Classification

1. Introduction to NLP

1.1 NLP

- meta model for understanding the structure of language.

- NLU(NL Understanding) and NLG(NL Understanding)

2. Word Enbedding

- Local Representation (Statistical approach)

one-hot endcoding :
n-gram
Count Based - Bag of words(DTM)

- Continuous Represnetation (Neural Net)

Skip-gram model
CBOW(continuous BoW)
Glove
Prediction model -> Word2Vec

One-hot Encoding

: 굉장히 simple 하지만, 굉장히 sparse하다.

Co-occurrence Matrix

: 단어의 문맥정보를 문서 대신 주변 단어로 표현

Term-Document matrix( 단어 - 문서 행렬 )
Term-Term matrix ( or word co-occurrence matrix, 단어 - 단어 행렬 )

Word embedding

: 단어의 차원을 축소하여 표현 = 중요한 정보만 남기고 적은 차원에서 단어를 표현

: 유사한 단어를 비슷한 dense vector로 학습하여 문맥적 의미 고려 가능

= Assumtion : 비슷한 분포를 가지는 단어는 비슷한 의미를 지닌다.

카이스트, 자연어 처리 및 BERT 실습 강의, 강의자료 L2,24p,정유채 교수님

- CBOW

- Skip-gram

- Word2vex을 추천에 이용한다면?

ex ) 에어비엔비의 Similar Listings

- 21% 유사 매물 리스트 증가

- 4.9% 매출 증가

에어비엔비, 특정 매물 text를 분석하여, 유사한 매물(context)를 찾아 listing함

3. Machine Learning & NLP

- ML은 labeled data로 학습을 통해 규칙이나 패턴을 발견!

- 규칙 기반 NLP : 문장을 형태소 등의 단위로 분할 & 규칙 기반으로 처리

- 통계 기반 NLP : 조건부 확률에 기반하여 단어의 분포 확률 예측

- DL 기반 NLP : 다층싱경망으로 언어의 다양한 규칙 학습 (성능 향상)

- 지도 학습 :

ex ) 스팸필터링 / 감성분석 / 뉴스 카테고리 분류

- 비지도 학습 :

ex ) tweet이 주어질 때, 주제별로 비슷한 트윗을 찾아보자

text 문서가 주어졌을 때, 유사도 측정을 해보자

- 강화 학습 : 주어진 상황에서 보상을 최대화할 수 있는 행동을 하도록 학습을 반복

ex ) 알파고, 딥블루, Atari

자연어 처리와 기계학습

: 대부분의 자연어처리 문제들은 분류문제로 해결 가능

ex ) 자동 띄어쓰기 (Automatic word spacing)

ex ) 개체명 인식( Named entity recognition)과 BIO 태깅

카이스트, 자연어 처리 및 BERT 실습 강의, 강의자료 L2,67p,정유채 교수님

4. ML-based Document Classification

Document Representation

- Bag of Words

: 문서를 단어의 집합으로 간주

: 문서에 나타나는 각 단어는 feature로 간주

: 단어의 출현 빈도에 따른 가중치 부여

- Feature Selection

: 학습 문서에 출현한 용어의 부분 집합을 선택하는 것

: 사전의 크기를 줄여서 학습에 더 효율적인 분류기를 만드는 것

: Noise feature를 제거하여 분류의 정확도를 높인다.

: WordNet 등 어휘 리소스를 활용하여 동의어, 상위어로 단어를 확장한다.

- 목적

: 대량의 문서를 자동 분류하여 정보 추출 및 insight 획득

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

.__.

.__.

[ 교육 Day 2 ] NLP - ML_based Approach 본문

[ 교육 Day 2 ] NLP - ML_based Approach

L2_ML-based Approach

1. Introduction to NLP

1.1 NLP

2. Word Enbedding

One-hot Encoding

Co-occurrence Matrix

Word embedding

3. Machine Learning & NLP

4. ML-based Document Classification

Document Representation

- Bag of Words

- Feature Selection

- 목적

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역