sunghogigio

Sign in Subscribe

NLP

NLP trends

NLP + RL A Deep Reinforced Model for Abstractive Suumarization ROGUE score를 올리는 행위를 reward로 설정해서 RL을 수행하는 NLP. DCN+ mixed objective and deep residual coattention for question answering. 기존의 QA model이 Answer를 잘못 추출하는 경우가 있는데, 이를 RL로 해결. RL loss, NLP model의 loss(cross-entropy)를 모두 적절히 사용한다. 1.

최신 모델

XLNet 기존의 모델들의 문제점 * BERT * [MASK] 토큰을 독립적으로 예측하기 때문에 Token 사이의 관계 학습이 불가능 * Embedding length의 한계로 Segment간 관계 학습 불가능 * GPT * 단일 방향성으로만 학습 이러한 한계를 극복하고자 XLNet이 등장한다. Relative positional encoding 512 token으로만 학습하는 한계를 벗어나기 위해 도입. 기존의 positional encoding(Ref)을 relative하게 한다고 한다. ![](/assets/

문장 토큰 분류

모델 ![](/assets/images/문장 토큰 분류/604bc451-9007-4544-8e84-40a229e90656-image.png) 주어진 문장의 각 token들이 어떤 범주에 속하는 분류하는 task. classifier가 token마다 붙게된다. NER Named Entity Recognition. 문맥을 통해 문서에서 인명, 기관명 같은 특정 의미를 가진 단어 / 어구 / 개체를 인식하는 과정. 같은 단어라도 다양한 Entity로 인식될 수 있기 때문에 문맥을 파악하는 것이 중요하다.

KLUE 의존 구문 분석, 단일문장 분류

의존 구문 분석 ![](/assets/images/KLUE 의존 구문 분석, 단일문장 분류/2f3d6ea6-828b-4bdc-ad3e-4aafd0f00625-image.png) * 지배소: 의미의 중심 * 의존소: 지배소가 갖는 의미를 보완(수식) * 어순과 생략이 자유로운 한국어같은 언어에서 주로 연구 규칙 * 지배소는 후위언어 * 지배소는 항상 의존소보다 뒤에 위치 * 각 의존소와 지배소는 한 개씩 존재한다. * 교차 의존 구조는 없다. * 중첩은 된다. 즉,

BERT 두 문장 관계 분류 task

두 문장 관계 분류 task 주어진 2개의 문장에 대해, 두 문장의 자연어 추론과 의미론적인 유사성을 측정하는 task. ![](/assets/images/BERT 두 문장 관계 분류 task/9f79eea6-6b03-4120-bd92-3aea6143f05f-image.png) 문장 분류와 유사하게 CLS token에 대한 classifier로 분류를 한다. 다른 점은 두 문장이 SEP token을 통해 함께 모델에 입력된다는 점이다. NLI Natural language

Training BERT

Process 1. Create Tokenizer 2. Make Dataset 3. NSP(Next Sentence Prediction) 4. Masking Training 앞서 배웠던 내용이랑 조금 상반되는 내용이라 일단 적어본다. 도메인 특화 task에서는 Pretrained model을 fine-tuning하는 것보다, 도메인 특화 데이터만 사용해 새롭게 학습하(scratch)는 것이 더 성능이 좋다. ![](/assets/images/Training BERT/54e501c8-a585-4e61-b0dd-0f09f295c423-image.png) ref: https:

BERT 응용

주재걸 교수님 강의에서 길게 풀어썻던 내용들이다. 스마게 김성현 강사님의 수업과 함께 BERT 모델을 다시 요약해보자. Introduction ![](/assets/images/BERT 응용/c3c6d777-d94f-4750-b8d6-c0a23993c127-image.png) Language model은 위와 같은 순서로 발전했다. 초기에는 Encoder와 Decoder를 분리해 각각 RNN으로 개발했다. Seq2Seq에 Attention을 도입해서 Decoder 시의 성능을 높이고, transformer에서는 이를 하나로 결합했다. ** Image AutoEncoder ** ![](/assets/images/