NLP

Language model Benchmark 간단 정리

Language modeling Seq2Seq task다. 주어진 문맥을 활용해 다음 단어를 예측하는 task. ![](/assets/images/Language model Benchmark 간단 정리/c4574267-c36a-47a2-8735-213136b0523f-image.png) 특정 시점의 문장에 대한 다음 단어가 나타날 확률을 예측하는 task로도 생각할 수 있다. RNNs ![](/assets/images/Language model Benchmark 간단 정리/eade94db-783b-4d14-97ce-ba671fdb5f24-image.png) Sequence의 순서대로 model에 sequence를 입력한다. 이전 hidden
Sungho Park

Recent trends of NLP

Question Anwering ![](/assets/images/Recent trends of NLP/51679e9c-0eec-4d8b-8950-8b3963c8574a-image.png) BERT, GPT와 같은 self-supervised learning의 가장 큰 수혜자라고 할 수 있는 영역이다. * Question과 context가 주어진다. * context는 문맥이라고 이해하면 되는데 사용되는 분야마다 의미가 조금씩 달라진다고 한다. * Multiple-choice: Question에 대한 답의 후보군을 여러 개 주고, 그 중 답을 고르게 한다. * Span-based: Question에
Sungho Park

Advanced Self-supervised Pre-training model

GPT-2 GPT-1과 기본적인 구조는 같다. * Transformer layer를 보다 더 많이 쌓았다. * 다음 단어를 예측하는 task로 학습을 진행. * 더 많은 학습 데이터 사용 * 보다 양질의 데이터 사용 * zero-shot setting으로 다뤄질 수 있는 잠재적인 능력을 보여줬다 ref: zero shot learning 한 번도 보지 못한 데이터를 분류 가능하도록 학습하는 것. ![](/assets/images/Advanced
Sungho Park

Self-supervised Pre-training models

Recent trends * transformer, self-attention은 기계번역 외의 분야에서도 쓰이고 있다! * transformer 논문에서 제시된 것처럼 6개의 transformer를 쌓지 않고 12개, 24개 혹은 그 이상으로 쌓는 것만으로도 성능 향상이 있는 것이 실험적으로 밝혀졌다. 특별한 기본 모델의 구조 변경 또한 없다! 이러한 모델을 위한 대용량 데이터를 학습하기 위해 Self-supervised learning framework를 사용한다. e.g.
Sungho Park

Transformer 도입

'Attention is all you need'(2017) 논문 이전의 attention은 LSTM, GRU에 add-on처럼 쓰일 뿐이었다. 해당 논문에서는 기존의 RNN 모델을 걷어내고 attention을 사용한 새로운 Seq2Seq 모델을 제시했다. 기존의 RNN ![](/assets/images/Transformer 도입/6db7e06a-32fe-4da2-9829-fe67bf7b4796-image.png) Sequence를 token 단위로 매 step마다 입력으로 받는다. step마다 hidden state를 encoding하여 hidden state를 출력한다.
Sungho Park