NLP trends
NLP + RL
A Deep Reinforced Model for Abstractive Suumarization
ROGUE score를 올리는 행위를 reward로 설정해서 RL을 수행하는 NLP.
DCN+
mixed objective and deep residual coattention for question answering.
기존의 QA model이 Answer를 잘못 추출하는 경우가 있는데, 이를 RL로 해결.
RL loss, NLP model의 loss(cross-entropy)를 모두 적절히 사용한다.
1.