NLP

BLEU

일반적인 precision이나 recall을 계산하면 Seq2Seq에서는 모든 지표가 0에 가까울 것이다. 왜냐하면 step별로 비교하면 대부분 일치하지 않을 확률이 매우 높기 때문이다. 즉, 아래처럼 굉장히 유사한 문장의 지표가 0에 가깝게 나올 수도 있다. 그래서 이러한 맥락을 지표에 반영할 필요가 있다. Precision, Recall ** Precision(정밀도) ** * 예측한 결과에 대해서 corrected words가 몇개인지 나타낸다. * 예측한
Sungho Park

Beam search

Greedy decoding 이전 포스팅의 attention이나 LSTM들은 특정 step에서 다음 단어를 예측할 때, 가장 확률이 높은 하나의 단어를 선택한다. 이러한 방법을 greedy decoding이라고 한다. 전체적인 맥락에서 예측하는 것이 아니라 근시안적으로 가장 좋은 방법을 택하기 때문이다. 예를 들면 아래와 같다. input: {어려운 프랑스어}, answer: he hit me with a pie 이러한 상황에서
Sungho Park

Word Embedding

Word Embedding 문장의 단어들을 벡터 공간 상의 점으로 표현하기 위해, 단어들을 벡터로 변환하는 방법. Word Embedding 자체가 딥러닝, 머신러닝 기술이다. 학습 데이터, 사전에 정의한 벡터 공간의 차원 수를 통해 학습을 진행한다. 학습이 완료되면 학습 데이터, 즉 특정 단어에 대한 최적의 벡터를 출력해준다. Word Embedding의 기본 아이디어 비슷한 의미를 가지는 단어들이
Sungho Park