sunghogigio

Sign in Subscribe

Latest

부스트캠프 AI Tech 2기 6주차 학습정리

6주차 학습정리 강의 복습 내용 NLP (1~9번 포스팅) https://velog.io/@naem1023/series/NLP 과제 수행 과정 / 결과물 정리 bucketing ![](/assets/images/부스트캠프 AI Tech 2기 6주차 학습정리/89d8a5d1-3a51-4a52-8c89-fd8cfa8a7fcb-image.png) 데이터의 길이에 따라서 batch를 재구성하는 기법이다. 과제 4에서 나왔는데 기법 자체에 대한 이해는 쉬웠지만, 코드에 대한 이해가 매우 어려웠다.

BLEU

일반적인 precision이나 recall을 계산하면 Seq2Seq에서는 모든 지표가 0에 가까울 것이다. 왜냐하면 step별로 비교하면 대부분 일치하지 않을 확률이 매우 높기 때문이다. 즉, 아래처럼 굉장히 유사한 문장의 지표가 0에 가깝게 나올 수도 있다. 그래서 이러한 맥락을 지표에 반영할 필요가 있다. Precision, Recall ** Precision(정밀도) ** * 예측한 결과에 대해서 corrected words가 몇개인지 나타낸다. * 예측한

Beam search

Greedy decoding 이전 포스팅의 attention이나 LSTM들은 특정 step에서 다음 단어를 예측할 때, 가장 확률이 높은 하나의 단어를 선택한다. 이러한 방법을 greedy decoding이라고 한다. 전체적인 맥락에서 예측하는 것이 아니라 근시안적으로 가장 좋은 방법을 택하기 때문이다. 예를 들면 아래와 같다. input: {어려운 프랑스어}, answer: he hit me with a pie 이러한 상황에서

Attention

Seq2Seq with attention Seq2Seq with LSTM Seq2Seq는 RNN의 구조 중 many to many에 해당한다. 즉, 입출력 모두 sequenece인 word 단위의 문장. 위 그림은 Dialog system(e.g., chat bot)이다. 입력 문장을 받아들이는 부분이 encoder, 출력 문장을 생성하는 부분이 decoder다. 채택한 RNN 모델은 LSTM이다. Encoder의 가장 마지막 단에서 출력된 hidden

LSTM, GRU

LSTM Long short-term memory. RNN이 가진 Long term dependency를 해결한 모델. 먼 time step의 정보를 잘 전달하기 위해 만들어졌다. hidden state를 마치 단기 기억 소자처럼 보고, 단기 기억 소자가 보다 긴 시간 동안 생존할 수 있도록 고안했기 때문에 붙여진 이름이라고 한다. 기존 RNN $h_t=f_w(x_t, h_

RNNs

RNN sequence data가 입출력으로 주어진 상태에서 t에서의 입력 $x_t$와 이전 hidden state인 $h_{t-1}$을 입력으로 받고 $h_t$를 출력하는 네트워크. 중요한 것은 매 time stamp마다 새로운 model이 등장하는 것이 아니라, 하나의 parameter set인 A가 모든 time stamp에 걸쳐서 사용된다. 왼쪽처럼 압축해서 표현한 것을 rolled diagram, 왼쪽처럼

pathlib

pathlib ref: https://brownbears.tistory.com/415 그 동안 os.path.join이나 os.sep을 사용해서 일일히 경로 연산을 했다. 문제는 없지만 매우 귀찮고 번거럽고 코드도 더러워지면서 관리도 힘들다. 다행히도 python built in으로 pathlib라는 것을 제공해준다. 요점은 path를 객체처럼 관리하자는 것이다. 또한 경로 연산에서 연산자를 재정의할 수 있어서 '/'를