sunghogigio

Sign in Subscribe

Sungho Park

Passage Retrieval - Scaling up

Passage retrieal and Similarity Search ![](/assets/images/Passage Retrieval - Scaling up/4ceaaed8-f971-40c9-8a48-4e21634d2255-image.png) Passage와 query를 encoding해서 vector space로 보냈다면 아래의 방법들 중 하나를 수행한다. * nearest neighborhood search * inner dot production에서 highest dot product 결과만 search 위와 같이 similarity serach를 진행할 때, Passage의 수가 늘어난다면 query에 대해서 가장 similarity가 높은

Dense Embedding

Sparse Embedding의 문제점 ![](/assets/images/Dense Embedding/759edf0c-3b21-4ea7-9af2-bcd7a210a0c1-image.png) * Passage Embedding 중 Spare Embedding은 보통 90% 이상의 벡터값들이 0이다. * 차원의 수가 매우 크다. * compressed format으로 극복 가능 * 유사성을 고려하지 못한다. * 매우 유사한 단어라도, character가 달라지면 전혀 다른 차원으로 Embedding 된다. 또한 유사한 단어들의 차원이 유사하다는 정보를 표현할 방법이 없다. Dense

Passage Retrieval

Passage Retrieval query에 맞는 문서(Passage)를 검색(Retrieval)하는 것. ![](/assets/images/Passage Retrieval/b5526456-14fc-409d-83c4-ac2894f973f8-image.png) Database * 실제로는 DBMS 활용할 수도 있다. * 여기서는 Wiki data Passage Retrieval with MRC Open-domain Question Answering: 대규모 문서에서 질문에 대한 답 찾기 ![](/assets/images/Passage Retrieval/540e7cbd-b9dd-49e6-8a8f-617385ab55b6-image.png) Passage Retrieval과 MRC를 결합하면 Open-domain

[백준] 2048 (Easy)

ref blog 문제 우리가 흔히 아는 그 게임이다. 다만 제약조건이 추가된다. * 한 번의 이동에서 이미 합쳐진 블록은 다시 못 합침 * 3개 이상의 블럭이 합쳐질 수 있다면, 이동하는 방향에 가장 가까운 것들부터 합친다. * e.g., 위로 이동하는거면 위에 것들부터 풀이 합치는 아이디어 자체는 쉽게 도출 가능하다. 비어있으면 값을 옮기고, 값이 같으면

Generation-based MRC

Generation-based MRC context와 question을 보고 답변을 생성하는 task. Extraction-based MRC가 context의 token별로 정답 확률을 추출했다면, Genration-based는 이름처럼 Generation task다. 즉, Extraction-based MRC는 Generation-based MRC task로 변환이 가능하지만 역은 불가능하다. 평가 방법 Extraciton-based처럼 EM, F1 score를 쓸 수도 있지만 BLEU, ROUGE를 쓰는 것이 일반적이다. Overview ![](/assets/images/Generation-based MRC/32a731fb-0dc3-4d28-b252-8be2e304e21f-image.png)

Extraction-Based MRC

Extraction-Based MRC 질문의 답변이 항상 주어진 지문(context)내에 span으로 존재. 답변을 생성하지 않고 답변을 context에서 찾는 것으로 문제를 좁힐 수 있다. e.g.,) SQuAD, KorQuAD, NewsQA, Natural Questions ![](/assets/images/Extraction-Based MRC/722a0e0b-0d30-4a1b-9385-39bff9ad45ab-image.png) 이러한 dataset들은 HuggingFace Datsets에서 다운 받는게 제일 편하다. Metric Exact Match(EM) Score 예측값과 정답이

최신 모델

XLNet 기존의 모델들의 문제점 * BERT * [MASK] 토큰을 독립적으로 예측하기 때문에 Token 사이의 관계 학습이 불가능 * Embedding length의 한계로 Segment간 관계 학습 불가능 * GPT * 단일 방향성으로만 학습 이러한 한계를 극복하고자 XLNet이 등장한다. Relative positional encoding 512 token으로만 학습하는 한계를 벗어나기 위해 도입. 기존의 positional encoding(Ref)을 relative하게 한다고 한다. ![](/assets/