MRC

QA with Phrase Retrieval

Phrase Retrieval in ODQA Current limitation of Retriever-Reader ODQA * Error propagation * Reader가 아무리 뛰어나도 Retreiver가 제대로 된 context를 전달하지 못한다면 전체 프로세스의 성능이 떨어진다. * Query-dependent encdoing * query에 따라 answer span의 encoding이 달라진다. * e.g., BERT retriever를 사용할 때 query와 context를 concat해서 모델의 결과를 얻기 때문에 query가 달라지면 * context와 concat된 embedding의
Sungho Park

Negative in-batch

기존의 negative sampling query batch는 기존대로 유지한다. passage batch가 달라진다. 1개의 positive passage와 batch_size개의 negative passage로 총 batch_szie + 1 개의 데이터로 하나의 batch를 구성한다. Negative in-batch passage batch는 batch_size개만큼 구성한다. 기존 방식과는 다르게 따로 negative sampling을 하지 않는다. positive 관계인 query와 passage들을 한 쌍으로 같이 넣어주기만한다. 1.
Sungho Park

Reducing Training Bias

Definition of Bias Bias는 지양대상이 아니다. 하지만 일부 bias로 인해 모델의 성능에 악영향을 끼치는 경우가 있고, 이러한 bias issue는 해결해야 한다. * ML/DL * inductive bias(ref) * 학습 시에는 만나보지 않았던 상황에 대하여 정확한 예측을 하기 위해 사용하는 추가적인 가정 (additional assumptions) * 사전 지식을 주입하기 위해 특정 형태의 함수를 선호하는 것
Sungho Park

Linking MRC and Retrieval

Open Domain Question Answering(ODQA) 앞선 MRC와는 다르게 웹 전체, 혹은 위키피디아 전체와 같이 광범위한 Domain에서 Passage retrieval을 수행해야 한다. input, output format은 동일하다. ![](/assets/images/Linking MRC and Retrieval/93ec9529-7aa0-414d-b8d4-ae4678b4a60a-image.png) ![](/assets/images/Linking MRC and Retrieval/f2a1963a-29fb-44b8-a928-f56b8d24f681-image.png) * Context가 따로 주어지지 않는다. * World Knowledge에 기반해서 QA 진행 * Modern
Sungho Park

Passage Retrieval - Scaling up

Passage retrieal and Similarity Search ![](/assets/images/Passage Retrieval - Scaling up/4ceaaed8-f971-40c9-8a48-4e21634d2255-image.png) Passage와 query를 encoding해서 vector space로 보냈다면 아래의 방법들 중 하나를 수행한다. * nearest neighborhood search * inner dot production에서 highest dot product 결과만 search 위와 같이 similarity serach를 진행할 때, Passage의 수가 늘어난다면 query에 대해서 가장 similarity가 높은
Sungho Park

Dense Embedding

Sparse Embedding의 문제점 ![](/assets/images/Dense Embedding/759edf0c-3b21-4ea7-9af2-bcd7a210a0c1-image.png) * Passage Embedding 중 Spare Embedding은 보통 90% 이상의 벡터값들이 0이다. * 차원의 수가 매우 크다. * compressed format으로 극복 가능 * 유사성을 고려하지 못한다. * 매우 유사한 단어라도, character가 달라지면 전혀 다른 차원으로 Embedding 된다. 또한 유사한 단어들의 차원이 유사하다는 정보를 표현할 방법이 없다. Dense
Sungho Park

Passage Retrieval

Passage Retrieval query에 맞는 문서(Passage)를 검색(Retrieval)하는 것. ![](/assets/images/Passage Retrieval/b5526456-14fc-409d-83c4-ac2894f973f8-image.png) Database * 실제로는 DBMS 활용할 수도 있다. * 여기서는 Wiki data Passage Retrieval with MRC Open-domain Question Answering: 대규모 문서에서 질문에 대한 답 찾기 ![](/assets/images/Passage Retrieval/540e7cbd-b9dd-49e6-8a8f-617385ab55b6-image.png) Passage Retrieval과 MRC를 결합하면 Open-domain
Sungho Park