sunghogigio
  • Home
  • About
Sign in Subscribe

MRC

Generation-based MRC

Generation-based MRC context와 question을 보고 답변을 생성하는 task. Extraction-based MRC가 context의 token별로 정답 확률을 추출했다면, Genration-based는 이름처럼 Generation task다. 즉, Extraction-based MRC는 Generation-based MRC task로 변환이 가능하지만 역은 불가능하다. 평가 방법 Extraciton-based처럼 EM, F1 score를 쓸 수도 있지만 BLEU, ROUGE를 쓰는 것이 일반적이다. Overview ![](/assets/images/Generation-based MRC/32a731fb-0dc3-4d28-b252-8be2e304e21f-image.png)
Sungho Park 13 Oct 2021

Unicode, Tokenization

Unicode e.g., U+AC00 * 'U+': unicode를 뜻하는 접두어 * 'AC00': 16진수 code point python * ord: character to unicode code point * chr: unicode code point to character * 완성형 한글 11,172자 * len을 적용하면 2 반환 * 조합형 한글 * len을 적용하면 1 반환 Tokenization 사람이 직접 정의한 rule로 tokenizing에
Sungho Park 12 Oct 2021

MRC

MRC 기계독해. Machine reading comprehension. 주어진 지문(context)를 이해하고, 질의(Query/Question)의 답변을 추론하는 task. 최종적으로는 train에 사용한 MRC Dataset에 존재하지않는 QA에 대해서도 외부 데이터를 활용해 답을 하고자 한다. Extractive Answer Datasets 질의(question)에 대한 답이 항상 주어진 context의 segment(or span)으로 존재 Cloze Tests e.
Sungho Park 12 Oct 2021

Subscribe to sunghogigio

  • Sign up
sunghogigio © 2025. Powered by Ghost