2020년 7월 27일 월요일

COVID-19 open Research Dataset


앨런연구소의 Semantic Scholar팀에서  COVID-19 관련 자료를 정리해서 공개하고 있습니다.  특히 CORD-19 이름의 dataset는 약 14만개의 COVID-19 관련 논문 전문을 다운로드할 수 있습니다.  매일 지금도 dataset의 내용은 정확도를 위해 추가/삭제가 이루어지고 있습니다.


논문에 자주 등장하는 물질은 당연히 많은 연구자들의 대상이 됩니다. 한때 트럼프가 치료제로 극찬했던 클로로퀸(chloroquine) 그러한데 이들 논문의 introduction에 등장하는 횟수는 682번입니다반면에  러시아에서 개발한 트리아자비린(triazavirin) 이라는  치료제는  국내에서 미검증 상태라서 얼마 전에 부산에서 약사법 위반로 경찰에 잡힌 사례가 있습니다트리아자비린이 이들 논문의 introduction  등장하는 횟수는 단 한번입니다.   COVID-19의 치료제와 백신은 개발 중이고 연구자의 집중을 받으면 동시에 논문에 등장하는 횟수는 많아질 겁니다

논문은 14만개이지만 introduction이 있는 PDF 문서는 84천개입니다. 모든 introduction 에 등장하는 단어 중에 관사, 동사형용사를 제외한 명사만을 추려서 정리만 해도 17만 단어가 넘습니다.   연구 논문이다 보니 한번만 출현하는 단어가  8만개 이상입니다.  링크 파일introduction에 나온 명사와 출현 빈도수입니다.


댓글 없음:

댓글 쓰기