2021년 6월 14일 월요일

데이터와 AI

 

데이터 관점에서 AI 방법론을 조사한 자료가 있습니다.  여러 방법론을 조사하다 보니 참고 문헌도 많아 300개가 넘습니다. 논문은 아래 link에서 다운로드할 수 있습니다.  원제목은 “A survey on data-efficient algorithms in big data er”입니다.

https://journalofbigdata.springeropen.com/track/pdf/10.1186/s40537-021-00419-9.pdf

 

오늘날 AI machine learning의 혁혁한 몇몇 성과는 대규모 데이터베이스의 사용으로 가능하다는 점을 강조합니다.  예를 들어 알파고는 16만 바둑 게임을,  2015 ILSVRC(이미지 인식 경진 대회)에서 우승한 ResNet ImageNet에서 얻은  백만개 이상의 이미지 파일을, 구글에서 만든 챗봇 Meena34만개 책 정도 분량의 단어를 활용했습니다.

 

그래서 많은 AImachine learning 연구가들이 데이터의 중요성을 인식하고 있지만 실제로는 데이터 사용에 제약을 받고 있습니다. 필요한 데이터 양 자체가 적고 라벨링이 어렵기 때문인데 데이터의 결핍 혹은 데이터 굶주림이라고 합니다. 양질의 데이터가 부족한 현실 상황을 극복하기 위하여 이 논문은 적은 데이터로도 학습이 가능한 알고리즘을 조사해서 정리해 놓았습니다. 아래 그림은 논문에 있었던 분류입니다.




 

논문은 데이터 굶주림을 피하는 AI 흐름을 파악하고 이를 4가지로 분류합니다.

- 비지도(unsupervised) 학습 패러다임

 라벨링을 하지 않는 데이터를 사용해서 AI 모델을 학습시킵니다. 학습 효율이 떨어지고 학습 모델을 평가하기가 어렵다는 점이 단점입니다.

 

- 데이터 증식

데이터를 인위적으로 합성해서 샘플 수를 늘립니다.  데이터를 합성시에 사용하는 방법은 상황에 따라 달라 선택의 어려움이 있고 의료용 데이터처럼 합성이 어려운 경우도 있습니다.

 

- 지식 공유

한 도메인에서 학습한 모델을 다른 도메인에 적용합니다. 인간 학습 방법을 일단 따라한 면이 있습니다만 일반적인 적용 방법이 없고 모델 평가도 어려운 점이 있습니다.

 

- 하이브리드 학습 모델

심층 neural network에 기존 AI 기법을 결합해서 사용합니다. 이 방법 아직 초기 단계라서 연구가 더 필요합니다.

 

어째든 AI와 기계학습에서 데이터의 중요성을 다시 일깨워 주는 논문입니다.

댓글 없음:

댓글 쓰기