2021년 1월 2일 토요일

OCR로 영수증 정리

 

구글 OCR을 이용해서 영수증을 읽을 수 있습니다.  일반개인은 영수증을 정리할 필요가 없지만 개인사업자만 되더라도 영수증을 정리해서 세무서에 부가가치세를 신고해야 합니다. 매입 영수증에서 중요한 부분은 상호, 사업자등록번호, 총금액인데 영수증에서 이것들을 추출하는 프로그램을 구성해 봅니다.

전체 프로그램은 https://github.com/yoojchul/receipt-through-OCR에 있습니다. 파이썬 프로그램인데 구글 OCR를 통해 모두 text로 바꿉니다.  상호, 사업자등록번호, 총액이 들어가 있는 문구를 찾으면 쉽지만 이런 문구도 없는 영수증도 많습니다.  문구가 없으면 앞뒤의 맥락, 위치 등을 고려해서 찾는데 아직 문자 인식률 자체가 완벽하지 않아 못 찾는 경우가 있습니다. 

아래는 성공적인 사례입니다.



-상호

서서울농협하나로마트사직점

-사업자등록번호

사업자번호:101-xx-xxxxx

-총액

27,600

 

문구 표시도 없고 문자 인식률이 좋지 않은 아래 그림은 결국 상호, 등록번호, 총액을 찾지 못합니다.



댓글 없음:

댓글 쓰기