이미지에서 텍스트를 추출하는 OCR 방법들


스캔을 뜬 책을 하나 구했는데 이것을 텍스트로 전환하면 보기 더 편하지 않을까 해서,

그 방법에 대해 여러가지로 찾아보게 되었다. 역시나 나의 고민은 새로운게 아니였다.

수많은 프로그램과 사이트가 제공되고 있었다. 그 내용에 대한 정리를 해본다.

 

이미지에서 텍스트를 출력하는 기술은 OCR(Optional Character Recongnition) 이라고 한다.

이런 기능을 제공하는 무료프로그램과 사이트는 많이 있다.

 

한국인이 만든 무료 OCR 프로그램 사이트 :

http://home.megapass.co.kr/~woosjung/Product_JOCR.html

http://softi.co.uk/freeocr.htm

위에서 제시한 사이트는 프로그램을 다운받아서 사용하지만 네이버에서 제공하는 OCR은

웹상에서 기능을 사용할수 있다. 개인적으로 제일 편리하고 좋은 것 같다.

http://t.lab.naver.com/ocr/

이미지 올리기 버튼을 클릭하여 파일을 올리면 이미지 적합성 여부와 인식률에 대한 정보가

나오게된다

이미지 문자 인식실행을 하게 되면 아래 화면과 같이 추출한 문자열이 텍스트 박스에 나오게된다

그리고 텍스트 파일로 저장할수 있다

MS Office 2003 에서 제공하는 텍스트 전환기능

Microsoft Office Document Imaging 실행한다

프로그램이 실행되면 스캔한 이미지나 확장자가 tiff, tif, mid 이미지 파일을 연다.

그러면 왼쪽에 축소된 이미지와 오른쪽에 확대된 이미지를 볼수 있을것이다

다음은 이미지에 들어있는 텍스트를 추출해본다.

도구 > OCR을 사용하여 텍스트 인식을 클릭한다

만약 설치 되지 않았으면 자동으로 설치해준다. 다 되었으면 드래그를 해보자. 텍스트 추출이

된 것은 그림과 같이 선택이 될것이다. 이것을 복사해서 쓰면되고 word 를 생성해서 보내고

싶다면 도구 > Word 로 텍스트 보내기 메뉴를 선택한뒤 창에 정보를 입력하고 저장하면된다

아래 그림은 워드로 추출한 내용인데 원본그림과 비교해보면 글자에 언더바가 있는부분은

추출을 못했다. 이 부분은 인식을 하지 못하나 보다

MS Office 2007 에서 제공하는 텍스트 전환기능

별도의 플러그인만 설치해주면 바로 PPT 파일 등을 다른이름으로 저장할 때 PDF 형태로 변환이 하다. 플러그인을 설치하기 위해서는 아래 주소에 가서 다운받는다.

http://www.microsoft.com/downloads/details.aspx?FamilyID=4D951911-3E7E-4AE6-B059-A2E79ED87041&displaylang=en&Hash=VM5qPiVObmsfUbk6fuPsgQfCSxW8qbU6M2cV4ht1%2bRWrQpeafeNQIpDuqlJV5GqeknkrT7yJ4yFv9AHX5IEDhQ%3d%3d

Posted by 녹두장군

댓글을 달아 주세요

  1. 2009/12/10 20:05  댓글주소  수정/삭제  댓글쓰기

    비밀댓글입니다

  2. 2009/12/30 16:19  댓글주소  수정/삭제  댓글쓰기

    비밀댓글입니다

  3. Ch_Softblow 2010/02/21 20:53  댓글주소  수정/삭제  댓글쓰기

    -->


    <!--------------------------------------------하단광고끝 --------------------------------------------------------------->

    Firefox에서 정상 출력되지 않습니다.

    어서 고쳐주세요 ㅠㅠ

  4. 녹두장군 2010/02/23 01:17  댓글주소  수정/삭제  댓글쓰기

    불편하게 해서 죄송합니다. 일단 출력이 되게 했습니다.
    나머지 페이지 레이아웃이 꺠지는건 시간내서 더 봐야겠네요 ...^^

  5. 2010/09/08 00:19  댓글주소  수정/삭제  댓글쓰기

    비밀댓글입니다

  6. trinity0625 2012/08/01 15:46  댓글주소  수정/삭제  댓글쓰기

    저는 OCR은 전문 소프트웨어가 좋은것 같습니다.
    ABBYY 사에서 나온 Finereader 11 버젼 쓰고 있는데, 참 편리하던군요.
    특히 한국어 인터페이스가 국내 소비자에게 굉장히 크게 어필하는 것 같습니다.
    최근에는 가격 할인행사도 같이 하고 있던데
    http://finereader.abbyy.com/korean_ocr_software/
    공식사이트 주소니까 참고하시면 좋겠네요 ^^

    • 녹두장군 2012/08/21 17:22  댓글주소  수정/삭제

      역시 공유의 힘은 대단한것 같습니다.
      님 덕분에 새로운걸 알게 되서 기쁘네요.
      좁은 시야가 넓어진거 같습니다.
      좋은 하루 되세요



티스토리 툴바