Please Enable JavaScript!
Gon[ Enable JavaScript ]

이미지에서 텍스트를 추출하는 OCR 방법들

인터넷/기타
반응형

이미지에서 텍스트를 추출하는 OCR 방법들


스캔을 뜬 책을 하나 구했는데 이것을 텍스트로 전환하면 보기 더 편하지 않을까 해서,

그 방법에 대해 여러가지로 찾아보게 되었다. 역시나 나의 고민은 새로운게 아니였다.

수많은 프로그램과 사이트가 제공되고 있었다. 그 내용에 대한 정리를 해본다.

 

이미지에서 텍스트를 출력하는 기술은 OCR(Optional Character Recongnition) 이라고 한다.

이런 기능을 제공하는 무료프로그램과 사이트는 많이 있다.

 

한국인이 만든 무료 OCR 프로그램 사이트 :

http://home.megapass.co.kr/~woosjung/Product_JOCR.html

http://softi.co.uk/freeocr.htm

위에서 제시한 사이트는 프로그램을 다운받아서 사용하지만 네이버에서 제공하는 OCR은

웹상에서 기능을 사용할수 있다. 개인적으로 제일 편리하고 좋은 것 같다.

http://t.lab.naver.com/ocr/

이미지 올리기 버튼을 클릭하여 파일을 올리면 이미지 적합성 여부와 인식률에 대한 정보가

나오게된다

이미지 문자 인식실행을 하게 되면 아래 화면과 같이 추출한 문자열이 텍스트 박스에 나오게된다

그리고 텍스트 파일로 저장할수 있다

MS Office 2003 에서 제공하는 텍스트 전환기능

Microsoft Office Document Imaging 실행한다

프로그램이 실행되면 스캔한 이미지나 확장자가 tiff, tif, mid 이미지 파일을 연다.

그러면 왼쪽에 축소된 이미지와 오른쪽에 확대된 이미지를 볼수 있을것이다

다음은 이미지에 들어있는 텍스트를 추출해본다.

도구 > OCR을 사용하여 텍스트 인식을 클릭한다

만약 설치 되지 않았으면 자동으로 설치해준다. 다 되었으면 드래그를 해보자. 텍스트 추출이

된 것은 그림과 같이 선택이 될것이다. 이것을 복사해서 쓰면되고 word 를 생성해서 보내고

싶다면 도구 > Word 로 텍스트 보내기 메뉴를 선택한뒤 창에 정보를 입력하고 저장하면된다

아래 그림은 워드로 추출한 내용인데 원본그림과 비교해보면 글자에 언더바가 있는부분은

추출을 못했다. 이 부분은 인식을 하지 못하나 보다

MS Office 2007 에서 제공하는 텍스트 전환기능

별도의 플러그인만 설치해주면 바로 PPT 파일 등을 다른이름으로 저장할 때 PDF 형태로 변환이 하다. 플러그인을 설치하기 위해서는 아래 주소에 가서 다운받는다.

http://www.microsoft.com/downloads/details.aspx?FamilyID=4D951911-3E7E-4AE6-B059-A2E79ED87041&displaylang=en&Hash=VM5qPiVObmsfUbk6fuPsgQfCSxW8qbU6M2cV4ht1%2bRWrQpeafeNQIpDuqlJV5GqeknkrT7yJ4yFv9AHX5IEDhQ%3d%3d

반응형
Posted by 녹두장군1
,