pdf 파일에서 텍스트 데이터 추출하는 방법, Acrobat Reader

 

환경: Acrobat Reader

 

이전에 만들어 두었던 문서가 pdf 파일만 있고 원본이 없다면 편집할 수가 없습니다. pdf 의 내용에서 텍스트 부분을 활용하고 싶을 때 어떻게 해야 될까요? NesPDF 같은 추출 유틸은 개인에게 무료지만 회사에서 업무용으로 쓰면 라이센스가 있어야 합니다. 다행히 pdf 프로그램인 Acrobat reader 에는 텍스트 저장 기능이 있습니다.

 

pdf 는 자료를 이미지로 만들기 때문에 텍스트 편집이 불가능 합니다. 그런데 무료로 쓸 수 있는 pdf 편집 프로그램들이 많이 나와 있기 때문에 힘들지 않고 추출할 수 있습니다. 하지만 텍스트 내용만 필요하다면 굳이 다운받아서 설치하지 않고도 해결이 가능합니다. 보통 pdf 문서를 읽는 Acrobat Reader 가 설치되어 있기 때문입니다. 문서를 실행하고 상단에 [파일] 메뉴를 선택합니다. 

pdf 파일에서 텍스트 데이터 추출하는 방법, Acrobat Reader

 

▼ 상단 [파일] > [다른 형식으로 저장] > [텍스트] 메뉴를 차례대로 선택합니다.

pdf 파일에서 텍스트 데이터 추출하는 방법, Acrobat Reader

 

파일 저장 팝업창이 뜨면 파일 형식을 텍스트로 선택합니다. 그리고 저장 버튼을 누르면 텍스트를 추출한 파일이 만들어 집니다. 

pdf 파일에서 텍스트 데이터 추출하는 방법, Acrobat Reader

 

텍스트를 추출하는 과정은 오래 걸리지 않습니다. 텍스트로 추출한 내용을 열어 보시면 100% 완벽하지 않다는 것을 알 수 있습니다. 이것은 이미지를 스캔해서 문자로 변환하기 때문에 어느 정도 오류가 있습니다. 그리고 프로그램 소스 같은 경우도 제대로 줄 맞춤이 되지 않습니다. 

pdf 파일에서 텍스트 데이터 추출하는 방법, Acrobat Reader

Posted by 녹두장군