PDF 복사할 수 없는 문자 텍스트 인식

PDF에 있는 텍스트를 복사해 사용해야 할 때 텍스트가 복사되면 다행이지만 이미지로 인식되는 PDF 파일은 텍스트 복사가 안 될 때가 있다.이럴 때 RPDF로 문자인식을 하여 텍스트를 추출하여 word 파일로 만들 수 있다.

우선 알툴스 페이지에 접속하여 알PDF를 다운로드하도록 한다.https://www.altools.co.kr/Download/ALPDF.aspx 상의 화면에 있는 「인스톨 한다」를 누른다.설치 과정은 간단하니 생략한다.

인스톨이 끝나면, RPDF를 실행해, PDF 파일을 불러온다.열기 버튼을 눌러 불러와도 되고 파일을 드래그해 가져올 수도 있다.

PDF 파일을 읽으면 위에 있는 메뉴 중에서 문자인식(ORC)을 클릭한다.

문자인식 기능을 한 번도 사용한 적이 없다면 처음에 한 번 별도 패키지를 다운로드 받아야 한다.다운로드를 누르다.

그리고 자신에게 맞는 버전으로 OCR을 설치하면 되는데 버전을 확인하는 방법은 RPDF 실행 후 도움말 탭에서 제품 정보 메뉴를 통해 확인할 수 있다.설치 중에는 RPDF를 종료하라고 해서 잠시 종료하고 패키지를 설치해준다.

인스톨이 끝나면, 재차 알PDF를 실행해 PDF 문서를 읽고, 재차 문자 인식 메뉴를 누른다.

그러면 위와 같은 화면이 나오는데 언어는 처음에 한국어/영어로 되어있는데 만약 다른 언어의 PDF 파일이라면 언어변경을 해준다.다 되면 확인 버튼 누른다.

문자인식 과정이 완료되면 위 메뉴에서 Word로 클릭한다.

그러면 변환 작업 전에 문서를 저장하라고 하는데 확인 버튼을 눌러 저장하고 싶은 위치에 저장한다.

저장하면 이런 화면이 나오는데 변환 버튼을 누른다. 저장 위치를 바꾸고 싶으면 바꿀 수 있다.

변환이 끝나고 출력 폴더 링크를 누르면 변환된 word 파일이 있는 곳으로 갈 수 있다.

최종 변환된 word 파일이다.이러한 방식으로 pdf에서 복사할 수 없는 문자를 word 파일로 만들어 복사가 가능해진다.원문의 화질에 따라 인식이 잘 안 되는 경우도 있지만 대체로 사용 가능한 수준으로 인식이 좋아진다.

 

error: Content is protected !!