Не можете скопировать текст из PDF-файла?


На днях я столкнулся с проблемой, когда мне пришлось скопировать текст из PDF-файла и вставить его в презентацию, которую я делал. Проблема была в том, что я не мог скопировать текст! Хм, подумал я, должно быть, я делаю что-то глупое, поскольку почти уверен, что уже скопировал текст из PDF-файла.

К счастью, я не был настолько глуп, поскольку в итоге PDF-файл содержал несколько страниц, которые представляли собой отсканированные растровые файлы, вставленные в PDF-файл. Так что это был не настоящий текст. Во-вторых, там, где был реальный текст, который обычно можно было скопировать, для этого PDF-файла были установлены какие-то разрешения безопасности, поэтому копирование контента было запрещено! Грррр!

Мне все еще нужен был этот текст, и я собирался найти способ его получить. В этой статье я расскажу о простом способе копирования текста, который работает, если документ не защищен и текст не является отсканированным изображением. Я также расскажу, что делать в сценарии-обманщике, когда вам не разрешено копировать текст. Это не идеальное решение, но это лучше, чем ничего, особенно если вам приходится копировать много текста. Даже если вы сможете избавить себя от необходимости вводить 80 % текста вручную, это здорово!

Выделение текста в PDF

Если в Adobe Reader текст можно копировать, все, что вам нужно сделать, это выделить его, щелкнуть правой кнопкой мыши и выбрать Копировать .

скопировать текст PDF

В других программах просмотра PDF-файлов, таких как Foxit, вам нужно нажать Инструменты , а затем Выбрать текст .

выделить текст

Очевидно, если бы вы могли это сделать, вы бы не читали этот пост! Но на всякий случай именно так вы выделяете текст. Теперь перейдем к более сложной проблеме копирования текста из изображений или защищенных PDF-файлов.

Используйте OCR для копирования текста PDF

Вы можете быстро проверить, защищен ли PDF-файл в Adobe Reader, посмотрев в строке заголовка и найдя слово ЗАЩИТА .

защищенный PDF-файл

Вы можете просмотреть конкретные разрешения, нажав Изменить , затем Защита , а затем Свойства безопасности .

свойства безопасности

В новых версиях Adobe Reader и Acrobat необходимо нажать Защитить на правой панели, чтобы открыть параметры защиты.

Затем нажмите Дополнительные параметры , и вы увидите Свойства безопасности.

.

Как вы можете видеть ниже, копирование контента запрещено, а безопасность защищена паролем. Если вы знаете пароль, вы можете снять защиту и скопировать все, что захотите.

Если вы не хакер, взлом пароля невозможен. Поэтому единственное, что вы можете сделать, это сделать снимок экрана с текстом и затем пропустить его через программу OCR. Звучит как слишком большая работа, но на самом деле это не так. Вы можете сделать снимок экрана на Mac или ПК без дополнительного программного обеспечения.

Mac – просто нажмите Command + Shift + 4 на клавиатуре.

Windows – просто используйте ножницы Windows

копирование контента

Кроме того, если у вас есть Adobe Acrobat, вы можете использовать его для автоматического преобразования текста изображения в редактируемый текст. Все, что вам нужно сделать, это открыть PDF-файл и нажать инструмент «Редактировать PDF» на правой панели. Он автоматически отсканирует весь документ с помощью оптического распознавания символов и преобразует его в полностью редактируемый документ.

Если у вас есть изображение с текстом, скопируйте его в буфер обмена, затем откройте Adobe Acrobat и выберите Файл – Создать – PDF из буфера обмена.

Просто нажмите «Редактировать PDF» на правой панели, и изображение преобразуется в редактируемый текст.

 

Вот скриншот текста, который я не смог скопировать из защищенного PDF-файла:

ТестOCR

Обратите внимание: при создании снимка экрана убедитесь, что масштаб документа установлен на 100 %, чтобы текст был четким и ясным. Получив скриншот, загрузите бесплатную программу OCR. Существует множество вариантов, и результаты в разных программах будут сильно различаться, поэтому вам придется попробовать несколько. Вот два, которые я использовал в прошлом:

http://download.cnet.com/FreeOCR/3000-10743_4-10717191.html

https://www.simpleocr.com/OCR-Freeware

Обратите внимание, что вы также можете использовать Microsoft OneNote, поскольку он имеет встроенную функцию распознавания текста. Очевидно, что если у вас уже есть программное обеспечение для оптического распознавания символов, просто используйте его.

Программа FreeOCR работает хорошо, вам просто нужно убедиться при ее установке, что вы не принимаете какие-либо другие «предложения» программного обеспечения, которые просто установят мусор на ваш компьютер. Но пока вы это сделаете, в программном обеспечении не будет шпионского ПО или чего-то подобного. Чтобы убедиться в этом, он также протестирован CNET.

В любом случае, как только программа будет установлена, нажмите большую кнопку Открыть и выберите изображение.

OCR-изображение

В левой панели появится предварительный просмотр изображения. Затем нажмите OCR и Начать процесс распознавания ..

запустить процесс OCR

Вот и все! Текст теперь появится справа, и вы сможете скопировать его в буфер обмена или экспортировать в Microsoft Word.

конвертировать изображение в текст

В целом программа сработала очень хорошо, с небольшими ошибками здесь и там. Это сэкономило мне много времени, хотя мне не приходилось вручную вводить весь этот текст. Надеемся, это поможет вам скопировать нужный текст из PDF-документа. Пишите любые комментарии или вопросы, и я отвечу. Наслаждайтесь!.

Похожие сообщения:


14.08.2012