Извлечение текста из PDF-файлов и файлов изображений

У вас есть PDF-документ, из которого вы хотите извлечь весь текст? А как насчет файлов изображений отсканированного документа, которые вы хотите преобразовать в редактируемый текст? Это одни из наиболее распространенных проблем, с которыми я сталкивался на рабочем месте при работе с файлами.

В этой статье я расскажу о нескольких различных способах извлечения текста из PDF-файла или изображения. Результаты извлечения будут различаться в зависимости от типа и качества текста в PDF-файле или изображении. Кроме того, ваши результаты будут различаться в зависимости от используемого вами инструмента, поэтому лучше опробовать как можно больше вариантов, представленных ниже, чтобы получить наилучшие результаты.

Извлечение текста из изображения или PDF

Самый простой и быстрый способ начать — попробовать онлайн-сервис извлечения текста из PDF-файлов. Обычно они бесплатны и могут дать вам именно то, что вы ищете, без необходимости устанавливать что-либо на свой компьютер. Вот два, которые я использовал с очень хорошими и отличными результатами:

ИзвлечьPDF

ИзвлечьPDF — бесплатный инструмент для извлечения изображений, текста и шрифтов из PDF-файла. Единственное ограничение заключается в том, что максимальный размер PDF-файла составляет 10 МБ. Это немного мало; поэтому, если у вас файл большего размера, попробуйте другие методы, описанные ниже. Выберите файл и нажмите кнопку Отправить файл . Результаты обычно получаются очень быстро, и при нажатии на вкладку «Текст» вы должны увидеть предварительный просмотр текста.

Также приятным дополнительным преимуществом является возможность извлечения изображений из PDF-файла на тот случай, если они вам понадобятся! В целом, онлайн-инструмент работает отлично, но я наткнулся на пару PDF-документов, которые выдали забавные результаты. Текст извлекается нормально, но по какой-то причине после каждого слова будет перенос строки! Не такая уж большая проблема для короткого PDF-файла, но определенно проблема для файлов с большим количеством текста. Если это произойдет с вами, попробуйте следующий инструмент.

Онлайн-распознавание текста

Онлайн-распознавание текста обычно работает с документами, которые не были правильно преобразованы с помощью ExtractPDF, поэтому рекомендуется попробовать оба сервиса, чтобы посмотреть, какой из них дает лучший результат. Онлайн-распознавание текста также имеет несколько более приятных функций, которые могут пригодиться всем, у кого есть большой PDF-файл, которому нужно преобразовать текст только на нескольких страницах, а не во всем документе.

Первое, что вам нужно сделать, это создать бесплатную учетную запись. Это немного раздражает, но если вы не создадите бесплатную учетную запись, она преобразует PDF-файл лишь частично, а не весь документ. Кроме того, вместо того, чтобы загружать только документ размером 5 МБ, вы можете загружать до 100 МБ на файл с помощью учетной записи..

Сначала выберите язык, а затем выберите тип выходного формата для преобразованного файла. У вас есть несколько вариантов, и вы можете выбрать более одного, если хотите. В разделе Многостраничный документ вы можете выбрать Номера страниц , а затем выбрать только те страницы, которые хотите преобразовать. Затем вы выбираете файл и нажимаете Конвертировать !

После конвертации вы попадете в раздел «Документы» (если вы вошли в систему), где сможете увидеть, сколько доступных бесплатных страниц у вас осталось, а также ссылки для загрузки конвертированных файлов. Кажется, что у вас есть только 25 бесплатных страниц в день, поэтому, если вам нужно больше, вам придется либо подождать немного, либо купить больше страниц.

Онлайн-распознавание текста отлично справилось с преобразованием моих PDF-файлов, поскольку оно смогло сохранить фактическое расположение текста. В своем тесте я взял документ Word, в котором использовались маркеры, разные размеры шрифта и т. д., и преобразовал его в PDF. Затем я использовал Online OCR, чтобы преобразовать его обратно в формат Word, и он был примерно на 95% таким же, как оригинал. Для меня это очень впечатляет.

Кроме того, если вы хотите преобразовать изображение в текст, Online OCR сделает это так же легко, как и извлечение текста из файлов PDF.

Бесплатное онлайн-распознавание текста

Раз уж мы заговорили об распознавании изображений в тексте, позвольте мне упомянуть еще один хороший веб-сайт, который очень хорошо работает с изображениями. Free Онлайн-распознавание текста оказался очень хорош и очень точен при извлечении текста из моих тестовых изображений. Я сделал на iPhone пару фотографий страниц из книг, брошюр и т. д. и был удивлен, насколько хорошо ему удалось преобразовать текст.

Выберите файл и нажмите кнопку «Загрузить». На следующем экране есть пара опций и предварительный просмотр изображения. Вы можете обрезать его, если не хотите распознавать все целиком. Затем просто нажмите кнопку OCR, и преобразованный текст появится под предварительным просмотром изображения. Также у него нет никаких ограничений, что очень приятно.

Помимо онлайн-сервисов, я хочу упомянуть два бесплатных конвертера PDF-файлов на случай, если вам понадобится программное обеспечение, работающее локально на вашем компьютере для выполнения преобразований. При использовании онлайн-сервисов вам всегда потребуется подключение к Интернету, а это может быть доступно не каждому. Однако я заметил, что качество конверсий из бесплатных программ было значительно хуже, чем из веб-сайтов..

Экстрактор текста в формате A-PDF

Экстрактор текста A-PDF – бесплатная программа, которая довольно хорошо извлекает текст из PDF-файлов. Загрузив и установив его, нажмите кнопку «Открыть», чтобы выбрать PDF-файл. Затем нажмите «Извлечь текст», чтобы начать процесс.

Он спросит вас, где хранить текстовый выходной файл, а затем начнет извлечение. Вы также можете нажать кнопку Option , которая позволяет выбрать только определенные страницы для извлечения и тип извлечения. Второй вариант интересен тем, что он извлекает текст в разных макетах, и стоит попробовать все три, чтобы увидеть, какой из них дает лучший результат.

Пилотная версия PDF2Text

PDF2Текст Пилотный проект хорошо справляется с извлечением текста. У него нет никаких вариантов; вы просто добавляете файлы или папки, конвертируете и надеетесь на лучшее. С некоторыми PDF-файлами все работало хорошо, но с большинством из них возникало множество проблем.

Просто нажмите «Добавить файлы», а затем нажмите Конвертировать . После завершения преобразования нажмите «Обзор», чтобы открыть файл. При использовании этой программы ваш результат будет варьироваться, поэтому не ждите многого.

Кроме того, стоит отметить, что если вы работаете в корпоративной среде или можете получить копию Adobe Acrobat с работы, вы действительно сможете получить гораздо лучшие результаты. Acrobat, очевидно, не бесплатен, но у него есть возможность конвертировать PDF в формат Word, Excel и HTML. Он также наилучшим образом сохраняет структуру исходного документа и преобразует сложный текст..