У вас есть PDF-документ или изображение, которое вы хотите преобразовать в текст? Недавно кто-то прислал мне по почте документ, который мне нужно было отредактировать и отправить обратно с исправлениями. Человек не смог найти цифровую копию, поэтому мне было поручено перевести весь текст в цифровой формат.
Я не собирался тратить часы на ввод всего обратного, поэтому в итоге я сделал хорошее высококачественное изображение документа, а затем просмотрел кучу онлайн-сервисов оптического распознавания символов, чтобы посмотреть, какой из них даст мне лучшие результаты.
В этой статье я расскажу о паре моих любимых бесплатных сайтов для оптического распознавания символов. Стоит отметить, что большинство этих сайтов предоставляют базовую бесплатную услугу, а затем предлагают платные варианты, если вам нужны дополнительные функции, такие как изображения большего размера, многостраничные PDF-документы, разные языки ввода и т. д.
Также полезно заранее знать, что большинство этих сервисов не смогут соответствовать форматированию исходного документа. Они в основном предназначены для извлечения текста и все. Если вам нужно, чтобы все было в определенном макете или формате, вам придется сделать это вручную, как только вы получите весь текст из OCR.
Кроме того, наилучшие результаты для получения текста будут получены из документов с разрешением от 200 до 400 точек на дюйм. Если у вас изображение с низким разрешением, результаты будут не такими хорошими.
Наконец, я тестировал множество сайтов, которые просто не работали. Если вы воспользуетесь бесплатным онлайн-распознаванием текста в Google, вы увидите множество сайтов, но некоторые из сайтов из топ-10 результатов даже не завершили конверсию. Некоторые из них теряли время, другие выдавали ошибки, а некоторые просто застревали на странице «конверсии», поэтому я даже не удосужился упомянуть эти сайты.
Для каждого сайта я протестировал два документа, чтобы увидеть, насколько хорошим будет результат. Для тестирования я просто использовал свой iPhone 5S, чтобы сфотографировать оба документа, а затем загрузил их прямо на веб-сайты для конвертации.
Если вы хотите посмотреть, как выглядели изображения, которые я использовал для своего теста, я прикрепил их сюда: Тест1 и Тест2. Обратите внимание, что это не версии изображений, снятых с телефона, в полном разрешении. При загрузке на сайты я использовал изображение в полном разрешении.
Онлайн-распознавание текста
ОнлайнOCR.net — чистый и простой сайт, показавший очень хорошие результаты в моем тесте. Главное, что мне в нем нравится, это то, что на нем нет кучи рекламы повсюду, как это обычно бывает с сайтами подобных нишевых услуг..
Для начала выберите файл и подождите, пока он загрузится. Максимальный размер загрузки для этого сайта составляет 100 МБ. Если вы зарегистрируете бесплатную учетную запись, вы получите несколько дополнительных функций, таких как больший размер загрузки, многостраничные PDF-файлы, разные языки ввода, больше конверсий в час и т. д.
Далее выберите язык ввода, а затем выберите выходной формат. Вы можете выбрать Word, Excel или обычный текст. Нажмите кнопку Конвертировать , и вы увидите текст, отображаемый внизу в поле, вместе со ссылкой для скачивания.
Если вам нужен только текст, просто скопируйте и вставьте его из поля. Однако я предлагаю вам скачать документ Word, поскольку он на удивление отлично сохраняет структуру исходного документа.
Например, когда я открыл документ Word для второго теста, я был удивлен, обнаружив, что в документе есть таблица с тремя столбцами, как на изображении.
Из всех сайтов этот, безусловно, был лучшим. Если вам нужно совершать много конверсий, стоит зарегистрироваться.
Для полноты я также приведу ссылки на выходные файлы, созданные каждым сервисом, чтобы вы могли сами увидеть результаты. Вот результаты OnlineOCR: Тест1 Док и Тест2 Документ.
Обратите внимание, что при открытии этих документов Word на своем компьютере вы получите сообщение в Word о том, что они взяты из Интернета и редактирование отключено. Это совершенно нормально, потому что Word не доверяет документам из Интернета, и вам действительно не обязательно включать редактирование, если вы просто хотите просмотреть документ.
i2OCR
Еще один сайт, показавший довольно хорошие результаты, — i2OCR. Процесс очень похож: выберите язык, файл и нажмите Извлечь текст .
Вам придется подождать минуту или две, потому что этот сайт занимает немного больше времени. Кроме того, на шаге 2 убедитесь, что ваше изображение отображается правой стороной вверх при предварительном просмотре, иначе на выходе вы получите кучу тарабарщины. По какой-то причине изображения с моего iPhone показывались на компьютере в портретном режиме, а при загрузке на этот сайт — в альбомном.
Мне пришлось вручную открыть изображение в приложении для редактирования фотографий, повернуть его на 90 градусов, затем снова повернуть в книжную ориентацию и снова сохранить. После завершения прокрутите вниз, и вы увидите предварительный просмотр текста и кнопку загрузки..
Этот сайт неплохо справился с результатами первого теста, но не так хорошо справился со вторым тестом, в котором использовалась компоновка столбцов. Вот результаты i2OCR: Тест1 Док и Тест2 Документ.
FreeOCR
Бесплатно-OCR.com возьмет ваши изображения и преобразует их в обычный текст. У него нет возможности экспорта в формат Word. Выберите файл, выберите язык и нажмите Начать .
Сайт работает быстро, и вы получите результат довольно быстро. Просто нажмите на ссылку, чтобы загрузить текстовый файл на свой компьютер.
Как и в случае с NewOCR, упомянутым ниже, на этом сайте все буквы Т в документе пишутся с заглавной буквы. Я понятия не имею, почему он это сделал, но по какой-то странной причине и этот сайт, и NewOCR сделали это. Изменить его не составляет большого труда, но это утомительный процесс, который вам действительно не нужен.
Вот результаты FreeOCR: Тест1 Док и Тест2 Документ.
ABBYY FineReader Online
Чтобы использовать FineReader онлайн, вам необходимо зарегистрировать учетную запись, которая дает вам 15-дневную бесплатную пробную версию для оптического распознавания символов до 10 страниц бесплатно. Если вам нужно сделать разовое распознавание текста только для пары страниц, то вы можете воспользоваться этой услугой. Обязательно нажмите ссылку «Подтвердить» в электронном письме с подтверждением после регистрации.
Нажмите Распознать вверху, а затем нажмите Загрузить , чтобы выбрать файл. Выберите язык, формат вывода и нажмите Распознать внизу. У этого сайта понятный интерфейс и нет рекламы.
В моих тестах этот сайт смог получить текст из первого тестового документа, но когда я открыл документ Word, он был просто огромным, поэтому в итоге я сделал это снова и выбрал обычный текст в качестве выходного формата.п>
Во втором тесте со столбцами документ Word был пуст, и я даже не смог найти текст. Не знаю, что там произошло, но, похоже, он не способен обрабатывать ничего, кроме простых абзацев. Вот результаты FineReader: Тест1 Документ и Тест2 Документ.
Новый OCR
Следующий сайт, NewOCR.com, был неплохим, но не таким хорошим, как первый сайт. Во-первых, здесь есть реклама, но, к счастью, ее не так много. Сначала вы выбираете файл, а затем нажимаете кнопку Просмотр .
Затем вы можете повернуть изображение и настроить область, в которой вы хотите сканировать текст. Это во многом похоже на процесс сканирования на компьютере с подключенным сканером..
Если в документе несколько столбцов, вы можете нажать кнопку Анализ макета страницы , и он попытается разделить текст на столбцы. Нажмите кнопку OCR, подождите несколько секунд, пока страница завершится, а затем прокрутите вниз, когда страница обновится.
В первом тесте весь текст был получен правильно, но по какой-то причине каждая буква Т в документе была написана с заглавной буквы! Понятия не имею, почему он это сделал, но это произошло. Во втором тесте с включенным анализом страницы была получена большая часть текста, но макет был полностью отключен.
Вот результаты NewOCR: Тест1 Док и Тест2 Документ.
Заключение
Как видите, бесплатная версия, к сожалению, в большинстве случаев не дает хороших результатов. Первый упомянутый сайт на сегодняшний день является лучшим, поскольку он не только отлично распознал весь текст, но и сумел сохранить формат исходного документа.
Однако, если вам нужен просто текст, большинство веб-сайтов, перечисленных выше, смогут сделать это за вас. Если у вас есть какие-либо вопросы, не стесняйтесь комментировать. Наслаждайтесь!.