Нейросети для распознавания текста

Категория: Интернет / Разное
Добавил: access_timeОпубликовано: 12-12-2024 visibilityПросмотров: 134 chat_bubble_outlineКомментариев: 0
Нейросети для распознавания текста

Содержание:



В этой публикации, друзья, рассмотрим нейросети для распознавания текста. В плане выполнения этой задачи нейросети превосходят традиционные алгоритмы OCR - могут понимать искажённый текст, текст на сложных фонах, рукописный текст, анализировать текст в контексте, самообучаются. Для решения насущных задач обывателей, коим нет надобности оцифровывать архивные документы в промышленных масштабах, а нужны простые разовые операции типа копирования надписей на экране компьютера или фото, с нейросетей будет больше проку, чем со специализированных OCR-программ и веб-сервисов. Нейросети с надписями на картинках разве что не творят чудеса.


***

Друзья, возможно, кто не знает, распознавание текста на изображениях есть в числе штатных функций Windows 11. Её современное приложение-скриншотер «Ножницы» в 2023 году обзавелось поддержкой распознавания текста на созданных этим приложением скриншотах. Если нужно оперативно скопировать текст системной или программной ошибки на экране, надписи в интерфейсе, надписи на изображениях и т.п., делаем этим приложением скриншот, соответственно, окна ошибки, участка интерфейса, изображения в просмотрщике и т.п. И далее в открывшемся редакторе «Ножниц» задействуем распознавание.

Оперативно и бесплатно распознать небольшой текст на картинках можно с помощью сервисов визуального поиска от Microsoft, Яндекса и Google. Последний даже предусматривает свой инструмент, интегрированный в браузер в Google Chrome для удобного использования. Также в Интернете есть много бесплатных и условно-бесплатных сервисов распознавания текста, работающих с большими масштабами задач, в частности, с многостраничными документами.

Визуальный поиск, друзья, хорош тем, что, помимо распознавания текста, предлагает результаты поиска изображений, схожих с исходным, и со связанным содержимым. А некоторые сервисы ещё и предусматривают перевод распознанного текста. Если текст распознать нужно для перевода надписи или поиска по ней информации в Интернете, визуальный поиск сходу решает эти задачи. Языковые нейросети же сходу могут больше – и распознать надпись, и перевести её, и растолковать, если надо. И даже предоставить любую дополнительную информацию, если что. Что же это за нейросети такие, которые могут распознавать текст на изображениях и выдавать по нему любую информацию?


Llama OCR

Нейросеть Llama OCR не выдаёт информации по надписям на изображении, но являет собой специализированную языковую модель, заточенную специально для распознавания текста. Разрабатывается как открытое ПО, активно поддерживается сообществом с GitHub, постоянно совершенствуется. А главное – доступна бесплатно. Пока что Llama OCR поддерживает распознавание с изображений, позже в ней обещается поддержка PDF-документов. У этой нейросети высокая точность распознавания. И что интересно: распознанный текст предлагается нам не в виде сырого текста, а в формате структурированного документа Markdown, т.е. форматированного текста. Который удобен для копирования как целиком, так и частями. За надобностью можно сохранить форматирование при переносе в текстовый редактор.



Для использования Llama OCR нужно всего лишь загрузить или перетащить изображение в специальную форму на сайте нейросети.


ChatGPT

Распознать текст можно попросить передового нейросетевого чат-бота – ChatGPT. Он поддерживает создание скриншотов, создание фото камерой компьютера, загрузку имеющихся на компьютере изображений, а также вставку их из буфера обмена. При отправке боту изображения с надписями можем в свободной форме попросить его только распознать текст, либо же распознать и перевести. Если нам нужна информация по надписи, пишем всего лишь два слова «Что это».

В ответ получим анализ и пояснение надписи на изображении – что означает она, если её информация имеет техническое, литературное, прикладное или иное значение. Если надпись связана с определённой областью знаний (термин, инструкция или отсылка), ChatGPT может пояснить или расширить информацию.


Gemini

Нейросетевой чат-бот от Google Gemini поддерживает загрузку имеющихся на компьютере изображений и вставку их из буфера обмена. Принцип работы с ним тот же, что с ChatGPT – что надо сделать с надписью, то и просим чат-бота в сопровождении к загруженному изображению. Например, можно просто попросить перевести текст на изображении на нужный язык.

В ответ получим и перевод, и анализ изображения.


Copilot

Штатный ИИ-ассистент Windows 11 Copilot от Microsoft также поддерживает загрузку имеющихся на компьютере изображений и вставку их из буфера обмена. Отправляя ему изображение, также просим чат-бот сделать то, что нам нужно. Например, получить толкование результатов какого-то бенчмарка.



В ответ получаем справку о бенчмарке, о его тестах и наших значениях. Далее можно утонить у бота, насколько хороши результаты наших тестов, т.е. насколько производительно наше устройство.


Aria

Если вы, друзья, используете браузер Opera, можете попросить распознать или перевести текст интегрированный в этот браузер нейросетевой чат-бот Aria. Либо же со старта получить справку о надписи. Aria поддерживает загрузку имеющихся на компьютере изображений и вставку их из буфера обмена. И, кстати, в Opera есть встроенный скриншотер с возможностью копирования снимка в буфер обмена, правда, работает этот скриншотер только в рамках окна браузера.

tagsКлючевые слова
     Рекомендуем другие статьи по данной теме
Ctrl
Enter
Заметили ошибку
Выделите и нажмите Ctrl+Enter

Добавить комментарий

Комментарии (0)

Комментариев пока-что нет

Но! Вы можете стать первым. Поделитесь своим впечатлением о статье или задайте свой вопрос!