Нейросети для распознавания текста
Содержание:
В этой публикации, друзья, рассмотрим нейросети для распознавания текста. В плане выполнения этой задачи нейросети превосходят традиционные алгоритмы OCR - могут понимать искажённый текст, текст на сложных фонах, рукописный текст, анализировать текст в контексте, самообучаются. Для решения насущных задач обывателей, коим нет надобности оцифровывать архивные документы в промышленных масштабах, а нужны простые разовые операции типа копирования надписей на экране компьютера или фото, с нейросетей будет больше проку, чем со специализированных OCR-программ и веб-сервисов. Нейросети с надписями на картинках разве что не творят чудеса.
↑ ***
Друзья, возможно, кто не знает, распознавание текста на изображениях есть в числе штатных функций Windows 11. Её современное приложение-скриншотер «Ножницы» в 2023 году обзавелось поддержкой распознавания текста на созданных этим приложением скриншотах. Если нужно оперативно скопировать текст системной или программной ошибки на экране, надписи в интерфейсе, надписи на изображениях и т.п., делаем этим приложением скриншот, соответственно, окна ошибки, участка интерфейса, изображения в просмотрщике и т.п. И далее в открывшемся редакторе «Ножниц» задействуем распознавание.
Оперативно и бесплатно распознать небольшой текст на картинках можно с помощью сервисов визуального поиска от Microsoft, Яндекса и Google. Последний даже предусматривает свой инструмент, интегрированный в браузер в Google Chrome для удобного использования. Также в Интернете есть много бесплатных и условно-бесплатных сервисов распознавания текста, работающих с большими масштабами задач, в частности, с многостраничными документами.
Визуальный поиск, друзья, хорош тем, что, помимо распознавания текста, предлагает результаты поиска изображений, схожих с исходным, и со связанным содержимым. А некоторые сервисы ещё и предусматривают перевод распознанного текста. Если текст распознать нужно для перевода надписи или поиска по ней информации в Интернете, визуальный поиск сходу решает эти задачи. Языковые нейросети же сходу могут больше – и распознать надпись, и перевести её, и растолковать, если надо. И даже предоставить любую дополнительную информацию, если что. Что же это за нейросети такие, которые могут распознавать текст на изображениях и выдавать по нему любую информацию?
↑ Llama OCR
Нейросеть Llama OCR не выдаёт информации по надписям на изображении, но являет собой специализированную языковую модель, заточенную специально для распознавания текста. Разрабатывается как открытое ПО, активно поддерживается сообществом с GitHub, постоянно совершенствуется. А главное – доступна бесплатно. Пока что Llama OCR поддерживает распознавание с изображений, позже в ней обещается поддержка PDF-документов. У этой нейросети высокая точность распознавания. И что интересно: распознанный текст предлагается нам не в виде сырого текста, а в формате структурированного документа Markdown, т.е. форматированного текста. Который удобен для копирования как целиком, так и частями. За надобностью можно сохранить форматирование при переносе в текстовый редактор.
Для использования Llama OCR нужно всего лишь загрузить или перетащить изображение в специальную форму на сайте нейросети.
↑ ChatGPT
Распознать текст можно попросить передового нейросетевого чат-бота – ChatGPT. Он поддерживает создание скриншотов, создание фото камерой компьютера, загрузку имеющихся на компьютере изображений, а также вставку их из буфера обмена. При отправке боту изображения с надписями можем в свободной форме попросить его только распознать текст, либо же распознать и перевести. Если нам нужна информация по надписи, пишем всего лишь два слова «Что это».
В ответ получим анализ и пояснение надписи на изображении – что означает она, если её информация имеет техническое, литературное, прикладное или иное значение. Если надпись связана с определённой областью знаний (термин, инструкция или отсылка), ChatGPT может пояснить или расширить информацию.
↑ Gemini
Нейросетевой чат-бот от Google Gemini поддерживает загрузку имеющихся на компьютере изображений и вставку их из буфера обмена. Принцип работы с ним тот же, что с ChatGPT – что надо сделать с надписью, то и просим чат-бота в сопровождении к загруженному изображению. Например, можно просто попросить перевести текст на изображении на нужный язык.
В ответ получим и перевод, и анализ изображения.
↑ Copilot
Штатный ИИ-ассистент Windows 11 Copilot от Microsoft также поддерживает загрузку имеющихся на компьютере изображений и вставку их из буфера обмена. Отправляя ему изображение, также просим чат-бот сделать то, что нам нужно. Например, получить толкование результатов какого-то бенчмарка.
В ответ получаем справку о бенчмарке, о его тестах и наших значениях. Далее можно утонить у бота, насколько хороши результаты наших тестов, т.е. насколько производительно наше устройство.
↑ Aria
Если вы, друзья, используете браузер Opera, можете попросить распознать или перевести текст интегрированный в этот браузер нейросетевой чат-бот Aria. Либо же со старта получить справку о надписи. Aria поддерживает загрузку имеющихся на компьютере изображений и вставку их из буфера обмена. И, кстати, в Opera есть встроенный скриншотер с возможностью копирования снимка в буфер обмена, правда, работает этот скриншотер только в рамках окна браузера.