Как узнать, сгенерирован ли контент нейросетью
Содержание:
В этой публикации, друзья, рассмотрим, как узнать, сгенерирован ли контент нейросетью. Похоже, время плагиата и борьбы с ним подходит к концу, ибо борцы с «неправильным» контентом получили новую проблему – нейросети. Нейросети научились генерировать контент на достаточно высоком уровне, его часто не отличить от созданного человеком. Яркий пример – распространившиеся на просторах Тик Тока и Телеграмма каверы и новые песни культовой группы «Сектор Газа». Каверы и написанные поклонниками группы песни «спеты» нейросетью в поразительной идентичности с голосом и манерой исполнения умершего 24 года назад лидера группы Юрия Хоя. Но если здесь использование нейросети очевидно, то во многих других случаях – нет.
↑ ***
Друзья, генерация контента нейросетью – не зло, как плагиат. Нейросеть – это лишь инструмент, который человек использует для создания контента. Человек задаёт тему, контекст, вопросы, запросы, уточнения для генерации текста. Описывает, что должно быть изображено на картинке. Как должна быть спета песня. Что должно быть на видео. Любой инструмент можно использовать как во благо, так и для сотворения зла, и нейросети – не исключение. Злом в этом ключе является использование сгенерированного текста без проверки фактов изложенного, использование любого сгенерированного контента с целью обмана, наживы, в любых иных деструктивных целях. Если же контент создан во благо общественности, по задумке и под чётким контролем человека, какая разница, каким образом он создавался.
Тем не менее проверка контента на предмет генерации нейросетью может потребоваться для выявления фейков, оценки качества контента, в образовательных, авторских и юридических моментах.
↑ Способы проверки контента на предмет генерации нейросетью
Изображения, видео и аудио, сгенерированные нейросетью, если они невысокого качества, определить можно на глаз или на слух. Сгенерированные изображения и видеоряд могут содержать артефакты и искажения, несоответствия в освещении и тенях, нехарактерные для реальных фото черты, текстуры, линии, детали, избыточную симметрию, несуразные или часто повторяющиеся элементы. Могут не содержать мелкие детали или текстуры, которые обычно присутствуют на изображениях реальных объектов.
Сгенерированные видео могут содержать артефакты сжатия, такие как блочность или размытие. В сгенерированных видео может быть нарушена синхронизация движения губ и произносимых слов человеком. Сгенерированный голос может звучать монотонно, безжизненно или иметь неестественные интонации.
Со сгенерированными текстами сложнее. Созданные современными качественными языковыми моделями нейросети по грамотным человеческим запросам тексты часто не отличить от написанных человеком. Ибо такие языковые модели обучены на огромных объёмах данных, включая книги, статьи и интернет-контент. Что позволяет моделям искусно имитировать человеческую речь с использованием естественных конструкций предложений, с качественной грамматикой и лексикой. Качественные языковые модели нейросети понимают тон, стиль и тематику текста, что делает их ответы уместными. Часто человек редактирует и дорабатывает сгенерированный нейросетью текст, внося оригинальные мысли или стилистические изменения. Качественно сгенерированный текст сложно определить, что это результат работы нейросети, а текст с правками человека тем более.
Для проверки контента на предмет генерации его нейросетью существуют специализированные онлайн-сервисы – детекторы контента. Они анализируют контент на наличие признаков, характерных для сгенерированного. Для текстов это повторяемость и предсказуемость фраз, стереотипные фразы и клише, отсутствие идиом и разговорных выражений, логические несостыковки, общие и расплывчатые формулировки, отсутствие личного опыта и мнения и пр. Для изображений и видео это наличие артефактов и других признаков, несоответствия в освещении и тенях, неестественные текстуры, искажения перспективы и геометрии, проблемы с деталями и пр. Для аудио это неестественность звучания, спектральные аномалии аудиосигнала, артефакты синтеза, повторяющиеся паттерны и пр.
Детекторы контента на предмет возможности его генерации нейросетью свой вердикт выносят, как правило, в виде процентной вероятности, того, что контент был создан нейросетью. В случае с изображениями, видео и аудио процент вероятности обычно более определён и приближен либо к нулю, либо к 100%, поскольку анализ сервисов-детекторов опирается на более объективные цифровые признаки, что делает их выводы более однозначными. Процентная вероятность при анализе текстов на предмет генерации нейросетью чаще колеблется, потому что текст как форма информации более вариативен, субъективен и, соответственно, сложно определяем.
Ну и, друзья, давайте рассмотрим несколько сервисов по типу детекторов контента на предмет генерации нейросетью.
↑ Hive Moderation
Hive Moderation – это проект по модерации онлайн-сообществ, предлагает различные решения в рамках своей деятельности, в числе которых бесплатный детектор контента на предмет его генерации нейросетью. Не требует регистрации. В числе типов проверяемого контента – изображения, видео и аудио. Загружаем в сервис что-то из этого, и получаем вердикт в виде процентной вероятности того, что контент сгенерирован нейросетью. Если контент создан человеком, вероятность будет низкой.
Если контент сгенерирован нейросетью – вероятность будет высокой.
На странице детектора нам предлагается браузерное расширение для использования возможностей сервиса в режиме интеграции с браузером. Расширение внедряет в контекстное меню браузера свой пункт. С помощью этого пункта, вызванном на веб-контенте, можно оперативно проверять его. И получать вердикт детектора в небольшом всплывающем окошке.
Расширение проверяет на страницах сайта не только изображение, аудио и видео, но также текст.
Пользоваться расширением также можно, перетаскивая изображения, видео и аудио в специальное окошко, открывающееся кнопкой внизу справа. В это же окошко можно перетаскивать или вставлять текст.
↑ Illuminarty
Illuminarty – это бесплатный сервис обнаружения сгенерированных нейросетью изображений и текста. Не требует регистрации. Для проверки изображений загружаем их на сайт и получаем вердикт в виде процентной вероятности генерации нейросетью. Здесь также вероятность будет низкой для картинок и фото, сделанных человеком.
И будет высокая вероятность для плодов творчества рисующих нейросетей.
Для проверки текста переключаемся на его вкладку, вставляем текст, отправляем на проверку. И получаем результат в виде той же процентной вероятности генерации текста языковой моделью нейросети – чем выше, тем вероятнее.
↑ Is It AI?
Is It AI? – ещё один сервис-детектор, проверяющий текст и изображения, сгенерированы ли они нейросетью. Текст можно проверить бесплатно и без регистрации. Для проверки изображений нужна регистрация, и есть лимит – только 15 изображений в месяц. Выбираем на сайте проверяемый контент – текст или изображения.
При выборе текста вставляем его в форму сайта, отправляем на проверку. И получаем результат в виде процентной вероятности генерации текста нейросетью и написания человеком.
Для проверки изображения загружаем его на сайт, запускаем проверку. И получаем результат в виде процентной вероятности его создания нейросетью.
Или человеком.
↑ Другие сервисы-детекторы
В числе прочих сервисов для проверки контента на предмет генерации контента нейросетями:
- GPTZero – детектор текста, поддерживает его вставку и загрузку из документов, предусматривает различные дополнительные функции. Базовые возможности сервиса доступны бесплатно и без регистрации;
- BrandWell AI Checker – детектор текста, поддерживает его вставку, загрузку из документов и получение по ссылке. Можно использовать без регистрации, бесплатно доступно ограниченное число символов проверяемого текста;
- Copyleaks – детектор текста. Поддерживает его вставку, может работать через своё расширение в браузере. Можно использовать без регистрации, но бесплатно доступно ограниченное число проверок;
- AI image detector от Sightengine.com – детектор изображений в составе возможностей платформы по автоматической модерации контента;
- AI image detector – модель детектора для проверки изображений, выложенная на платформе Hugging Face, это сообщество машинного обучения. Для использования нужен аккаунт платформы.