🟩 Дифференциация текстов естественного и искусственного происхождения

Стремительное развитие генеративных нейросетевых моделей (ChatGPT, GPT-4, Gemini, DeepSeek, Llama и др.) поставило перед судебной экспертизой принципиально новый вызов: как отличить текст, созданный человеком, от текста, сгенерированного искусственным интеллектом? 🤖✍️

Вопрос, вынесенный в заголовок, сегодня является одним из самых актуальных в автороведческой и лингвистической экспертизе. Как справедливо отмечает Джордж Микрос в своем исследовании, опубликованном в декабре 2025 года, большие языковые модели представляют собой двойной вызов для судебной лингвистики: с одной стороны, они служат мощными аналитическими инструментами, с другой — дестабилизируют фундаментальные предположения об идиолекте через имитацию стиля и порождение синтетических текстов.

В настоящей статье, подготовленной в научно-методическом ключе, мы:

рассмотрим теоретические и методические основы дифференциации человеческих и ИИ-текстов;
представим три развернутых примера из экспериментальной и практической деятельности;
сошлемся на актуальные российские и зарубежные методики и исследования (включая работу А.В. Громовой 2025 года, исследование ИТМО 2025 года, труды Сколтеха и МФТИ);
дадим практические рекомендации по подготовке материалов для экспертизы.

Ключевой тезис: Да, современная судебная автороведческая экспертиза располагает как качественными, так и количественными (стилометрическими) методами для выявления признаков искусственной нейросетевой генерации текста. Однако точность диагностики зависит от объема текста, используемой модели ИИ, наличия образцов для сравнения и — что особенно важно — от осведомленности эксперта о постоянном совершенствовании генеративных алгоритмов.

Глава 1. Теоретические основания: чем принципиально отличается ИИ-текст от человеческого?

1.1. Феномен «гладкости» и статистической однородности

Человеческий авторский стиль, как правило, характеризуется уникальным набором лексических, синтаксических и стилистических особенностей, формирующих идиостиль. Сюда входят специфические речевые обороты, идиомы, метафоры, эмоциональные оттенки, проявления личного опыта и субъективного мнения, а также небольшие грамматические или пунктуационные «несовершенства», которые делают текст «живым».

В отличие от этого, текст, сгенерированный искусственным интеллектом (на современном этапе развития технологий), зачастую имеет следующие отличительные черты:

Чрезмерная гладкость и нейтральность — отсутствие ярко выраженных стилистических особенностей.
Элементы шаблонности или повторений — алгоритмы ИИ стремятся к логичности и грамматической корректности, но могут проявлять недостаток эмоциональной глубины и оригинальности мысли
.
Статистическая предсказуемость — ИИ выбирает наиболее вероятные продолжения фраз на основе обучающей выборки, что приводит к определенной «усредненности» языка.

Как отмечается в исследовании ученых ИТМО (2025 г.), система на основе больших языковых моделей анализирует такие лингвистические признаки, как длина предложений, разнообразие лексики, распределение частей речи и другие параметры, достигая точности 94% при анализе текстов, полностью созданных человеком или машиной.

1.2. Идиостиль против «машинного слепка»

Одно из ключевых различий лежит в плоскости идиостиля — совокупности устойчивых языковых и когнитивных признаков, отражающих уникальный способ мышления автора. Согласно исследованиям, даже самые продвинутые LLM, такие как GPT-4o, способны имитировать поверхностные стилистические черты, но демонстрируют обнаружимые различия с человеческими писателями при углубленном стилометрическом анализе

Интересные данные приводит исследование на японском языковом материале: три интегративных стилометрических признака (фразовые паттерны, биграммы частей речи и униграммы служебных слов) позволили достичь идеального различения текстов человека и ИИ на основе многомерного шкалирования. Случайный лес классификатор показал точность 99,8%.

1.3. Проблема маскировки: ИИ как инструмент сокрытия авторства

Отдельного внимания заслуживает использование ИИ для маскировки письменной речи автора. Как отмечается в публикации Кемеровского государственного университета (2025 г.), искусственная нейросетевая генерация текста становится новым видом маскировки, позволяющим скрыть индивидуальные черты идиостиля.

Авторами исследования (Государственный институт русского языка им. А.С. Пушкина и Московский исследовательский центр) выявлены типовые языковые признаки сгенерированных текстов, включая нарушения в импликативной и референциальной семантике. Установлено наличие корреляции между наполнением промпта дополнительными параметрами и результатом решения языковой моделью задачи по маскировке

Глава 2. Методическая база: как эксперт определяет происхождение текста?

2.1. Качественный лингвистический анализ

В рамках автороведческой экспертизы применяется комплексный подход, включающий:

Композиционно-семантический анализ — исследование структуры текста, логики изложения, связности частей, наличия смысловых разрывов или неоправданных повторов.

Структурно-семантический анализ — изучение синтаксических конструкций, типов предложений, способов выражения причинно-следственных связей.

Грамматико-синтаксический анализ — выявление особенностей морфологии, синтаксиса, типичных ошибок или, напротив, их отсутствия (что само по себе может быть маркером ИИ).

К характерным признакам сгенерированных текстов, по данным исследований, относятся:

Признак	Проявление в ИИ-тексте	Проявление в человеческом тексте
Эмоциональность	Нейтральная, «стерильная»	Вариативная, часто выраженная
Лексическое разнообразие	Умеренное, статистически предсказуемое	Высокое, с уникальными оборотами
Синтаксическая сложность	Иногда избыточная (в научных текстах)	Естественная, отражающая привычки автора
Повторы	Шаблонные фразы, клише	Индивидуальные, часто неосознаваемые
Ошибки	Редки или отсутствуют (грамматически идеальны)	Естественные, характерные для конкретного автора

2.2. Количественный стилометрический анализ

Стилометрический анализ включает статистическое изучение:

Частотности употребления служебных слов (предлогов, союзов, частиц).
Распределения частей речи.
Длины предложений и слов.
Показателей лексического разнообразия (TTR).
N-граммных паттернов (последовательностей из n символов или слов).

Как показал Микрос (2025), современные стилометрические методы позволяют выявлять различия между человеческими и ИИ-текстами, однако они уязвимы для стратегий обфускации (намеренного запутывания), таких как замена гомоглифов

2.3. Интерпретируемые признаки: прорыв российских ученых

Особого внимания заслуживает работа исследователей из Сколтеха, МФТИ, Института искусственного интеллекта AIRI и других научных центров, принятая на конференцию Findings of ACL 2025. Ученые разработали метод, позволяющий не просто отличать тексты человека от ИИ, но и понимать, по каким именно признакам классификатор принимает решение.

С использованием техники разреженных автокодировщиков (Sparse Autoencoders, SAE) исследователи выделили из внутренних состояний нейросети тысячи «атомарных» признаков, многие из которых поддаются интерпретации:

Признак №3608 (16-й слой SAE) — отвечает за синтаксическую сложность. Усиление этого признака заставляет нейросеть создавать чрезмерно запутанные предложения.
Признак №4645 — отвечает за степень «уверенности» текста.
Признак №6587 — связан с многословными вступлениями и чрезмерно подробными объяснениями.

Этот подход создает основу для разработки объяснимых детекторов, которые смогут предоставлять отчет о том, какие именно аномалии были найдены в тексте, что критически важно для судебного процесса.

Глава 3. Три примера из практики и экспериментальных исследований

Пример 1. Экспериментальное исследование ИТМО (2025): точность 94%

📍 Контекст: Ученые Университета ИТМО разработали инструмент на основе больших языковых моделей для детекции происхождения русскоязычных текстов.

🔬 Методология: Исследователи создали собственный корпус из более чем четырех тысяч русскоязычных текстов разных типов:

Тексты, написанные людьми.
Тексты, полностью сгенерированные моделями ChatGPT, DeepSeek и Gemini.
Перефразированные версии человеческих текстов.

Инструмент использует две независимые языковые модели для оценки «степени неожиданности» текста, а также анализирует лингвистические признаки: длину предложений, разнообразие лексики, распределение частей речи.

✅ Результаты: Точность системы достигла 94% при анализе текстов, полностью созданных человеком или машиной, и около 80% — для гибридных текстов (перефразированных ИИ).

📎 Значение для экспертизы: Исследование подтверждает принципиальную возможность дифференциации с высокой точностью, но также указывает на сложности при анализе текстов, прошедших постобработку (обфускацию). Вячеслав Шаламов, научный руководитель проекта, отмечает, что сервис может быть использован в образовании для проверки академических работ, в медиаиндустрии для маркировки контента, а также в бизнесе для контроля корпоративной документации.

Пример 2. Сравнение семи LLM и человека (Япония, 2025): идеальное различение

📍 Контекст: Исследователи под руководством Wataru Zaitsu сравнили 100 текстов, написанных людьми (общественные комментарии), с 350 текстами, сгенерированными семью большими языковыми моделями: ChatGPT (GPT-4o и o1), Claude3.5, Gemini, Microsoft Copilot, Llama3.1 и Perplexity.

🔬 Методология: Использовалось многомерное шкалирование (MDS) для визуализации различий на основе трех стилометрических признаков: фразовых паттернов, биграмм частей речи и униграмм служебных слов.

✅ Результаты:

Три интегративных стилометрических признака достигли идеального различения на измерениях MDS.
Классификатор случайного леса показал точность 99,8%.
Интересно, что только Llama3.1 продемонстрировал отличительные характеристики по сравнению с другими шестью LLM.
Люди (403 участника онлайн-опроса) показали ограниченные способности к детекции ИИ-текстов: участники преимущественно полагались на поверхностные впечатления, основанные на фразеологии, выражениях, окончаниях слов, союзах и знаках препинания. Более продвинутый ChatGPT(o1) (отражающий относительно большую беглость и полированность) tended to mislead участников, заставляя их ошибочно полагать текст «написанным человеком».

📎 Значение для экспертизы: Исследование убедительно показывает, что стилометрические методы превосходят человеческую интуицию в детекции ИИ-текстов. Однако оно также выявляет проблему: чем более «полированным» становится ИИ, тем сложнее его отличить невооруженным глазом. Это подчеркивает необходимость экспертного, а не бытового анализа.

Пример 3. Маскировка письменной речи через нейросетевую генерацию (Россия, 2025)

📍 Контекст: Исследователи Государственного института русского языка им. А.С. Пушкина и Московского исследовательского центра изучили возможность использования ИИ для маскировки авторского идиостиля.

🔬 Методология: Сравнивались тексты-оригиналы (написанные человеком) и тексты, сгенерированные большой языковой моделью GPT-4.5 на основе промптов, содержащих задание замаскировать авторские черты. Применялись методы композиционно-семантического, структурно-семантического и грамматико-синтаксического анализа.

✅ Результаты:

Выявлены дефекты сгенерированных текстов, обусловленные нарушениями в импликативной и референциальной семантике (т.е. в скрытых смыслах и отсылках к реальному миру).
Установлено, что наполнение промпта дополнительными параметрами коррелирует с результатом маскировки.
Сформулирован перечень типовых языковых признаков сгенерированных текстов, которые могут быть использованы в судебной автороведческой экспертизе.

📎 Значение для экспертизы: Эта работа показывает, что ИИ может использоваться не только для создания текстов «с нуля», но и для намеренного сокрытия авторства — что создает новые вызовы для судебных экспертов. Формирование диагностического комплекса признаков искусственной нейросетевой генерации является актуальной научной задачей.

Глава 4. Ограничения и уязвимости современных методов детекции

Несмотря на впечатляющие успехи, необходимо отдавать себе отчет в ограничениях существующих подходов.

4.1. Высокий уровень ложноположительных срабатываний

Как отмечает Микрос (2025), текущие методы детекции ИИ-текстов, будь то классификаторные, стилометрические или водо-маркировочные подходы, сталкиваются с существенными ограничениями: высокий уровень ложноположительных срабатываний для носителей неродного английского языка.

Это означает, что текст, написанный человеком, для которого язык не является родным, может быть ошибочно классифицирован как ИИ-генерация. Для судебной экспертизы это критическое предостережение.

4.2. Уязвимость для стратегий обфускации

Исследования показывают, что детекторы уязвимы для стратегий обфускации, включая замену гомоглифов (визуально сходных символов), добавление лишних пробелов, артиклей или нестандартных символов. Как отмечают создатели SAE-детектора из Сколтеха и МФТИ, их метод позволяет обнаруживать некоторые осознанные попытки скрыть факт генерации, но это область активных исследований.

4.3. Способность LLM к имитации индивидуального стиля

Вопрос о том, может ли ИИ «обмануть» судебного лингвиста, имитируя конкретного человека, исследован в работе Манчестерского университета (2025). Изучалась способность GPT-4o имитировать индивидуальный язык с использованием четырех стратегий промптинга (наивный прямой промптинг, системно-пользовательский промптинг, самопромптинг и промптинг «дерево мыслей»). Оценка проводилась с использованием множества инструментов верификации авторства, включая n-граммное трассирование, метод Impostors, LambdaG и AdHominem.

Вывод: Хотя LLM могут аппроксимировать стиль письма человека на поверхностном уровне, методы судебной лингвистики остаются эффективными, особенно когда лексические сигналы, связанные с содержанием, замаскированы. Результаты подчеркивают устойчивость методов верификации авторства и показывают, что подлинная языковая индивидуальность остается трудно воспроизводимой даже для продвинутых языковых моделей.

4.4. Необходимость методологической перестройки

Микрос делает важное заключение: судебная лингвистика требует методологической перестройки, чтобы оставаться научно обоснованной и юридически допустимой. Предлагаемые адаптации включают:

Гибридные человеко-машинные рабочие процессы.
Объяснимые парадигмы обнаружения (выходящие за рамки бинарной классификации).
Режимы валидации, измеряющие ошибки и смещения в различных популяциях.

Ключевое утверждение остается верным: язык раскрывает информацию о своем производителе — но мы должны учитывать все более сложные цепочки человеческого и машинного авторства.

Глава 5. Практические рекомендации: как подготовить материалы для экспертизы

Для успешного проведения экспертизы происхождения текста (человек/ИИ) необходимо предоставить специалистам максимально полные материалы.

5.1. Исследуемый текст

Оригинальный электронный файл (в исходном формате) с сохранением метаданных (дата создания, автор файла, история изменений).
Для публикаций в интернете: скриншоты с указанием URL, даты публикации, имени автора (если указано).
Для переписки в мессенджерах: протокол осмотра телефона/компьютера следователем или судом (одиночный скриншот может быть оспорен).

Объем текста: Чем длиннее текст, тем больше статистических и стилистических маркеров можно выявить. Оптимально — от 300–500 слов. При меньшем объеме вероятность категорического вывода снижается.

5.2. Сравнительные образцы

Желательно предоставить:

Образцы текстов, заведомо написанных человеком (предполагаемым автором или любым другим лицом — для контраста).
Образцы текстов, заведомо сгенерированных ИИ (если есть доступ к конкретной модели, предположительно использовавшейся).

Чем больше данных для сравнения, тем более точным и обоснованным будет заключение эксперта.

5.3. Контекстная информация

Сведения об обстоятельствах создания текста (время, место, предполагаемые цели).
Информация о предполагаемом авторе-человеке (образование, профессиональная сфера, родной язык).
Данные о том, какая модель ИИ могла быть использована (если известно).

Глава 6. Процессуальные аспекты: статус заключения в суде

Заключение эксперта о происхождении текста (человек/ИИ) может быть использовано в суде как доказательство, однако следует учитывать следующие моменты:

Само по себе экспертное заключение является лишь одним из доказательств и оценивается судом в совокупности с другими материалами дела.
В связи с новизной методической базы, суды могут требовать дополнительного обоснования методов и подтверждения их надежности (со ссылками на публикации в рецензируемых научных журналах).
Экспертное заключение может быть как категорическим, так и вероятностным — в зависимости от объема и качества представленных материалов.

Глава 7. Заключение: итоговый ответ

Вернемся к исходному вопросу: «Можно ли с помощью экспертизы определить, был ли текст написан человеком или сгенерирован искусственным интеллектом?»

Ответ: Да, современная судебная автороведческая экспертиза располагает научно обоснованными методами для дифференциации человеческих и ИИ-текстов. Как показывают экспериментальные исследования, точность может достигать 94–99% при анализе достаточного объема текста и использовании комплексной методики.

Однако следует учитывать:

Постоянное совершенствование генеративных моделей делает задачу все более сложной.
Существует риск ложноположительных срабатываний (особенно для текстов неносителей языка).
ИИ может использоваться для маскировки авторского идиостиля, что создает новые вызовы.
Методология требует дальнейшего развития и стандартизации для соответствия критериям допустимости судебных доказательств.

Ключевой вывод фундаментального исследования Микроса (2025) звучит так: основная идея дисциплины — что язык раскрывает информацию о своем создателе — остается верной, но мы должны адаптироваться к все более сложным цепочкам человеческого и машинного авторства.

🟩 Приглашение в офис Федерации судебных экспертов

Уважаемые коллеги! Вы ознакомились с материалом, содержащим:

научное обоснование возможности дифференциации человеческих и ИИ-текстов;
три примера из передовых исследований (ИТМО, Япония, Россия);
ссылки на актуальные методики, включая работы 2025 года;
практические рекомендации по подготовке материалов.

Однако никакая статья не заменит живой консультации с экспертом, который посмотрит на ваш конкретный текст и даст профессиональную оценку: возможно ли определить его происхождение, какие образцы необходимо собрать, какова вероятность категорического вывода.

Федерация судебных экспертов предлагает вам:

✅ Бесплатную предэкспертную оценку текста на предмет признаков ИИ-генерации. Пришлите его на почту или привезите в офис — мы проведем первичный анализ и скажем, есть ли шанс на успех.

✅ Скидку 10% на экспертизу происхождения текста для тех, кто ссылается на эту статью (промокод: AIDETECT 2025).

✅ Использование актуальных методик, включая стилометрический анализ, количественные методы и интерпретируемые признаки (SAE).

✅ Сроки проведения: 10–20 рабочих дней (в зависимости от объема текста и сложности).

🌐 Сайт

🕒 Режим работы офиса:

Пн–Пт: 10:00 – 19:00
Сб: 11:00 – 15:00 (по записи)

✨ Что вы получите при личном визите?

Экспресс-анализ вашего текста (20 минут) — мы используем стилометрические методы для предварительной оценки вероятности ИИ-генерации.
Памятку «Признаки ИИ-текстов: практический чек-лист» (с конкретными маркерами для самостоятельной предварительной оценки).
Кофе и печенье ☕🍪 (потому что разговоры об ИИ требуют подпитки).
Скидочную карту 15% на все последующие экспертизы в течение года.

Запишитесь уже сегодня! Количество мест на бесплатную консультацию ограничено. Не позволяйте искусственному интеллекту вводить суд в заблуждение — пусть истину установит экспертиза. 🧐⚖️

Федерация судебных экспертов — ваш надежный партнер в разграничении человеческого и машинного слова.