fantlab ru



  Лингвистический анализ произведения
Произведение: Ущелье белых духов
Автор: Валентин Новиков
Дата проведения анализа: 18 сентября 2022 года

Общая статистика

Длина текста, знаков:265523
Слов в произведении (СВП):40148
Приблизительно страниц:137
Средняя длина слова, знаков:5.15
Средняя длина предложения (СДП), знаков:48.41
СДП авторского текста, знаков:60.56
СДП диалога, знаков:36.07
Доля диалогов в тексте:37.06%
Доля авторского текста в диалогах:6.23%

Активный словарный запас

Использовано уникальных слов:6064
Активный словарный запас (АСЗ):5856
Активный несловарный запас (АНСЗ):208
Удельный АСЗ на 3000 слов текста:1128.39
Удельный АСЗ на 10000 слов текста:2580.68 —> 9579-е место в рейтинге УАСЗ-10000

Части речи

Неопределённых частей речи (НОЧР), слов:8973 (22.35% от СВП)
Определённых частей речи (ОЧР), слов:31175 (77.65% от СВП)
Из них (принимая ОЧР за 100%):
          Существительное9750 (31.28%)
          Прилагательное3230 (10.36%)
          Глагол8081 (25.92%)
          Местоимение-существительное2955 (9.48%)
          Местоименное прилагательное1546 (4.96%)
          Местоимение-предикатив6 (0.02%)
          Числительное (количественное)360 (1.15%)
          Числительное (порядковое)71 (0.23%)
          Наречие2050 (6.58%)
          Предикатив316 (1.01%)
          Предлог3821 (12.26%)
          Союз3189 (10.23%)
          Междометие581 (1.86%)
          Вводное слово91 (0.29%)
          Частица2388 (7.66%)
          Причастие335 (1.07%)
          Деепричастие77 (0.25%)
Служебных слов:14654 (47.01%)

Знаки препинания

Частоты знаков препинания (среднее количество на 1000 слов):
          ,    запятая102.77
          .    точка109.55
          -    тире24.16
          !    восклицательный знак4.56
          ?    вопросительный знак14.20
          ...    многоточие6.28
          !..    воскл. знак с многоточием0.00
          ?..    вопр. знак с многоточием0.02
          !!!    тройной воскл. знак0.00
          ?!    вопр. знак с восклицанием0.10
          "    кавычка3.64
          ()    скобки0.00
          :    двоеточие2.91
          ;    точка с запятой0.05




Распознавание автора текста

Алгоритм распознавания автора текста, разработанный в 2008 году Львовым Алексеем (creator) для Лаборатории Фантастики, основан на сравнении лингвистического профиля текста с идентичными по структуре лингвистическими профилями авторов для выявления наиболее точного совпадения. Лингвопрофили авторов вычисляются заблаговременно и хранятся в базе данных как массивы усреднённых показателей и их среднеквадратичных отклонений по всем текстам автора. Таких показателей насчитывается более тысячи, часть из которых приведена выше.

Эмпирический подсчёт показал, что совокупный анализ этих данных, взятых в весовых долях, позволяет определить автора романа с точностью 98.79%, рассказа — 84.32% (при условии, что в базе данных имеется лингвистический профиль истинного автора). Алгоритм сложен и обладает рядом инновационных решений, что позволяет достичь высокой точности в сравнении с прототипами, основанными на анализе одних лишь символьных биграмм.

Алгоритм работы лингвоанализатора кратко описан в статье «Лингвистический анализ текста и распознавание автора».


АвторСовпадение с лингвопрофилем автора (в условных единицах)
1. Валентин Новиков
 42
2. Анна Гурова
 37
3. Олег Верещагин
 37
4. Дмитрий Емец
 36
5. Марина и Сергей Дяченко
 36
6. Дмитрий Скирюк
 36
7. Елена Хаецкая
 36
8. Аркадий и Борис Стругацкие
 36
9. Владислав Крапивин
 35
10. Елена Первушина
 35
...смотреть весь список >>
⇑ Наверх