fantlab ru



  Лингвистический анализ произведения
Произведение: Леди Макбет Мценского уезда
Автор: Николай Лесков
Дата проведения анализа: 19 сентября 2022 года

Общая статистика

Длина текста, знаков:84396
Слов в произведении (СВП):12138
Приблизительно страниц:40
Средняя длина слова, знаков:5.01
Средняя длина предложения (СДП), знаков:80.16
СДП авторского текста, знаков:107.16
СДП диалога, знаков:58.62
Доля диалогов в тексте:40.76%
Доля авторского текста в диалогах:22.91%

Активный словарный запас

Использовано уникальных слов:3005
Активный словарный запас (АСЗ):2783
Активный несловарный запас (АНСЗ):222
Удельный АСЗ на 3000 слов текста:1101.96
Удельный АСЗ на 10000 слов текста:2601.90 отсутствует в рейтинге УАСЗ-10000

Части речи

Неопределённых частей речи (НОЧР), слов:2924 (24.09% от СВП)
Определённых частей речи (ОЧР), слов:9214 (75.91% от СВП)
Из них (принимая ОЧР за 100%):
          Существительное3102 (33.67%)
          Прилагательное816 (8.86%)
          Глагол2005 (21.76%)
          Местоимение-существительное980 (10.64%)
          Местоименное прилагательное672 (7.29%)
          Местоимение-предикатив3 (0.03%)
          Числительное (количественное)100 (1.09%)
          Числительное (порядковое)33 (0.36%)
          Наречие487 (5.29%)
          Предикатив77 (0.84%)
          Предлог1190 (12.92%)
          Союз1198 (13.00%)
          Междометие151 (1.64%)
          Вводное слово22 (0.24%)
          Частица789 (8.56%)
          Причастие144 (1.56%)
          Деепричастие29 (0.31%)
Служебных слов:5034 (54.63%)

Знаки препинания

Частоты знаков препинания (среднее количество на 1000 слов):
          ,    запятая139.73
          .    точка61.21
          -    тире27.02
          !    восклицательный знак8.57
          ?    вопросительный знак12.03
          ...    многоточие1.98
          !..    воскл. знак с многоточием0.25
          ?..    вопр. знак с многоточием0.08
          !!!    тройной воскл. знак0.00
          ?!    вопр. знак с восклицанием0.08
          "    кавычка5.68
          ()    скобки0.00
          :    двоеточие8.98
          ;    точка с запятой7.09




Распознавание автора текста

Алгоритм распознавания автора текста, разработанный в 2008 году Львовым Алексеем (creator) для Лаборатории Фантастики, основан на сравнении лингвистического профиля текста с идентичными по структуре лингвистическими профилями авторов для выявления наиболее точного совпадения. Лингвопрофили авторов вычисляются заблаговременно и хранятся в базе данных как массивы усреднённых показателей и их среднеквадратичных отклонений по всем текстам автора. Таких показателей насчитывается более тысячи, часть из которых приведена выше.

Эмпирический подсчёт показал, что совокупный анализ этих данных, взятых в весовых долях, позволяет определить автора романа с точностью 98.79%, рассказа — 84.32% (при условии, что в базе данных имеется лингвистический профиль истинного автора). Алгоритм сложен и обладает рядом инновационных решений, что позволяет достичь высокой точности в сравнении с прототипами, основанными на анализе одних лишь символьных биграмм.

Алгоритм работы лингвоанализатора кратко описан в статье «Лингвистический анализ текста и распознавание автора».


АвторСовпадение с лингвопрофилем автора (в условных единицах)
1. Николай Лесков
 26
2. Борис Акунин
 26
3. Андрей Белянин
 26
4. Елена Хаецкая
 26
5. Александр Бушков
 25
6. Аркадий и Борис Стругацкие
 25
7. Василий Аксёнов
 25
8. О'Санчес
 25
9. Сергей Трофимович Алексеев
 25
10. Надежда Первухина
 25
...смотреть весь список >>
⇑ Наверх