fantlab ru



  Лингвистический анализ произведения
Произведение: Лебединая дорога
Автор: Мария Семёнова
Дата проведения анализа: 18 сентября 2022 года

Общая статистика

Длина текста, знаков:918456
Слов в произведении (СВП):141542
Приблизительно страниц:478
Средняя длина слова, знаков:5.1
Средняя длина предложения (СДП), знаков:60.4
СДП авторского текста, знаков:67.28
СДП диалога, знаков:45.4
Доля диалогов в тексте:23.69%
Доля авторского текста в диалогах:6.76%

Активный словарный запас

Использовано уникальных слов:12158
Активный словарный запас (АСЗ):10502
Активный несловарный запас (АНСЗ):1656
Удельный АСЗ на 3000 слов текста:1247.46
Удельный АСЗ на 10000 слов текста:2843.46 —> 5766-е место в рейтинге УАСЗ-10000
Удельный АСЗ на 100000 слов текста:10424.00

Части речи

Неопределённых частей речи (НОЧР), слов:29564 (20.89% от СВП)
Определённых частей речи (ОЧР), слов:111978 (79.11% от СВП)
Из них (принимая ОЧР за 100%):
          Существительное32273 (28.82%)
          Прилагательное11301 (10.09%)
          Глагол27436 (24.50%)
          Местоимение-существительное8745 (7.81%)
          Местоименное прилагательное5787 (5.17%)
          Местоимение-предикатив28 (0.03%)
          Числительное (количественное)1402 (1.25%)
          Числительное (порядковое)239 (0.21%)
          Наречие6319 (5.64%)
          Предикатив726 (0.65%)
          Предлог13789 (12.31%)
          Союз11695 (10.44%)
          Междометие2218 (1.98%)
          Вводное слово210 (0.19%)
          Частица8510 (7.60%)
          Причастие2464 (2.20%)
          Деепричастие441 (0.39%)
Служебных слов:51423 (45.92%)

Знаки препинания

Частоты знаков препинания (среднее количество на 1000 слов):
          ,    запятая108.70
          .    точка75.65
          -    тире19.65
          !    восклицательный знак10.36
          ?    вопросительный знак5.17
          ...    многоточие17.32
          !..    воскл. знак с многоточием0.18
          ?..    вопр. знак с многоточием0.14
          !!!    тройной воскл. знак0.01
          ?!    вопр. знак с восклицанием0.04
          "    кавычка0.23
          ()    скобки0.00
          :    двоеточие9.76
          ;    точка с запятой0.32




Распознавание автора текста

Алгоритм распознавания автора текста, разработанный в 2008 году Львовым Алексеем (creator) для Лаборатории Фантастики, основан на сравнении лингвистического профиля текста с идентичными по структуре лингвистическими профилями авторов для выявления наиболее точного совпадения. Лингвопрофили авторов вычисляются заблаговременно и хранятся в базе данных как массивы усреднённых показателей и их среднеквадратичных отклонений по всем текстам автора. Таких показателей насчитывается более тысячи, часть из которых приведена выше.

Эмпирический подсчёт показал, что совокупный анализ этих данных, взятых в весовых долях, позволяет определить автора романа с точностью 98.79%, рассказа — 84.32% (при условии, что в базе данных имеется лингвистический профиль истинного автора). Алгоритм сложен и обладает рядом инновационных решений, что позволяет достичь высокой точности в сравнении с прототипами, основанными на анализе одних лишь символьных биграмм.

Алгоритм работы лингвоанализатора кратко описан в статье «Лингвистический анализ текста и распознавание автора».


АвторСовпадение с лингвопрофилем автора (в условных единицах)
1. Мария Семёнова
 48
2. Елизавета Дворецкая
 38
3. Елена Хаецкая
 37
4. Олег Верещагин
 36
5. Владислав Русанов
 36
6. Марина и Сергей Дяченко
 36
7. Александр Мазин
 36
8. Галина Романова
 35
9. Борис Акунин
 35
10. Ольга Елисеева
 35
...смотреть весь список >>
⇑ Наверх