FantLab ru



  Лингвистический анализ произведения
Произведение: Варркан
Автор: Сергей Костин
Дата проведения анализа: 23 июля 2018 года

Общая статистика

Длина текста, знаков:485241
Слов в произведении (СВП):73209
Приблизительно страниц:252
Средняя длина слова, знаков:5.19
Средняя длина предложения (СДП), знаков:55.18
СДП авторского текста, знаков:62.13
СДП диалога, знаков:42.85
Доля диалогов в тексте:28.06%
Доля авторского текста в диалогах:8.73%

Активный словарный запас

Использовано уникальных слов:8357
Активный словарный запас (АСЗ):7992
Активный несловарный запас (АНСЗ):365
Удельный АСЗ на 3000 слов текста:1174.03
Удельный АСЗ на 10000 слов текста:2664.95 —> 7113-е место в рейтинге УАСЗ-10000

Части речи

Неопределённых частей речи (НОЧР), слов:16683 (22.79% от СВП)
Определённых частей речи (ОЧР), слов:56526 (77.21% от СВП)
Из них (принимая ОЧР за 100%):
          Существительное15104 (26.72%)
          Прилагательное5146 (9.10%)
          Глагол12339 (21.83%)
          Местоимение-существительное5565 (9.85%)
          Местоименное прилагательное2334 (4.13%)
          Местоимение-предикатив15 (0.03%)
          Числительное (количественное)275 (0.49%)
          Числительное (порядковое)80 (0.14%)
          Наречие1690 (2.99%)
          Предикатив102 (0.18%)
          Предлог5720 (10.12%)
          Союз3054 (5.40%)
          Междометие60 (0.11%)
          Вводное слово13 (0.02%)
          Частица2151 (3.81%)
          Причастие850 (1.50%)
          Деепричастие64 (0.11%)
Служебных слов:18912 (33.46%)

Знаки препинания

Частоты знаков препинания (среднее количество на 1000 слов):
          ,    запятая115.56
          .    точка98.14
          -    тире18.82
          !    восклицательный знак5.85
          ?    вопросительный знак10.79
          ...    многоточие2.75
          !..    воскл. знак с многоточием0.11
          ?..    вопр. знак с многоточием0.05
          !!!    тройной воскл. знак0.03
          ?!    вопр. знак с восклицанием0.27
          "    кавычка0.51
          ()    скобки1.63
          :    двоеточие4.02
          ;    точка с запятой0.07




Распознавание автора текста

Алгоритм распознавания автора текста, разработанный в 2008 году Львовым Алексеем (creator) для Лаборатории Фантастики, основан на сравнении лингвистического профиля текста с идентичными по структуре лингвистическими профилями авторов для выявления наиболее точного совпадения. Лингвопрофили авторов вычисляются заблаговременно и хранятся в базе данных как массивы усреднённых показателей и их среднеквадратичных отклонений по всем текстам автора. Таких показателей насчитывается более тысячи, часть из которых приведена выше.

Эмпирический подсчёт показал, что совокупный анализ этих данных, взятых в весовых долях, позволяет определить автора романа с точностью 98.79%, рассказа — 84.32% (при условии, что в базе данных имеется лингвистический профиль истинного автора). Алгоритм сложен и обладает рядом инновационных решений, что позволяет достичь высокой точности в сравнении с прототипами, основанными на анализе одних лишь символьных биграмм.

Алгоритм работы лингвоанализатора кратко описан в статье «Лингвистический анализ текста и распознавание автора».


АвторСовпадение с лингвопрофилем автора (в условных единицах)
1. Сергей Костин
 49
2. Сергей Лукьяненко
 41
3. Артём Тихомиров
 41
4. Валерий Алексеев
 40
5. Зиновий Юрьев
 40
6. Аркадий и Борис Стругацкие
 40
7. Наталья Жильцова
 39
8. Александр Лидин
 39
9. Елена Хаецкая
 39
10. Дмитрий Янковский
 39
...смотреть весь список >>
⇑ Наверх