Лингвистический анализ: Александр Бушков «Царица тёмной реки»

Лингвистический анализ произведения

Произведение: Царица тёмной реки

Дата проведения анализа: 19 сентября 2022 года

Общая статистика

Длина текста, знаков:	417752
Слов в произведении (СВП):	62806
Приблизительно страниц:	210
Средняя длина слова, знаков:	5.06
Средняя длина предложения (СДП), знаков:	80.94
СДП авторского текста, знаков:	102.47
СДП диалога, знаков:	61.07
Доля диалогов в тексте:	39.35%
Доля авторского текста в диалогах:	9.64%

Активный словарный запас
Использовано уникальных слов:	8376
Активный словарный запас (АСЗ):	7853
Активный несловарный запас (АНСЗ):	523
Удельный АСЗ на 3000 слов текста:	1138.43
Удельный АСЗ на 10000 слов текста:	2655.69	—> 8676-е место в рейтинге УАСЗ-10000

Части речи
Неопределённых частей речи (НОЧР), слов:	16628 (26.48% от СВП)
Определённых частей речи (ОЧР), слов:	46178 (73.52% от СВП)
Из них (принимая ОЧР за 100%):
Существительное	13687 (29.64%)
Прилагательное	5357 (11.60%)
Глагол	10621 (23.00%)
Местоимение-существительное	5078 (11.00%)
Местоименное прилагательное	2752 (5.96%)
Местоимение-предикатив	13 (0.03%)
Числительное (количественное)	800 (1.73%)
Числительное (порядковое)	239 (0.52%)
Наречие	3386 (7.33%)
Предикатив	472 (1.02%)
Предлог	5979 (12.95%)
Союз	6167 (13.35%)
Междометие	1083 (2.35%)
Вводное слово	180 (0.39%)
Частица	5232 (11.33%)
Причастие	689 (1.49%)
Деепричастие	157 (0.34%)
Служебных слов:	26641 (57.69%)

Знаки препинания
Частоты знаков препинания (среднее количество на 1000 слов):
, запятая	137.09
. точка	58.58
- тире	32.27
! восклицательный знак	2.04
? вопросительный знак	11.07
... многоточие	16.65
!.. воскл. знак с многоточием	0.00
?.. вопр. знак с многоточием	0.00
!!! тройной воскл. знак	0.00
?! вопр. знак с восклицанием	0.06
" кавычка	6.69
() скобки	3.10
: двоеточие	8.73
; точка с запятой	0.05

Распознавание автора текста

Алгоритм распознавания автора текста, разработанный в 2008 году Львовым Алексеем (creator) для Лаборатории Фантастики, основан на сравнении лингвистического профиля текста с идентичными по структуре лингвистическими профилями авторов для выявления наиболее точного совпадения. Лингвопрофили авторов вычисляются заблаговременно и хранятся в базе данных как массивы усреднённых показателей и их среднеквадратичных отклонений по всем текстам автора. Таких показателей насчитывается более тысячи, часть из которых приведена выше.

Эмпирический подсчёт показал, что совокупный анализ этих данных, взятых в весовых долях, позволяет определить автора романа с точностью 98.79%, рассказа — 84.32% (при условии, что в базе данных имеется лингвистический профиль истинного автора). Алгоритм сложен и обладает рядом инновационных решений, что позволяет достичь высокой точности в сравнении с прототипами, основанными на анализе одних лишь символьных биграмм.

Алгоритм работы лингвоанализатора кратко описан в статье «Лингвистический анализ текста и распознавание автора».

Автор

Совпадение с лингвопрофилем автора (в условных единицах)

4. Олег Рой