Лингвистический анализ: Галина Гончарова «Времена года. Красная зима»

Лингвистический анализ произведения

Произведение: Времена года. Красная зима

Дата проведения анализа: 19 сентября 2022 года

Общая статистика

Длина текста, знаков:	614067
Слов в произведении (СВП):	95558
Приблизительно страниц:	315
Средняя длина слова, знаков:	4.98
Средняя длина предложения (СДП), знаков:	38.3
СДП авторского текста, знаков:	42.01
СДП диалога, знаков:	29.44
Доля диалогов в тексте:	22.8%
Доля авторского текста в диалогах:	5.39%

Активный словарный запас
Использовано уникальных слов:	10881
Активный словарный запас (АСЗ):	10034
Активный несловарный запас (АНСЗ):	847
Удельный АСЗ на 3000 слов текста:	1160.61
Удельный АСЗ на 10000 слов текста:	2754.63	—> 7164-е место в рейтинге УАСЗ-10000

Части речи
Неопределённых частей речи (НОЧР), слов:	24305 (25.43% от СВП)
Определённых частей речи (ОЧР), слов:	71253 (74.57% от СВП)
Из них (принимая ОЧР за 100%):
Существительное	23394 (32.83%)
Прилагательное	6558 (9.20%)
Глагол	18549 (26.03%)
Местоимение-существительное	6918 (9.71%)
Местоименное прилагательное	3738 (5.25%)
Местоимение-предикатив	20 (0.03%)
Числительное (количественное)	1098 (1.54%)
Числительное (порядковое)	234 (0.33%)
Наречие	4418 (6.20%)
Предикатив	945 (1.33%)
Предлог	7673 (10.77%)
Союз	9694 (13.61%)
Междометие	1846 (2.59%)
Вводное слово	299 (0.42%)
Частица	7518 (10.55%)
Причастие	675 (0.95%)
Деепричастие	158 (0.22%)
Служебных слов:	37864 (53.14%)

Знаки препинания
Частоты знаков препинания (среднее количество на 1000 слов):
, запятая	99.64
. точка	100.61
- тире	24.33
! восклицательный знак	22.07
? вопросительный знак	22.88
... многоточие	30.61
!.. воскл. знак с многоточием	0.01
?.. вопр. знак с многоточием	0.08
!!! тройной воскл. знак	1.03
?! вопр. знак с восклицанием	2.31
" кавычка	2.30
() скобки	0.44
: двоеточие	0.68
; точка с запятой	0.00

Распознавание автора текста

Алгоритм распознавания автора текста, разработанный в 2008 году Львовым Алексеем (creator) для Лаборатории Фантастики, основан на сравнении лингвистического профиля текста с идентичными по структуре лингвистическими профилями авторов для выявления наиболее точного совпадения. Лингвопрофили авторов вычисляются заблаговременно и хранятся в базе данных как массивы усреднённых показателей и их среднеквадратичных отклонений по всем текстам автора. Таких показателей насчитывается более тысячи, часть из которых приведена выше.

Эмпирический подсчёт показал, что совокупный анализ этих данных, взятых в весовых долях, позволяет определить автора романа с точностью 98.79%, рассказа — 84.32% (при условии, что в базе данных имеется лингвистический профиль истинного автора). Алгоритм сложен и обладает рядом инновационных решений, что позволяет достичь высокой точности в сравнении с прототипами, основанными на анализе одних лишь символьных биграмм.

Алгоритм работы лингвоанализатора кратко описан в статье «Лингвистический анализ текста и распознавание автора».

Автор

Совпадение с лингвопрофилем автора (в условных единицах)