Лингвистический анализ: Галина Гончарова «Средневековая история. Цена счастья»

Лингвистический анализ произведения

Произведение: Средневековая история. Цена счастья

Дата проведения анализа: 19 сентября 2022 года

Общая статистика

Длина текста, знаков:	664821
Слов в произведении (СВП):	103272
Приблизительно страниц:	345
Средняя длина слова, знаков:	5.04
Средняя длина предложения (СДП), знаков:	40.11
СДП авторского текста, знаков:	46.01
СДП диалога, знаков:	31.17
Доля диалогов в тексте:	30.93%
Доля авторского текста в диалогах:	2.35%

Активный словарный запас
Использовано уникальных слов:	9740
Активный словарный запас (АСЗ):	9065
Активный несловарный запас (АНСЗ):	675
Удельный АСЗ на 3000 слов текста:	1126.08
Удельный АСЗ на 10000 слов текста:	2553.69	—> 9900-е место в рейтинге УАСЗ-10000
Удельный АСЗ на 100000 слов текста:	9552.31

Части речи
Неопределённых частей речи (НОЧР), слов:	25845 (25.03% от СВП)
Определённых частей речи (ОЧР), слов:	77427 (74.97% от СВП)
Из них (принимая ОЧР за 100%):
Существительное	22999 (29.70%)
Прилагательное	6665 (8.61%)
Глагол	19820 (25.60%)
Местоимение-существительное	8429 (10.89%)
Местоименное прилагательное	4530 (5.85%)
Местоимение-предикатив	15 (0.02%)
Числительное (количественное)	985 (1.27%)
Числительное (порядковое)	238 (0.31%)
Наречие	4698 (6.07%)
Предикатив	1158 (1.50%)
Предлог	8181 (10.57%)
Союз	10102 (13.05%)
Междометие	2095 (2.71%)
Вводное слово	295 (0.38%)
Частица	7704 (9.95%)
Причастие	770 (0.99%)
Деепричастие	196 (0.25%)
Служебных слов:	41547 (53.66%)

Знаки препинания
Частоты знаков препинания (среднее количество на 1000 слов):
, запятая	91.41
. точка	114.10
- тире	22.61
! восклицательный знак	6.39
? вопросительный знак	21.16
... многоточие	22.96
!.. воскл. знак с многоточием	0.03
?.. вопр. знак с многоточием	0.15
!!! тройной воскл. знак	0.66
?! вопр. знак с восклицанием	0.90
" кавычка	4.13
() скобки	0.42
: двоеточие	2.14
; точка с запятой	0.00

Распознавание автора текста

Алгоритм распознавания автора текста, разработанный в 2008 году Львовым Алексеем (creator) для Лаборатории Фантастики, основан на сравнении лингвистического профиля текста с идентичными по структуре лингвистическими профилями авторов для выявления наиболее точного совпадения. Лингвопрофили авторов вычисляются заблаговременно и хранятся в базе данных как массивы усреднённых показателей и их среднеквадратичных отклонений по всем текстам автора. Таких показателей насчитывается более тысячи, часть из которых приведена выше.

Эмпирический подсчёт показал, что совокупный анализ этих данных, взятых в весовых долях, позволяет определить автора романа с точностью 98.79%, рассказа — 84.32% (при условии, что в базе данных имеется лингвистический профиль истинного автора). Алгоритм сложен и обладает рядом инновационных решений, что позволяет достичь высокой точности в сравнении с прототипами, основанными на анализе одних лишь символьных биграмм.

Алгоритм работы лингвоанализатора кратко описан в статье «Лингвистический анализ текста и распознавание автора».

Автор

Совпадение с лингвопрофилем автора (в условных единицах)