Лингвистический анализ: Валерий Большаков «Варварский берег»

Лингвистический анализ произведения

Произведение: Варварский берег

Дата проведения анализа: 19 сентября 2022 года

Общая статистика

Длина текста, знаков:	393804
Слов в произведении (СВП):	56189
Приблизительно страниц:	203
Средняя длина слова, знаков:	5.47
Средняя длина предложения (СДП), знаков:	55.18
СДП авторского текста, знаков:	74.89
СДП диалога, знаков:	33.76
Доля диалогов в тексте:	29.56%
Доля авторского текста в диалогах:	7.79%

Активный словарный запас
Использовано уникальных слов:	11084
Активный словарный запас (АСЗ):	9823
Активный несловарный запас (АНСЗ):	1261
Удельный АСЗ на 3000 слов текста:	1470.14
Удельный АСЗ на 10000 слов текста:	3618.72	—> 155-е место в рейтинге УАСЗ-10000

Части речи
Неопределённых частей речи (НОЧР), слов:	10946 (19.48% от СВП)
Определённых частей речи (ОЧР), слов:	45243 (80.52% от СВП)
Из них (принимая ОЧР за 100%):
Существительное	15910 (35.17%)
Прилагательное	4937 (10.91%)
Глагол	10474 (23.15%)
Местоимение-существительное	2746 (6.07%)
Местоименное прилагательное	1730 (3.82%)
Местоимение-предикатив	10 (0.02%)
Числительное (количественное)	595 (1.32%)
Числительное (порядковое)	105 (0.23%)
Наречие	2204 (4.87%)
Предикатив	298 (0.66%)
Предлог	5537 (12.24%)
Союз	4249 (9.39%)
Междометие	716 (1.58%)
Вводное слово	84 (0.19%)
Частица	2781 (6.15%)
Причастие	1016 (2.25%)
Деепричастие	226 (0.50%)
Служебных слов:	18079 (39.96%)

Знаки препинания
Частоты знаков препинания (среднее количество на 1000 слов):
, запятая	131.06
. точка	83.34
- тире	39.58
! восклицательный знак	23.79
? вопросительный знак	9.82
... многоточие	10.04
!.. воскл. знак с многоточием	0.28
?.. вопр. знак с многоточием	0.05
!!! тройной воскл. знак	0.00
?! вопр. знак с восклицанием	0.37
" кавычка	19.01
() скобки	0.85
: двоеточие	3.40
; точка с запятой	0.05

Распознавание автора текста

Алгоритм распознавания автора текста, разработанный в 2008 году Львовым Алексеем (creator) для Лаборатории Фантастики, основан на сравнении лингвистического профиля текста с идентичными по структуре лингвистическими профилями авторов для выявления наиболее точного совпадения. Лингвопрофили авторов вычисляются заблаговременно и хранятся в базе данных как массивы усреднённых показателей и их среднеквадратичных отклонений по всем текстам автора. Таких показателей насчитывается более тысячи, часть из которых приведена выше.

Эмпирический подсчёт показал, что совокупный анализ этих данных, взятых в весовых долях, позволяет определить автора романа с точностью 98.79%, рассказа — 84.32% (при условии, что в базе данных имеется лингвистический профиль истинного автора). Алгоритм сложен и обладает рядом инновационных решений, что позволяет достичь высокой точности в сравнении с прототипами, основанными на анализе одних лишь символьных биграмм.

Алгоритм работы лингвоанализатора кратко описан в статье «Лингвистический анализ текста и распознавание автора».

Автор

Совпадение с лингвопрофилем автора (в условных единицах)

5. Александр Сивинских

6. Михаил Зайцев

7. Ольга Громыко

8. Виталий Сертаков

9. Борис Акунин