Лингвистический анализ: Кир Булычев «Секрет чёрного камня»

Лингвистический анализ произведения

Произведение: Секрет чёрного камня

Дата проведения анализа: 19 сентября 2022 года

Общая статистика

Длина текста, знаков:	293368
Слов в произведении (СВП):	42833
Приблизительно страниц:	146
Средняя длина слова, знаков:	5.14
Средняя длина предложения (СДП), знаков:	48.65
СДП авторского текста, знаков:	63.22
СДП диалога, знаков:	39.95
Доля диалогов в тексте:	51.64%
Доля авторского текста в диалогах:	9.45%

Активный словарный запас
Использовано уникальных слов:	5315
Активный словарный запас (АСЗ):	5039
Активный несловарный запас (АНСЗ):	276
Удельный АСЗ на 3000 слов текста:	1003.11
Удельный АСЗ на 10000 слов текста:	2207.81	—> 11829-е место в рейтинге УАСЗ-10000

Части речи
Неопределённых частей речи (НОЧР), слов:	10160 (23.72% от СВП)
Определённых частей речи (ОЧР), слов:	32673 (76.28% от СВП)
Из них (принимая ОЧР за 100%):
Существительное	10039 (30.73%)
Прилагательное	3065 (9.38%)
Глагол	8669 (26.53%)
Местоимение-существительное	3985 (12.20%)
Местоименное прилагательное	1752 (5.36%)
Местоимение-предикатив	7 (0.02%)
Числительное (количественное)	461 (1.41%)
Числительное (порядковое)	88 (0.27%)
Наречие	1938 (5.93%)
Предикатив	372 (1.14%)
Предлог	3683 (11.27%)
Союз	3735 (11.43%)
Междометие	707 (2.16%)
Вводное слово	148 (0.45%)
Частица	3027 (9.26%)
Причастие	282 (0.86%)
Деепричастие	41 (0.13%)
Служебных слов:	17085 (52.29%)

Знаки препинания
Частоты знаков препинания (среднее количество на 1000 слов):
, запятая	111.67
. точка	94.27
- тире	51.62
! восклицательный знак	21.57
? вопросительный знак	16.62
... многоточие	2.05
!.. воскл. знак с многоточием	0.02
?.. вопр. знак с многоточием	0.02
!!! тройной воскл. знак	0.00
?! вопр. знак с восклицанием	0.21
" кавычка	6.12
() скобки	0.05
: двоеточие	4.44
; точка с запятой	0.02

Распознавание автора текста

Алгоритм распознавания автора текста, разработанный в 2008 году Львовым Алексеем (creator) для Лаборатории Фантастики, основан на сравнении лингвистического профиля текста с идентичными по структуре лингвистическими профилями авторов для выявления наиболее точного совпадения. Лингвопрофили авторов вычисляются заблаговременно и хранятся в базе данных как массивы усреднённых показателей и их среднеквадратичных отклонений по всем текстам автора. Таких показателей насчитывается более тысячи, часть из которых приведена выше.

Эмпирический подсчёт показал, что совокупный анализ этих данных, взятых в весовых долях, позволяет определить автора романа с точностью 98.79%, рассказа — 84.32% (при условии, что в базе данных имеется лингвистический профиль истинного автора). Алгоритм сложен и обладает рядом инновационных решений, что позволяет достичь высокой точности в сравнении с прототипами, основанными на анализе одних лишь символьных биграмм.

Алгоритм работы лингвоанализатора кратко описан в статье «Лингвистический анализ текста и распознавание автора».

Автор

Совпадение с лингвопрофилем автора (в условных единицах)

2. Олег Рой