Лингвистический анализ: Кир Булычев «Голые люди»

Лингвистический анализ произведения

Произведение: Голые люди

Дата проведения анализа: 19 сентября 2022 года

Общая статистика

Длина текста, знаков:	376706
Слов в произведении (СВП):	56078
Приблизительно страниц:	194
Средняя длина слова, знаков:	5.23
Средняя длина предложения (СДП), знаков:	73.96
СДП авторского текста, знаков:	87.46
СДП диалога, знаков:	46.61
Доля диалогов в тексте:	20.9%
Доля авторского текста в диалогах:	16.55%

Активный словарный запас
Использовано уникальных слов:	7354
Активный словарный запас (АСЗ):	7085
Активный несловарный запас (АНСЗ):	269
Удельный АСЗ на 3000 слов текста:	1143.53
Удельный АСЗ на 10000 слов текста:	2601.63	—> 9323-е место в рейтинге УАСЗ-10000

Части речи
Неопределённых частей речи (НОЧР), слов:	12084 (21.55% от СВП)
Определённых частей речи (ОЧР), слов:	43994 (78.45% от СВП)
Из них (принимая ОЧР за 100%):
Существительное	13380 (30.41%)
Прилагательное	4644 (10.56%)
Глагол	10651 (24.21%)
Местоимение-существительное	4892 (11.12%)
Местоименное прилагательное	2633 (5.98%)
Местоимение-предикатив	4 (0.01%)
Числительное (количественное)	435 (0.99%)
Числительное (порядковое)	111 (0.25%)
Наречие	2197 (4.99%)
Предикатив	417 (0.95%)
Предлог	5360 (12.18%)
Союз	4599 (10.45%)
Междометие	868 (1.97%)
Вводное слово	128 (0.29%)
Частица	3194 (7.26%)
Причастие	772 (1.75%)
Деепричастие	137 (0.31%)
Служебных слов:	21815 (49.59%)

Знаки препинания
Частоты знаков препинания (среднее количество на 1000 слов):
, запятая	118.17
. точка	75.04
- тире	22.04
! восклицательный знак	5.58
? вопросительный знак	6.63
... многоточие	2.12
!.. воскл. знак с многоточием	0.02
?.. вопр. знак с многоточием	0.04
!!! тройной воскл. знак	0.00
?! вопр. знак с восклицанием	0.04
" кавычка	2.41
() скобки	0.93
: двоеточие	3.55
; точка с запятой	0.04

Распознавание автора текста

Алгоритм распознавания автора текста, разработанный в 2008 году Львовым Алексеем (creator) для Лаборатории Фантастики, основан на сравнении лингвистического профиля текста с идентичными по структуре лингвистическими профилями авторов для выявления наиболее точного совпадения. Лингвопрофили авторов вычисляются заблаговременно и хранятся в базе данных как массивы усреднённых показателей и их среднеквадратичных отклонений по всем текстам автора. Таких показателей насчитывается более тысячи, часть из которых приведена выше.

Эмпирический подсчёт показал, что совокупный анализ этих данных, взятых в весовых долях, позволяет определить автора романа с точностью 98.79%, рассказа — 84.32% (при условии, что в базе данных имеется лингвистический профиль истинного автора). Алгоритм сложен и обладает рядом инновационных решений, что позволяет достичь высокой точности в сравнении с прототипами, основанными на анализе одних лишь символьных биграмм.

Общая статистика

Активный словарный запас

Части речи

Знаки препинания

Распознавание автора текста