fantlab ru



  Лингвистический анализ произведения
Произведение: Путешествие Карандаша и Самоделкина
Автор: Валентин Постников
Дата проведения анализа: 18 сентября 2022 года

Общая статистика

Длина текста, знаков:159282
Слов в произведении (СВП):21907
Приблизительно страниц:76
Средняя длина слова, знаков:5.27
Средняя длина предложения (СДП), знаков:54.45
СДП авторского текста, знаков:61.18
СДП диалога, знаков:47.74
Доля диалогов в тексте:43.98%
Доля авторского текста в диалогах:20.39%

Активный словарный запас

Использовано уникальных слов:3445
Активный словарный запас (АСЗ):3325
Активный несловарный запас (АНСЗ):120
Удельный АСЗ на 3000 слов текста:1031.14
Удельный АСЗ на 10000 слов текста:2225.10 —> 11798-е место в рейтинге УАСЗ-10000

Части речи

Неопределённых частей речи (НОЧР), слов:4703 (21.47% от СВП)
Определённых частей речи (ОЧР), слов:17204 (78.53% от СВП)
Из них (принимая ОЧР за 100%):
          Существительное5331 (30.99%)
          Прилагательное2012 (11.70%)
          Глагол4514 (26.24%)
          Местоимение-существительное2035 (11.83%)
          Местоименное прилагательное850 (4.94%)
          Местоимение-предикатив1 (0.01%)
          Числительное (количественное)179 (1.04%)
          Числительное (порядковое)71 (0.41%)
          Наречие1105 (6.42%)
          Предикатив178 (1.03%)
          Предлог2084 (12.11%)
          Союз1671 (9.71%)
          Междометие325 (1.89%)
          Вводное слово54 (0.31%)
          Частица1039 (6.04%)
          Причастие166 (0.96%)
          Деепричастие36 (0.21%)
Служебных слов:8095 (47.05%)

Знаки препинания

Частоты знаков препинания (среднее количество на 1000 слов):
          ,    запятая116.72
          .    точка111.43
          -    тире49.62
          !    восклицательный знак5.84
          ?    вопросительный знак8.95
          ...    многоточие1.23
          !..    воскл. знак с многоточием0.00
          ?..    вопр. знак с многоточием0.00
          !!!    тройной воскл. знак0.64
          ?!    вопр. знак с восклицанием0.68
          "    кавычка3.79
          ()    скобки0.00
          :    двоеточие2.33
          ;    точка с запятой0.09




Распознавание автора текста

Алгоритм распознавания автора текста, разработанный в 2008 году Львовым Алексеем (creator) для Лаборатории Фантастики, основан на сравнении лингвистического профиля текста с идентичными по структуре лингвистическими профилями авторов для выявления наиболее точного совпадения. Лингвопрофили авторов вычисляются заблаговременно и хранятся в базе данных как массивы усреднённых показателей и их среднеквадратичных отклонений по всем текстам автора. Таких показателей насчитывается более тысячи, часть из которых приведена выше.

Эмпирический подсчёт показал, что совокупный анализ этих данных, взятых в весовых долях, позволяет определить автора романа с точностью 98.79%, рассказа — 84.32% (при условии, что в базе данных имеется лингвистический профиль истинного автора). Алгоритм сложен и обладает рядом инновационных решений, что позволяет достичь высокой точности в сравнении с прототипами, основанными на анализе одних лишь символьных биграмм.

Алгоритм работы лингвоанализатора кратко описан в статье «Лингвистический анализ текста и распознавание автора».


АвторСовпадение с лингвопрофилем автора (в условных единицах)
1. Валентин Постников
 30
2. Олег Рой
 28
3. Юлия Галанина
 28
4. Александр Матюхин
 28
5. Аркадий и Борис Стругацкие
 28
6. Сергей Волков
 27
7. Кир Булычев
 27
8. Михаил Бабкин
 27
9. Борис Акунин
 27
10. Дмитрий Суслин
 27
...смотреть весь список >>
⇑ Наверх