fantlab ru



  Лингвистический анализ произведения
Произведение: В людях
Автор: Максим Горький
Дата проведения анализа: 19 сентября 2022 года

Общая статистика

Длина текста, знаков:520731
Слов в произведении (СВП):80148
Приблизительно страниц:265
Средняя длина слова, знаков:4.99
Средняя длина предложения (СДП), знаков:73.27
СДП авторского текста, знаков:106.11
СДП диалога, знаков:40.11
Доля диалогов в тексте:27.41%
Доля авторского текста в диалогах:8.52%
Использование диалогов по тексту
(по горизонтали: счётчик знаков; по вертикали: процент диалогов;
размер скользящего окна: знаков, шаг: 1000 знаков)

Активный словарный запас

Использовано уникальных слов:9748
Активный словарный запас (АСЗ):8811
Активный несловарный запас (АНСЗ):937
Удельный АСЗ на 3000 слов текста:1207.63
Удельный АСЗ на 10000 слов текста:2810.06 отсутствует в рейтинге УАСЗ-10000
Динамика изменения УАСЗ-3000 от начала до конца произведения
(по горизонтали: счётчик слов; по вертикали: УАСЗ-3000)
Максимальное значение УАСЗ-3000 (0) приходится приблизительно на 0-ю страницу текста.
Миниимальное значение УАСЗ-3000 (10000000) приходится приблизительно на 0-ю страницу текста.

Части речи

Неопределённых частей речи (НОЧР), слов:18547 (23.14% от СВП)
Определённых частей речи (ОЧР), слов:61601 (76.86% от СВП)
Из них (принимая ОЧР за 100%):
          Существительное19893 (32.29%)
          Прилагательное7624 (12.38%)
          Глагол15564 (25.27%)
          Местоимение-существительное8058 (13.08%)
          Местоименное прилагательное2964 (4.81%)
          Местоимение-предикатив11 (0.02%)
          Числительное (количественное)655 (1.06%)
          Числительное (порядковое)75 (0.12%)
          Наречие3567 (5.79%)
          Предикатив451 (0.73%)
          Предлог7463 (12.12%)
          Союз5946 (9.65%)
          Междометие1343 (2.18%)
          Вводное слово147 (0.24%)
          Частица3872 (6.29%)
          Причастие773 (1.25%)
          Деепричастие324 (0.53%)
Служебных слов:30128 (48.91%)

Биграммы частей речи

В таблице показаны частоты словопар типа «существительное+прилагательное», «прилагательное+глагол» и т.д. Для удобства восприятия частота выражена в среднем количестве пары на 1000 слов текста. Вертикаль отражает часть речи первого слова биграммы, горизонталь — второго.

С
у
щ
е
с
т
в
и
т
е
л
ь
н
о
е
П
р
и
л
а
г
а
т
е
л
ь
н
о
е
Г
л
а
г
о
л
М
е
с
т
о
и
м
е
н
и
е
-
с
у
щ
е
с
т
в
и
т
е
л
ь
н
о
е
М
е
с
т
о
и
м
е
н
н
о
е

п
р
и
л
а
г
а
т
е
л
ь
н
о
е
М
е
с
т
о
и
м
е
н
и
е
-
п
р
е
д
и
к
а
т
и
в
Ч
и
с
л
и
т
е
л
ь
н
о
е

(
к
о
л
и
ч
е
с
т
в
е
н
н
о
е
)
Ч
и
с
л
и
т
е
л
ь
н
о
е

(
п
о
р
я
д
к
о
в
о
е
)
Н
а
р
е
ч
и
е
П
р
е
д
и
к
а
т
и
в
П
р
е
д
л
о
г
С
о
ю
з
М
е
ж
д
о
м
е
т
и
е
В
в
о
д
н
о
е

с
л
о
в
о
Ч
а
с
т
и
ц
а
П
р
и
ч
а
с
т
и
е
Д
е
е
п
р
и
ч
а
с
т
и
е
Существительное432352178.7.011.8.2310.9231286.1.42103.61.3
Прилагательное4410183.71.2.00.23.011.8.16581.1.102.61.8.42
Глагол4518222010.081.3.088.31.234153.8.168.81.4.80
Местоимение-существительное129.9407.62.8.011.1.017.9.736.85.2.94.498.6.73.42
Местоименное прилагательное155.85.92.1.58.00.14.011.2.232.82.35.042.27.11
Местоимение-предикатив.01.00.04.00.00.00.00.00.00.00.00.03.00.00.01.00.00
Числительное (колич-ое)3.4.781.6.42.21.00.10.01.16.07.75.78.04.01.32.07.03
Числительное (порядковое).54.06.11.00.03.00.00.00.03.01.01.13.03.00.10.00.00
Наречие4.25.1166.1.89.01.32.002.3.483.83.2.61.102.4.73.21
Предикатив.63.421.4.56.10.00.07.00.17.00.27.73.17.00.47.01.01
Предлог62123129.2.012.41.49.03.07.68.03.00.56.56.00
Союз149.119122.7.00.75.086.3.555.73.6.75.205.6.70.45
Междометие7114.9.87.00.07.04.99.06.72.93.06.03.48.14.01
Вводное слово.17.21.31.23.07.00.00.00.10.01.07.52.03.00.17.01.00
Частица6.74.4195.11.5.00.54.012.5.613.62.7.49.104.3.30.21
Причастие4.51.51.72.25.00.06.01.25.041.7.39.13.03.27.11.01
Деепричастие1.1.32.83.16.07.00.00.00.18.001.1.28.10.01.11.07.00

Части речи на позициях в предложении

Таблица показывает, с какой частотой употреблены автором различные части на позициях в предложении. Например, ячейка «глагол – 3» показывает с какой вероятностью третье слово в случайно взятом предложении произведения является глаголом. Вероятность выражена в процентах.

В каждом столбце максимальное значение отмечено жирным шрифтом, что позволяет по первым трём-пяти столбцам примерно представить типичное для произведения начало предлоджения. Например, последовательность «местоимение-существительное, глагол, прилагательное, существительное» может быть чем-то вроде «Он срубил старое дерево...»


 Номер слова в предложении
 12345678910
Существительное15212226262626262527
Прилагательное5.47.18.18.29.810109.11111
Глагол16242522211920202020
Местоимение-существительное211511119.29.59.28.78.98.5
Местоименное прилагательное2.23.83.644.23.943.74.13.5
Местоимение-предикатив.00.00.10.00.00.00.00.00.00.00
Числительное (колич-ое).70.90.70.9011.9011.3.90
Числительное (порядковое).10.10.10.10.10.10.10.10.10.10
Наречие7.264.73.644.34.24.63.93.9
Предикатив1.3.80.70.60.60.60.50.80.50.40
Предлог76.19.4999.79.8109.99.8
Союз125.55.96.36.87.47.98.387.4
Междометие4.11.31.11.41.41.91.31.61.61.7
Вводное слово.30.40.30.10.20.10.20.20.30.20
Частица7.37.56.65.454.94.64.63.84.3
Причастие.30.40.50.801.7011.21.1.90
Деепричастие.50.30.40.30.50.40.20.60.40.50

Знаки препинания

Частоты знаков препинания (среднее количество на 1000 слов):
          ,    запятая166.64
          .    точка38.42
          -    тире30.97
          !    восклицательный знак15.57
          ?    вопросительный знак10.83
          ...    многоточие11.27
          !..    воскл. знак с многоточием0.44
          ?..    вопр. знак с многоточием0.14
          !!!    тройной воскл. знак0.00
          ?!    вопр. знак с восклицанием0.02
          "    кавычка6.82
          ()    скобки0.02
          :    двоеточие16.12
          ;    точка с запятой8.80




Распознавание автора текста

Алгоритм распознавания автора текста, разработанный в 2008 году Львовым Алексеем (creator) для Лаборатории Фантастики, основан на сравнении лингвистического профиля текста с идентичными по структуре лингвистическими профилями авторов для выявления наиболее точного совпадения. Лингвопрофили авторов вычисляются заблаговременно и хранятся в базе данных как массивы усреднённых показателей и их среднеквадратичных отклонений по всем текстам автора. Таких показателей насчитывается более тысячи, часть из которых приведена выше.

Эмпирический подсчёт показал, что совокупный анализ этих данных, взятых в весовых долях, позволяет определить автора романа с точностью 98.79%, рассказа — 84.32% (при условии, что в базе данных имеется лингвистический профиль истинного автора). Алгоритм сложен и обладает рядом инновационных решений, что позволяет достичь высокой точности в сравнении с прототипами, основанными на анализе одних лишь символьных биграмм.

Алгоритм работы лингвоанализатора кратко описан в статье «Лингвистический анализ текста и распознавание автора».


АвторСовпадение с лингвопрофилем автора (в условных единицах)
1. Максим Горький
 45
2. Алексей Николаевич Толстой
 31
3. Марина и Сергей Дяченко
 31
4. Сергей Волков
 31
5. Василий Аксёнов
 31
6. Елена Хаецкая
 31
7. Генри Лайон Олди
 30
8. Алексей Иванов
 30
9. Борис Акунин
 30
10. Аркадий и Борис Стругацкие
 30
...смотреть весь список >>
⇑ Наверх