fantlab ru



  Лингвистический анализ произведения
Произведение: Сокол и Ласточка
Автор: Борис Акунин
Дата проведения анализа: 18 сентября 2022 года

Общая статистика

Длина текста, знаков:748075
Слов в произведении (СВП):114742
Приблизительно страниц:389
Средняя длина слова, знаков:5.11
Средняя длина предложения (СДП), знаков:59.4
СДП авторского текста, знаков:72.19
СДП диалога, знаков:43.18
Доля диалогов в тексте:32.25%
Доля авторского текста в диалогах:5.35%
Использование диалогов по тексту
(по горизонтали: счётчик знаков; по вертикали: процент диалогов;
размер скользящего окна: знаков, шаг: 1000 знаков)

Активный словарный запас

Использовано уникальных слов:17911
Активный словарный запас (АСЗ):12815
Активный несловарный запас (АНСЗ):5096
Удельный АСЗ на 3000 слов текста:1439.68
Удельный АСЗ на 10000 слов текста:3561.62 —> 223-е место в рейтинге УАСЗ-10000
Удельный АСЗ на 100000 слов текста:16302.60
Динамика изменения УАСЗ-3000 от начала до конца произведения
(по горизонтали: счётчик слов; по вертикали: УАСЗ-3000)
Максимальное значение УАСЗ-3000 (0) приходится приблизительно на 0-ю страницу текста.
Миниимальное значение УАСЗ-3000 (10000000) приходится приблизительно на 0-ю страницу текста.

Части речи

Неопределённых частей речи (НОЧР), слов:24086 (20.99% от СВП)
Определённых частей речи (ОЧР), слов:90656 (79.01% от СВП)
Из них (принимая ОЧР за 100%):
          Существительное29246 (32.26%)
          Прилагательное8663 (9.56%)
          Глагол19153 (21.13%)
          Местоимение-существительное8743 (9.64%)
          Местоименное прилагательное4333 (4.78%)
          Местоимение-предикатив23 (0.03%)
          Числительное (количественное)1293 (1.43%)
          Числительное (порядковое)274 (0.30%)
          Наречие4463 (4.92%)
          Предикатив761 (0.84%)
          Предлог11212 (12.37%)
          Союз7747 (8.55%)
          Междометие2022 (2.23%)
          Вводное слово279 (0.31%)
          Частица6311 (6.96%)
          Причастие1265 (1.40%)
          Деепричастие236 (0.26%)
Служебных слов:40906 (45.12%)

Биграммы частей речи

В таблице показаны частоты словопар типа «существительное+прилагательное», «прилагательное+глагол» и т.д. Для удобства восприятия частота выражена в среднем количестве пары на 1000 слов текста. Вертикаль отражает часть речи первого слова биграммы, горизонталь — второго.

С
у
щ
е
с
т
в
и
т
е
л
ь
н
о
е
П
р
и
л
а
г
а
т
е
л
ь
н
о
е
Г
л
а
г
о
л
М
е
с
т
о
и
м
е
н
и
е
-
с
у
щ
е
с
т
в
и
т
е
л
ь
н
о
е
М
е
с
т
о
и
м
е
н
н
о
е

п
р
и
л
а
г
а
т
е
л
ь
н
о
е
М
е
с
т
о
и
м
е
н
и
е
-
п
р
е
д
и
к
а
т
и
в
Ч
и
с
л
и
т
е
л
ь
н
о
е

(
к
о
л
и
ч
е
с
т
в
е
н
н
о
е
)
Ч
и
с
л
и
т
е
л
ь
н
о
е

(
п
о
р
я
д
к
о
в
о
е
)
Н
а
р
е
ч
и
е
П
р
е
д
и
к
а
т
и
в
П
р
е
д
л
о
г
С
о
ю
з
М
е
ж
д
о
м
е
т
и
е
В
в
о
д
н
о
е

с
л
о
в
о
Ч
а
с
т
и
ц
а
П
р
и
ч
а
с
т
и
е
Д
е
е
п
р
и
ч
а
с
т
и
е
Существительное471749138.5.012.2.46101.433286.47153.9.60
Прилагательное485.2121.71.1.00.36.031.1.254.55.94.082.84.23
Глагол461519149.092.308.11.134143.4.28102.6.20
Местоимение-существительное117.5335.12.6.01.98.145.9.708.14.1.45.4110.51.09
Местоименное прилагательное196.25.62.2.89.00.37.071.1.462.91.6.21.082.5.44.05
Местоимение-предикатив.01.00.05.01.00.00.00.00.00.00.00.09.00.00.00.00.01
Числительное (колич-ое)5.4.981.5.44.26.03.49.07.24.081.2.95.11.06.81.09.03
Числительное (порядковое)1.7.12.26.06.01.00.05.06.05.01.16.15.00.00.19.00.00
Наречие5.24.9134.6.91.00.62.032.2.423.82.8.40.063.7.81.16
Предикатив.97.501.8.71.24.00.10.01.26.09.62.50.12.00.47.06.00
Предлог63145.88.913.002.7.94.79.231.11.4.09.01.791.7.16
Союз167.218113.1.011.1.204.9.697.53.91.1.187.2.71.17
Междометие7.11.51.83.91.1.00.17.08.87.111.41.3.32.021.18.06
Вводное слово.44.16.52.52.07.00.05.01.12.06.11.38.03.00.26.03.00
Частица8.64264.81.8.001.4.092.8.695.14.9.68.234.4.90.10
Причастие5.71.1.47.46.33.00.05.02.34.032.8.45.24.00.21.03.03
Деепричастие.51.07.29.18.10.00.00.00.07.03.70.10.02.00.18.01.00

Части речи на позициях в предложении

Таблица показывает, с какой частотой употреблены автором различные части на позициях в предложении. Например, ячейка «глагол – 3» показывает с какой вероятностью третье слово в случайно взятом предложении произведения является глаголом. Вероятность выражена в процентах.

В каждом столбце максимальное значение отмечено жирным шрифтом, что позволяет по первым трём-пяти столбцам примерно представить типичное для произведения начало предлоджения. Например, последовательность «местоимение-существительное, глагол, прилагательное, существительное» может быть чем-то вроде «Он срубил старое дерево...»


 Номер слова в предложении
 12345678910
Существительное17232526283030313131
Прилагательное5.576.97.78.98.18.18.69.49.7
Глагол13232421191718171517
Местоимение-существительное18129.38.37.16.85.25.85.94.8
Местоименное прилагательное34.63.64444.64.44.64.3
Местоимение-предикатив.10.00.00.00.00.00.00.00.00.00
Числительное (колич-ое)1.21.21.31.21.41.31.21.21.21.1
Числительное (порядковое).40.40.20.30.20.20.20.20.10.20
Наречие75.23.943.73.63.73.53.63.5
Предикатив1.5.70.70.70.70.50.50.40.60.70
Предлог9.47.11011121112121212
Союз9.85.966.56.67.77.777.67.7
Междометие5.61.11.21.51.31.31.91.91.61.6
Вводное слово.80.40.30.20.10.10.20.20.10.20
Частица6.56.96.45.95.75.56.25.45.64.8
Причастие.40.9011.21.31.51.31.41.61.4
Деепричастие.50.20.20.20.20.20.20.30.20.20

Знаки препинания

Частоты знаков препинания (среднее количество на 1000 слов):
          ,    запятая104.27
          .    точка84.91
          -    тире20.34
          !    восклицательный знак10.44
          ?    вопросительный знак8.56
          ...    многоточие3.20
          !..    воскл. знак с многоточием0.00
          ?..    вопр. знак с многоточием0.00
          !!!    тройной воскл. знак0.10
          ?!    вопр. знак с восклицанием0.33
          "    кавычка14.26
          ()    скобки1.53
          :    двоеточие5.19
          ;    точка с запятой0.70




Распознавание автора текста

Алгоритм распознавания автора текста, разработанный в 2008 году Львовым Алексеем (creator) для Лаборатории Фантастики, основан на сравнении лингвистического профиля текста с идентичными по структуре лингвистическими профилями авторов для выявления наиболее точного совпадения. Лингвопрофили авторов вычисляются заблаговременно и хранятся в базе данных как массивы усреднённых показателей и их среднеквадратичных отклонений по всем текстам автора. Таких показателей насчитывается более тысячи, часть из которых приведена выше.

Эмпирический подсчёт показал, что совокупный анализ этих данных, взятых в весовых долях, позволяет определить автора романа с точностью 98.79%, рассказа — 84.32% (при условии, что в базе данных имеется лингвистический профиль истинного автора). Алгоритм сложен и обладает рядом инновационных решений, что позволяет достичь высокой точности в сравнении с прототипами, основанными на анализе одних лишь символьных биграмм.

Алгоритм работы лингвоанализатора кратко описан в статье «Лингвистический анализ текста и распознавание автора».


АвторСовпадение с лингвопрофилем автора (в условных единицах)
1. Борис Акунин
 55
2. Александр Зорич
 46
3. Zотов
 44
4. Кирилл Бенедиктов
 44
5. Александр и Людмила Белаш
 43
6. Данил Корецкий
 43
7. Дмитрий Дашко
 43
8. Юрий Гаврюченков
 43
9. Александр Рудазов
 43
10. Андрей Ерпылев
 43
...смотреть весь список >>
⇑ Наверх