Тема «Лингвистический анализ и распознавание автора»

Вы здесь: Форумы fantlab.ru > Форум «Техподдержка и развитие сайта» > Тема «Лингвистический анализ и распознавание автора»

Лингвистический анализ и распознавание автора

Страницы: 1 2 3 4 5 🔍 поиск написать сообщение

автор

сообщение

философ

7 марта 2008 г. 14:53

цитировать

creator по Паланику еще Katy пройдется "вручную". Там посмотрим, на сколько точно я с выводами попал ;-)

Насчет качества перевода, можно, думаю, проверить первую часть Дюны. Перевод есть и хороший (который я лично читал) и тот, в котором "Атридисам" домом служила "груда камней" :-)))

философ

7 марта 2008 г. 21:15

цитировать

С БК Паланика попал в "молоко" :-(

магистр

8 марта 2008 г. 13:53

цитировать

Paf Ну, не совсем, все-таки перевод Кормильцева и в твоем анализе, и в моем оказался на высоте :) А вообще надо искать еще какие-то критерии.

новичок

6 октября 2008 г. 22:56

цитировать

to creator
Здравствуйте, уважаемый ,creator. Собственно, у меня возник вопрос: как вы производите расчет удельного активного словарного запаса? Например, имеется текст в 50000 тысяч слов и текст в 5000 тысяч слов. Как будет производится УАСЗ?
Я конечно понимаю, что у вас полно других дел, но все же надеюсь, что вы ответите.

миродержец

7 октября 2008 г. 07:21

цитировать

jk-programmer, creator сейчас на отдыхе, сдублируйте Ваш вопрос к нему в личку, чтобы не потерялся. Придется подождать возвращения.

–––
«На патриотизм стали напирать. Видимо, проворовались». (М.Е. Салтыков-Щедрин)

магистр

8 октября 2008 г. 17:04

цитировать

УАСЗ-3000 вычисляется методом скользящего окна размером в 3000 слов. Т.е. сначала берутся слова от первого до 3000го, вычисляется число уникальных. Затем от 2го до 3001го, и так далее. Потом считается среднее.

–––
+7(996)730-00-00, Telegram https://t.me/crealist

активист

4 октября 2012 г. 13:50

цитировать

Простите а где в сети можно найти ваш (или подобный) лингвоанализатор, который проверял бы словарный запас автора (количество уникальных слов)?

философ

9 декабря 2016 г. 16:28

цитировать

creator, а нет ли ошибок в алгоритме определения профиля? Чисто случайно я посмотрел профиль "Холодных берегов" Лукьяненко. Там сказано, что в произведении нет кратких прилагательных. Открываю текст, а там буквально в первых строках "Для надсмотрщика он и впрямь был стар — лет сорок, пожалуй." Или: "Ох, здоров Шутник!"

авторитет

16 июля 2018 г. 09:08

цитировать

Добрый день. Возможно я чего-то не до понял в лингвистическом анализе... Посмотрел несколько авторов и меня удивило, почему в разделе Части речи — глаголов меньше 1% от общего числа определенных частей речи?

философ

16 июля 2018 г. 17:26

цитировать

цитата Fyodor
почему в разделе Части речи — глаголов меньше 1% от общего числа определенных частей речи?

Похоже, это общая картина. Какое произведение ни возьми, всюду схожая статистика. Так же печально или еще печальнее обстоит дело с причастиями и деепричастиями. Проблема, видимо, начинается с того, что алгоритм не может определить морфологическую группу примерно четверти (!) слов. Из того, что он может определить, более четверти слов распознаны как "служебные слова". Так что где-то здесь "потерялись" глаголы, деепричастия и пр. Да и относительно других групп могут быть вопросы. Похоже, в базе полнейший мусор в разделе лингвистического анализа.

–––
"Сумерки, осень и бешеный дождь,
Я подошёл и спросил - что ты ждёшь."

магистр

17 июля 2018 г. 10:09

цитировать

Глаголы попадали в инфинитивы. Исправил. Запустил на всякий случай массовый пересчёт.
Часть речи "инфинитив" удалил. Часть речи "краткое причастие" перенес в "причастие" и тоже удалил.

–––
+7(996)730-00-00, Telegram https://t.me/crealist

философ

17 июля 2018 г. 16:08

цитировать

creator, да, изменения заметные. У многих произведений доля глаголов теперь внезапно > 25%. Это перебор. Для литературных текстов ориентир где-то 15%. В НКРЯ приведена статистика на очень большом корпусе текстов: 17%. И к "глаголам" они относят и (дее-)причастия.

–––
"Сумерки, осень и бешеный дождь,
Я подошёл и спросил - что ты ждёшь."

авторитет

18 июля 2018 г. 00:40

цитировать

creator Спасибо за разъяснение и исправление. Теперь понятнее и интереснее.
Victor31 Может 25 % глаголов — нормальное значение. Мне вспоминаются статьи А.Н. Толстого, который утверждал, что глагол — основа языка произведения.

миродержец

18 июля 2018 г. 07:45

цитировать

цитата Fyodor
глагол — основа языка произведения

Угу. Каноническое "Решили послать сходить купить выпить" и прочие примеры (рассказ из одних глаголов).

–––
«Не могли бы вы угостить крекером моего дроматерия?»

магистр

18 июля 2018 г. 08:27

цитировать

Victor31 можно разобрать на конкретном произведении. Покажу какие слова определились как глагол, какие нет. Может, и правда что-то найдём.

–––
+7(996)730-00-00, Telegram https://t.me/crealist

философ

18 июля 2018 г. 08:45

цитировать

creator, да, дело за примером теперь и за лог-файлами. Я бы сначала на загадочную группу НОЧР посмотрел. Ведь это четверть слов, а все последующие доли вычисляются от ОЧР. Если в НОЧР попадают все части речи более-менее пропорционально, то это одно дело, а если есть перекос "в пользу" какой-то определенной группы, то это уже другое распределение. Четверть всей лексики в категории unknown — очень много.

–––
"Сумерки, осень и бешеный дождь,
Я подошёл и спросил - что ты ждёшь."

магистр

18 июля 2018 г. 11:18

цитировать

Victor31, я посмотрел на предмет НОЧР. Ошибки тут нет.
Это слова, по которым код не может однозначно определить какая это часть речи. Это можно сделать только по контексту предложения, и я пока не представляю как это вообще возможно запрограммировать.

Вот примеры слов, на которых анализатор у меня даёт неоднозначность, т.е. возможные варианты.
Первое же слово — "стать". Это существительное или глагол?..

Я, конечно, мог впихнуть все в первый вариант, но это ж неправильно.

+{СТАТЬ}Г|+{СТАТЬ}С
+{ТАК}ЧАСТ|+{ТАК}СОЮЗ|+{ТАК}Н
+{ПОТ}С|+{ПОТОМ}Н
+{И}МЕЖД|+{И}СОЮЗ
+{МЫТЬ}Г|+{МОЙ}МС-П
+{ДАЖЕ}СОЮЗ|+{ДАЖЕ}ЧАСТ
+{КАЖЕТСЯ}ВВОДН|+{КАЗАТЬСЯ}Г

–––
+7(996)730-00-00, Telegram https://t.me/crealist

философ

18 июля 2018 г. 21:53

цитировать

creator, на языке НКРЯ это неснятая омонимия. Статистику с 17% глаголов они дают, кстати, по текстам, где омонимия снята. Странновато, что омонимов так много. Но если туда все "И" и пр. попали, то тогда это можно понять.

–––
"Сумерки, осень и бешеный дождь,
Я подошёл и спросил - что ты ждёшь."

магистр

19 июля 2018 г. 07:12

цитировать

цитата Victor31
Но если туда все "И" и пр. попали, то тогда это можно понять.

Думаю, можно вручную пробежаться по самым распространённым словам типа "и", да определить их. То же "и" — в союзы.
Процент НОЧР, возможно, сильно уменьшится.

–––
+7(996)730-00-00, Telegram https://t.me/crealist

философ

19 июля 2018 г. 10:47

цитировать

creator, думаю, это шаг в правильном направлении. Даже если те же "И" попадут сначала просто в новую графу "Распознаны, но омонимия не снята", то при вычислении доли тех же глаголов их вклад в числитель точно 0, а в знаменатель их все следует добавлять, даже не зная, союз они или междометие.

–––
"Сумерки, осень и бешеный дождь,
Я подошёл и спросил - что ты ждёшь."

Страницы: 1 2 3 4 5 🔍 поиск