Тема «Лингвистический анализ и распознавание автора»

Вы здесь: Форумы fantlab.ru > Форум «Техподдержка и развитие сайта» > Тема «Лингвистический анализ и распознавание автора»

Лингвистический анализ и распознавание автора

Страницы: 1 2 3 4 5 🔍 поиск написать сообщение

автор

сообщение

магистр

19 февраля 2008 г. 14:59

цитировать

Вот Лукьяненко.
И Бушкова заодно обновил — у него я экспоненциальные регресси заменил на полиномиальные и график сделал с отрезками, как и у Лукьяненко.

–––
+7(996)730-00-00, Telegram https://t.me/crealist

магистр

19 февраля 2008 г. 15:13

цитировать

красивый график.
а выводы?

–––
ϝʟ * Никаких компромиссов, даже перед лицом армагеддона (Роршах)

миротворец

19 февраля 2008 г. 15:31

цитировать

цитата vad
красивый график.
а выводы?

Как я понимаю, здесь все вполне ожидаемо. Влияние раннего постепено падает, влияние позднего постепенно растет. Из общего графика серьезно выбивается Мальчик и тьма, а все остальное вполне соответствует.

–––
I`ll be back!

активист

19 февраля 2008 г. 17:22

цитировать

цитата kkk72
серьезно выбивается Мальчик и тьма

И именно поэтому его обычно издают вместе с "Рыцарями сорока островов". Очень близко эти два произведения друг к другу стоят.

По поводу анализатора текстов: сколько ещё должно быть "проработано" базой текстов для большей точности оценки? Просто я долго медитировал над "похожестью" других авторов на Бушкова. 61% у Олдей, например. Хотя теперь я точно знаю: Бушков и Вероника Иванова — это два совершенно разных писателя!! :-D

гранд-мастер

19 февраля 2008 г. 17:32

цитировать

Вот у этого издания Дюны
http://www.fantlab.ru/edition2277
есть статья переводчика, где он долго и упорно ругает других переводчиков Дюны, можно ли сравнить тексты разных Дюн на русском?

–––
Любовь никогда не перестает... ап. Павел
Не указывайте дорогу Любви. отец Олег

магистр

19 февраля 2008 г. 22:02

цитировать

mist А что их сравнивать достаочно их просто напросто открыть..,Я такой опыт проводил....Полностью согласен с Вязнквым....Достойный перевод есть еще у Соколова....Если надо текст Вязниковской Дюны пишите, именно наша команда на дюновском форуме его сканила и редактировала ошибки сканирования....

философ

20 февраля 2008 г. 17:51

цитировать

А нельзя ли создать сервис для анализа введенного текста?

–––
There is no hope. There is only chaos and evolution.

миротворец

21 февраля 2008 г. 16:17

цитировать

цитата creator
Профиль есть профиль, он считается как среднее по всей текстографии.

А можно ли написать подробнее, как вычисляется лингвопрофиль? И что в приведенных Вами таблицах Excel означают параметры "Место" и "%"? И на основании каких критериев делается вывод, что тексты одного и того же автора написаны разными людьми?

Было бы интересно, чтобы пользоватеи сами могли с помощью Вашей программы, creator, делать выборки для определенного писателя, например, Крапивина или Стругацких и сравнить лингвопрофили, например, ранних и поздних Стругацких.

Интерфейс программы в том виде, в котором он сейчас существует на сайте, практически не дает никакой информации — никакие пары параметров по всему списку писателей не коррелируют, стало быть они независимы. Повидимому, эти параметры дают вклад в лингвопрофиль, но для пользователей они в таком виде бесполезны.

магистр

21 февраля 2008 г. 20:47

цитировать

цитата creator
Я читал древнюю статью о разоблачении Шолохова. Пока у меня нет на руках ни "Тихого Дона", ни "Поднятой целины". Как только будет, проанализирую. Опять таки повторюсь — если есть, присылайте.

creator, необходимость в текстах Шолохова ещё акутальна? 8-)

–––
В прежнее время книги покупали читатели. Теперь покупают обложки, корешки и бумагу, а книги не читает никто

философ

21 февраля 2008 г. 21:53

цитировать

цитата creator
По Бушкову.
Что-то мне начинает думаться, что зелёная регрессия на графике — это бушковский редактор. Тогда все становится на свои места. Бушков как писал, так и пишет, что подтверждает красная, неизменная регрессия. Но стиль, который у него был в ранних романах, иссякает, появляются ляпы, стилистические ошибки, что подтверждают читатели... И логично — редактор со временем становится не нужен, т.к. издательства от такого автора примут текст в любом случае, плюс стремление скорее издать свой труд. Вот она — зелёная, ниспадающая регрессия.

Очень похоже на правду.
Есть еще одно предположение. Для аналогии приведу пример с почерком. Если я очень сильно постараюсь, я могу писать очень красиво. Если я спешу, или делаю заметки для себя, получается очень коряво, практически неразборчиво. Внешне — писали разные люди. На самом деле любой графолог скажет, что один и тот же человек.
Возможно ли, что зеленая регрессия — это доля внимания автора к книге (время, потраченное на работу с книгой) , результат переделки некоторых частей, результат саморедактирования. А "Поздний Бушков" — сырец, основа.

Как я представляю (никогда не пробовал писать, простите, если что не так) автор не может сходу написать роман. После он его перечитывет, исправляет.

магистр

21 февраля 2008 г. 22:08

цитировать

цитата Михаль
А можно ли написать подробнее, как вычисляется лингвопрофиль?

Это написано в статье «Лингвистический анализ текста и распознавание автора».

цитата Михаль
И что в приведенных Вами таблицах Excel означают параметры "Место" и "%"?

Если зайдёшь на страницу лингвоанализа любого произведения (там, где дофига цифр :-)))

), то внизу увидешь список авторов с указанием процента совпадения стилистики данного произведения со стилистикой автора. Список упорядочен по убыванию процента совпадения. Автор на первом месте — наиболее вероятный истинный автор текста, т.к. процент совпадения с его профилем наиболее высок.

цитата Михаль
И на основании каких критериев делается вывод, что тексты одного и того же автора написаны разными людьми?

Критериев порядка полутора тысяч, все они сравниваются и анализируются в совокупности. Вывод делается на основании всё того же процента совпадения с лингвопрофилем.

цитата Михаль
Было бы интересно, чтобы пользоватеи сами могли с помощью Вашей программы, creator, делать выборки для определенного писателя, например, Крапивина или Стругацких и сравнить лингвопрофили, например, ранних и поздних Стругацких.

Сложно реализуемо. По сути это нужно тогда позволить посетителям добавлять на фантлабе авторов — старые Стругацкие, новые Стругацкие...

цитата Михаль
никакие пары параметров по всему списку писателей не коррелируют, стало быть они независимы

Как не коррелируют?! А это что?

NAV&gator, мне прислали уже, правда в виде txt. Если есть fb2.zip, присылай.

–––
+7(996)730-00-00, Telegram https://t.me/crealist

магистр

21 февраля 2008 г. 22:10

цитировать

One, я полагаю, именно так и происходит. Ещё на Никитине проверю.

–––
+7(996)730-00-00, Telegram https://t.me/crealist

авторитет

26 февраля 2008 г. 14:47

цитировать

А ведь здесь присутствуют авторы. Любопытно попросить у них первый вариант произведений — авторский и сравнить с изданным (редакторским). Посмотреть — как изменятся характеристики под влиянием редактора.
Можно на условиях анонимности.

миротворец

26 февраля 2008 г. 17:44

цитировать

creator, насколько правильно я поняла: "авторская функция" это, по существу, функция Ma(W)?

А совокупность авторских функций для разных произведений этого же автора в "процентах совпадения с его профилем" формирует "авторский профиль"?

А какой параметр в EXEL-таблицах откладывается по оси Х? Время?

философ

27 февраля 2008 г. 16:32

цитировать

Мой вопрос был проигнорирован, но тем не менее я задам его еще раз.
Нельзя ли на сайте создать сервис, что бы пользователи смогли бы анализировать введенные ими тексты.

–––
There is no hope. There is only chaos and evolution.

философ

28 февраля 2008 г. 08:23

цитировать

Bladeness думаю — вряд ли. Если есть необходимость в этом, обращайтесь к администраторам ;-)

магистр

3 марта 2008 г. 14:10

цитировать

цитата Михаль
"авторская функция" это, по существу, функция Ma(W)?

Не понял вопроса, если честно. $%-\$

цитата Михаль
совокупность авторских функций для разных произведений этого же автора в "процентах совпадения с его профилем" формирует "авторский профиль"?

Нет. Авторский профиль — это совокупность средних значений всех параметров для всех произведений автора + среднеквадратичное отклонение каждого параметра для его авторского среднего.

цитата Михаль
А какой параметр в EXEL-таблицах откладывается по оси Х? Время?

Скажем так, номер произведения по хронологии. Близкий, но не точный аналог времени.

цитата Bladeness
Нельзя ли на сайте создать сервис, что бы пользователи смогли бы анализировать введенные ими тексты.

Прошу прощения, я пропустил этот вопрос. Такую функцию можно сделать, но делать не буду по ряду причин.

–––
+7(996)730-00-00, Telegram https://t.me/crealist

миротворец

5 марта 2008 г. 17:05

цитировать

Извините, что "достаю" Вас ,creator, но хотелось бы разобраться.

цитата creator
цитата Михаль
"авторская функция" это, по существу, функция Ma(W)?
Не понял вопроса, если честно

Из Вашей статьи «Лингвистический анализ текста и распознавание автора».

цитата creator
Для вычисления вероятности того, что текст принадлежит тому или иному автору, имея под рукой таблицу весов всех характеристик, достаточно лишь посчитать средневзвешенное значение авторской функции распределения по всех характеристикам текста

цитата creator
среднее значение W для автора считаем как средневзвешенное:

Ma(W) = (Mb1(W)*WCount(b1)+Mb2(W)*WCount(b2)+ ... +MbN(W)*WCount(bN)) / (WCount(b1)+WCount(b2)+ ... +WCount(bN))

, где MbX(W) — среднее значение параметра W для произведения X, WCount(bX) — вес = количество слов в произведении X.

цитата creator
Авторский профиль — это совокупность средних значений всех параметров для всех произведений автора + среднеквадратичное отклонение каждого параметра для его авторского среднего.

Среднеквадратичное отклонение — погрешность при вычислении параметра. Для чего ее надо складывать с параметром? Если погрешность мала, то это не имеет смысла. Если она имеет величину порядка средневзвешенного, тогда доверительный интервал (который отсутствует в Ваших EXEL-таблицах) будет больше, чем вычисленный параметр.

философ

7 марта 2008 г. 00:31

цитировать

Все что будет написано дальше, является чистым экспериментом и выяснением возможностей лингвистического анализа. Все выводы, которые будут сделаны, изначально субъективны и уж точно не несут рекомендательный характер. Относитесь ко всему написанному ниже с долей здоровой критики и не надо делать выпадов в чей-либо адрес, хотя замечания и предложения приветствуются.

Для сравнения я взял 5 разных переводов «Бойцовского клуба» Чака Паланика – Амзина, Завгороднего, Егоренкова, Савочкина и последний без пометки переводчика, но скорее всего Кормильцева.

Открываю и смотрю, что сразу бросается в глаза. Конечно графики. Цифры потом. Первым идет график использования диалогов по тексту. Сразу скажу спасибо г-ну Завгороднему, за то что он не выделил диалоги в тексте (хотя, что уж там придираться – перевод не заказной), поэтому тут на него не смотрел. Общая картина следующая – очень схожие графики, местами практически идентичные и, наверное, можно описать общий график плавной кривой, от которой идут переводческие абберации. Чуть выше, чуть ниже местами зависит от переводчика – каким количеством текста он обошелся, а может и вообще вынес его за пределы диалога. Единственное, что насторожило, так это в первой трети перевода у Кормильцева и Амазина пропал всплеск диалогов в тексте. Точнее так – у Кормильцева его словно и небыло, один «пенек» остался, хотя перед этим диалоги присутствуют, а у Амазина есть все-таки небольшая «часть трапеции», но что уж совсем странно, перед этим у него словно и нет диалогов. Этот момент мне не очень понятен, по той простой причине, что непонятно из-за чего такая разница в графиках в этом моменте получилась. Именно в этом. Если брать среднее из всех графиков, то наиболее близок был бы к усредненному результату Амазин, если бы у него не пропали диалоги в первой трети перевода.
По цифрам. Лингвоанализатор считает слова, знаки и все что только возможно, включая подсчет количества страниц в произведении. Средний результат по страницам – 151-152, если же опять не брать в расчет Завгороднего, у которого получилась 141 страница текста. Если брать в сравнение с Кормильцевым у которого 155 страниц, то это кажется еще более странным. Может «краткость – сестра таланта»? Средняя длина слова в знаках у всех более или менее одинаковая – около 5. Хотя тут может сыграть особенность данного конкретного языка (в данном случае — Великого и Могучего). В средней длине предложения в знаках, Завгородний опять выпадает. При 63 знаках на предложение у Кормильцева и Амазина, и 66-67 знаках у Савочкина с Егоренковым, у Завгороднего 53 знака, что явный промах среди результатов. В процентах по диалогам объединились Кормильцев с Егоренковым – примерно 14.7% и Амазин с Савочкиным – примерно 12.7%. А вот кусок авторского текста в диалогах – это у каждого свой. От 15 до 33% — больше, чем в два раза! Этого я тоже до конца не понимаю.
Ну а теперь перейдем к тому, что называется активным словарным запасом авторов. Тут все должно быть предельно ясно, так что цифры скажут многое. Уникальных слов использовано по тексту: Амазин – 6418, Егоренков – 6660, Завгородний – 5776, Кормильцев – 6789, Савочкин – 6066. Истинна где-то посередине и опять без Завгороднего. В принципе, это может значить лишь то, сколько переводчик употребил разных слов в тексте, а вот то, на сколько большим словарным запасом он пользовался по всему ходу произведения скажет другой параметр. Переводчик мог употребить множество слов единожды, при том пользуясь малым словарным запасом по всему ходу произведения. Для внесения ясности в это дело, существует параметр Удельный Активный Словарный Запас (на 10000 слов текста, т.к. он наиболее точно отображает то, что нам нужно). А вот что говорит нам УАСЗ: Амазин – 2534, Егоренков – 2661, Завгородний – 2364, Кормильцев – 2646, Савочкин – 2385. Странно, что Савочкин догнал Завгороднего (или наоборот) по УАСЗ. Интересно – если описать динамик изменения УАСЗ общей кривой, то у некоторых переводчиков этот график будет сходным, а у других вполне своеобразным. Но несмотря на это, пики использования УАСЗ приходятся примерно на одни и те же места – либо конец второй десятки страниц, либо начало шестой.
Остальные, более тонкие характеристики, касающиеся использования частей речи, знаков препинания и тому подобное, считаю нецелесообразным рассматривать. Если кто мне даст внятную аргументацию, почему стоит это сделать, я непременно последую совету. А пока не буду.
По имеющимся данным сделаю свой субъективный вывод: по сверенным показателям, вызывают наибольшие симпатии переводы Кормильцева и Егоренкова, Амазин – ничего, Савочкин настораживает, ну и Завгороднем и говорить нечего. Безусловно, на основе этих переводов (я бы исключил все-таки Завгороднего) можно составить из всех средних значений лингвоанализ, который был бы теоретически очень похож на анализ оригинала. И чем больше переводов одного произведения имеется, тем более точным он (анализ) будет, если, конечно, переводы не дилетантские. Трудно сказать, на сколько точно лингвоанализ может дать представление о хорошем переводе, поэтому нужен большой фанат Паланика, который читал все переводы и оригинал (желательно) и может подтвердить (или опровергнуть), сделанные мной выводы. А пока, это все лишь размышления, подкрепленные числами.

магистр

7 марта 2008 г. 07:31

цитировать

цитата Михаль
Среднеквадратичное отклонение — погрешность при вычислении параметра. Для чего ее надо складывать с параметром?

Я не складываю. Под знаком "+" я подразумел, что СКО фиксируется как часть лингвопрофиля, наравне со средним значением.

цитата Михаль
Если она имеет величину порядка средневзвешенного, тогда доверительный интервал (который отсутствует в Ваших EXEL-таблицах) будет больше, чем вычисленный параметр.

В Excel-таблицах вообще все по-другому. Там нет никакого отражения алгоритма. Мы ведь обсуждаем алгоритм или его частную реализацию на примере Бушкова и Лукьяненко?..

Paf o_O

Класс!
Совет: сравни количество причастий и деепричастий в тексте, существительных, пригалательных и служебных слов. По ним вполне можно какие-то выводы строить.

–––
+7(996)730-00-00, Telegram https://t.me/crealist

Страницы: 1 2 3 4 5 🔍 поиск