Лингвистический анализ и ...


Вы здесь: Форумы fantlab.ru > Форум «Техподдержка и развитие сайта» > Тема «Лингвистический анализ и распознавание автора»

Лингвистический анализ и распознавание автора

 автор  сообщение


философ

Ссылка на сообщение 19 июля 2018 г. 13:39  
Есть еще вопросы по презентации данных. Вот, например, страничка "Петербурга":

https://fantlab.ru/work293513/lp

Как интерпретировать отсутствие Андрея Белого в списке потенциальных авторов? У него нет "лингвистического паспорта"? Но в таком случае иногда бывает предупреждение (Пушкин). Или "паспорт" есть, но Белый отсутствует в списке, потому что "не открыт"?
–––
"Сумерки, осень и бешеный дождь,
Я подошёл и спросил - что ты ждёшь."


магистр

Ссылка на сообщение 19 июля 2018 г. 13:50  
Victor31, как это нет Белого?? А вот же:

–––
+7(996)730-00-00, Telegram https://t.me/crealist


магистр

Ссылка на сообщение 19 июля 2018 г. 13:51  
А, блин, да. Не открытых ещё авторов видим только мы, админы. :-D
–––
+7(996)730-00-00, Telegram https://t.me/crealist


философ

Ссылка на сообщение 19 июля 2018 г. 13:55  
Надо бы поправить :)
–––
"Сумерки, осень и бешеный дождь,
Я подошёл и спросил - что ты ждёшь."


магистр

Ссылка на сообщение 19 июля 2018 г. 14:00  
Поправил. )
–––
+7(996)730-00-00, Telegram https://t.me/crealist


магистр

Ссылка на сообщение 20 июля 2018 г. 07:41  
И всё равно трудности.
Вот слово "а" — это союз, частица или междометие?
А когда как. Так к чему мне его причислить? (
–––
+7(996)730-00-00, Telegram https://t.me/crealist


магистр

Ссылка на сообщение 20 июля 2018 г. 08:32  
Итак, я кое-что в словаре оптимизировал, теперь неопределённых частей речи будет становиться меньше.
Сейчас их 25% в среднем. Запустил пересчёт. Ожидается, что станет 19-20%.

Кстати. Для определения части речи у меня используется словарь. В исходном виде это текстовый файл с почти двумя миллионами строк (слов). Могу отдать на доработку, устранение неоднозначностей и ошибок. С меня, как минимум, спасибо. Желающим — велкам.
–––
+7(996)730-00-00, Telegram https://t.me/crealist


магистр

Ссылка на сообщение 28 июля 2018 г. 12:52  
creator, доброго дня!

А можно ли прислать на проверку пару файлов fb2 с разным авторством (оба автора — нераскрытые псевдонимы, увы)? Есть подозрение, что оба текста написаны одним из этих псевдонимов, тем более, что второй автор-псевдоним открещивался от того текста, который издательством приписывался ему...


авторитет

Ссылка на сообщение 29 июля 2018 г. 10:31  
creator Добрый день,
есть предложение, не знаю насколько вас заинтересует. Есть такой параметр, как индекс удобочитаемости. Может включить его в анализ?


магистр

Ссылка на сообщение 30 июля 2018 г. 10:28  
say2014, присылайте в личку.
Fyodor, в формуле индекса удобочитаемости (если брать вот эту) использованы средняя длина предложения и средняя длина слова в слогах.
Первое уже обрабатывается у нас. Второе, действительно, не используется. Можно считать его как среднее между (кол-во гласных в слове / длина слова). Попробую на досуге. Но нужно понимать, что этот параметр а) очень сильно коррелирован с (средняя длина слова), что у нас уже есть и б) затеряется в тысяче других параметров и особой пользы не принесёт. Но спасибо за наводку! 8-)
–––
+7(996)730-00-00, Telegram https://t.me/crealist


авторитет

Ссылка на сообщение 31 июля 2018 г. 17:26  
creator Спасибо. Сейчас читаем с ребенком Алису Селезневу, и я обратил внимание, насколько легко понятен текст Булычева — короткие предложения, короткие слова. В предложении иногда 2-3 слова. Но такие же короткие предложения у него и во "взрослых" рассказах. Например в "Умении кидать мяч": "Наши били штрафные. Мне интересно было наблюдать за Курловым. Интереснее, чем за экраном. Он поморщился. Ага, значит, промах. Потом кивнул. Доволен. Между таймами я приготовил кофе. Обнаружил в буфете бутылку венгерского ликера." (Думаю иностранцам, изучающим русский язык, Игорь Всеволодович подошел бы в самый раз). Поэтому мне стало интересно сравнить индекс удобочитаемости Булычева с другими авторами, которых начинаешь читать, но не прёт.
И еще наблюдение. Я тренируюсь слепому десятипальцевому методу печати и сижу часто на клавогонках. Там генерируются случайным образом отрывки из произведений разных авторов. Некоторые отрывки легко "пробегаются", а через другие пробираешься с трудом и после замечаешь, что автор "трудных текстов" любит длиннющие слова, причастия, деепричастия, да еще вместо того, чтобы разбить предложение на два, разделяет его точкой с запятой...
Страницы: 12345    🔍 поиск

Вы здесь: Форумы fantlab.ru > Форум «Техподдержка и развитие сайта» > Тема «Лингвистический анализ и распознавание автора»

 
  Новое сообщение по теме «Лингвистический анализ и распознавание автора»
Инструменты   
Сообщение:
 

Внимание! Чтобы общаться на форуме, Вам нужно пройти авторизацию:

   Авторизация

логин:
пароль:
регистрация | забыли пароль?



⇑ Наверх