dev График со статистикой ...


Вы здесь: Форумы fantlab.ru > Форум «Техподдержка и развитие сайта» > Тема «[dev] График со статистикой работ автора (beta)»

[dev] График со статистикой работ автора (beta)

 автор  сообщение


философ

Ссылка на сообщение 20 ноября 2016 г. 18:28  
Сделана страница со статистикой работ автора. На график с разбивкой по годам можно посмотреть
- кол-во работ
- количество оценок к работам
- количество отзывов
- количество изданий произведения
- общий тираж произведения

Клик на столбец показывает работы за год

Пока ссылки на статистику со страницы автора нет, можно посмотреть если сформировать URL вручную, например: https://fantlab.ru/autor20/stat


миродержец

Ссылка на сообщение 20 ноября 2016 г. 19:01  
Спасибо.
–––
Следующие рецензии в АК:
Краевская, Пауэлл, Голубева, Бобылева.


гранд-мастер

Ссылка на сообщение 20 ноября 2016 г. 19:02  
Отличная вещь, спасибо!

Ещё бы сразу доработать:

цитата Semenych

количество изданий произведения

Необходимо либо оставить и назвать "количество изданий на русском языке", либо разделить "кол-во изданий на языке оригинала" и "кол-во изданий на русском". Кроме того данный подсчёт нужно корректировать — суммировать должны только типы "авторская книга" и "авторский сборник". Антологии, переиодика, самиздат и т.п. учитываться не должны.

Тоже самое касается тиражей — суммировать нужно только русскоязычные издания.


гранд-мастер

Ссылка на сообщение 20 ноября 2016 г. 19:03  
При наведении год показывается в странном виде "1,983"

При тиражах больше 100k цифра значения у осей не отображаются до конца "160,..."


философ

Ссылка на сообщение 20 ноября 2016 г. 19:15  

цитата Dark Andrew

При наведении год показывается в странном виде "1,983"
При тиражах больше 100k цифра значения у осей не отображаются до конца "160,..."

Ага на неделе поковыряюсь с форматированием.
Со статистикой на языке оригинала/кол-во изданий на русском, идея правильно но — вот прямо сейчас делать не хочется т.к. надо подкручивать статистику в пузе сайта и
1. слишком глубоко ради минорной вещи лезть не хочется, там надо модель данных докручивать в общем это достаточно далеко ведет.
2. В принципе в целях — понять что издавалось больше всего ==> что популярно такая грубая статистика отвечает. Т.е. как первое приближение ОК.


миродержец

Ссылка на сообщение 20 ноября 2016 г. 19:21  
Было бы также интересно видеть среднюю оценку по типам произведений в каждый год. А не только количество изданий, произведений, оценок...
–––
Следующие рецензии в АК:
Краевская, Пауэлл, Голубева, Бобылева.


философ

Ссылка на сообщение 20 ноября 2016 г. 19:34  

цитата Green_Bear

Было бы также интересно видеть среднюю оценку по типам произведений в каждый год. А не только количество изданий, произведений, оценок...

А среднюю как (midmark1+midmark2+ ... + midmarkN) /N где 1..N это произведения или среднее по всем оценкам все произведений? Первое быстрее посчитать, второе достаточно дорогой запрос.
И как правильно должна такая характеристика называть? "Средняя оценка по типам произведений"?


миродержец

Ссылка на сообщение 20 ноября 2016 г. 19:43  

цитата Semenych

поковыряюсь с форматированием.

Количество (произведний/изданий/оценок/отзывов/...) не может быть нецелым, так что выводить на оси ординат метки вроде "0.5", "1.5" не имеет никакого смысла.

Кроме того, оставлены за бортом все остальные типы произведений, помимо романов, повестей и рассказов — документальные, учебные, прочие, вся поэзия. У некоторых авторов это существенная доля творчества.

цитата Dark Andrew

разделить "кол-во изданий на языке оригинала" и "кол-во изданий на русском"

Издания бывают не только на русском и на языке оригинала. Книги переводятся с любого на любой язык. Как (и зачем?!) отделить друг от друга оригинально франкоязычное произведение, изданное на французском, от изданий на английском, испанском, китайском, польском, суахили?
А ещё ведь бывают и билингвальные издания...
–––
«Не могли бы вы угостить крекером моего дроматерия?»


философ

Ссылка на сообщение 20 ноября 2016 г. 19:47  
про не круглые цифры мне тут уже подсказали, так сказать математически это верно, но выглядит странно.
про остальные произведения — я думал, сейчас в ряде мест сайта, например в рейтингах, логика построена вокруг как раз этих типов произведений. если расширять диапазон то получится неконсистентно. Так просто я бы менять это не хочу.
Как альтернатива сейчас в работе таймлайн (на базе https://codyhouse.co/demo/vertical-timeli... ) автора который будет показывать все что он делал включая произведения, издания, награды, рождение и остальное. Там как раз будет всё-всё.


гранд-мастер

Ссылка на сообщение 20 ноября 2016 г. 19:51  

цитата Semenych

Со статистикой на языке оригинала/кол-во изданий на русском, идея правильно но — вот прямо сейчас делать не хочется т.к. надо подкручивать статистику в пузе сайта и

Тогда можно смело отключать эту часть функции. У неё нет смысла, если подсчет идёт суммарно русских и на языке оригинала. Эта цифра не даёт ничего.

цитата Semenych

1. слишком глубоко ради минорной вещи лезть не хочется

Это не минорная вещь. Это единственный способ корректного подсчёта.

цитата Semenych

В принципе в целях — понять что издавалось больше всего ==> что популярно такая грубая статистика отвечает.

Нет, не отвечает. Берём простейший пример популярного автора: https://fantlab.ru/work3205
И что вы там насчитаете, просуммировав русские издания с переводными, скажем на 2011 год?

цитата Zlogorek

Издания бывают не только на русском и на языке оригинала. Книги переводятся с любого на любой язык. Как (и зачем?!) отделить друг от друга оригинально франкоязычное произведение, изданное на французском, от изданий на английском, испанском, китайском, польском, суахили?

Что простите? Нужно выделить русскоязычные издания. Для остального у нас банально не хватит внесенных изданий, чтобы давать хоть сколько-то достоверную статистику.

цитата Zlogorek

А ещё ведь бывают и билингвальные издания...

И? Билингвальных крайне мало, во-первых, а во-вторых, они внесены, как русскоязычные.


гранд-мастер

Ссылка на сообщение 20 ноября 2016 г. 19:54  
Semenych
Zlogorek
Коллеги, у меня есть серьёзное предложение — отойдите на пару шагов от программирования. Посмотрите на осмысленность всех графиков. Они же не просто так, у них должен быть смысл, они не должны показывать суммы тёплого с мягким. Мне кажется, что вы этот момент игнорируете напрочь.


философ

Ссылка на сообщение 20 ноября 2016 г. 19:56  

цитата Dark Andrew

Нет, не отвечает. Берём простейший пример популярного автора: https://fantlab.ru/work3205
И что вы там насчитаете, просуммировав русские издания с переводными, скажем на 2011 год?

Наверное из описания плохо понятно — цифра за 2011 год это не издания в 2011 году, а издания (включая более поздние) произведений созданных в 2011 году.

Вот тут https://fantlab.ru/autor116/stat/?data_to... видно, что работы 2002 года по общему тиражу вытянули на 300к а работы 2011 на 500к
при этом отзывов на работы 2002 в два раза больше чем на 2011 а оценок опять же на 2011 больше, что само по себе интересный факт


философ

Ссылка на сообщение 20 ноября 2016 г. 20:04  

цитата Dark Andrew

Коллеги, у меня есть серьёзное предложение — отойдите на пару шагов от программирования. Посмотрите на осмысленность всех графиков. Они же не просто так, у них должен быть смысл, они не должны показывать суммы тёплого с мягким. Мне кажется, что вы этот момент игнорируете напрочь.

Ну жизнь сложная и теплое с мягким от непростой жизни иногда приходится суммировать за не имением лучшего. Я к тому, что в data science для некоторых авторов некоторые выборки не будут иметь смысла, а некоторые достаточно интересны. Т.е. один и тот же инструмент может для некоторых наборов данных давать вермишель, а для некоторых интересные инсайты. Скажем график https://fantlab.ru/autor193/stat/?data_to... вполне так нормальный


гранд-мастер

Ссылка на сообщение 20 ноября 2016 г. 20:07  

цитата Semenych

Наверное из описания плохо понятно — цифра за 2011 год это не издания в 2011 году, а издания (включая более поздние) произведений созданных в 2011 году.

Это не то, что плохо понятно, это непонятно вообще. Простите, но в чём смысл этой характеристики? Что может показать данная цифра? Кому она нужна и как её можно использовать для оценки хоть чего-нибудь.

Пример:
Автор ААА создал в 2000 году 7 рассказов, каждый из которых был переиздан по 2 раза
Автор БББ создал в 2000 году 1 рассказ, который был переиздан 14 раз
на графике будет одинаковое отображение

--------------------------
Причём к тому, что написал я про сумму российских и иностранных изданий, это не имеет отношения. Берём ту же ссылку. И что вам даст цифра 16 переизданий, когда из них на русском только 6? А у другого автора будет те же 16, только все 16 на русском. В чём смысл сложения вещей с разным значением?


философ

Ссылка на сообщение 20 ноября 2016 г. 20:08  

цитата Dark Andrew

Антологии, переиодика, самиздат и т.п. учитываться не должны.

И да, я туплю — а почему не учитывать периодику, антологии ... — тут у меня знаний о мире книг не хватает — в чем разница? Мне казалось, что ну все равно.


гранд-мастер

Ссылка на сообщение 20 ноября 2016 г. 20:11  

цитата Semenych

Скажем график https://fantlab.ru/autor193/stat/?data_to... вполне так нормальный

Нормальный?

Сразу уточняю, чтобы вы были в курсе:
— тиражи русскоязычных изданий внесены достаточно точно
— тиражи и собственно сами иноязычные издания внесены случайным образом

Результат — вы показываете вроде как мировой тираж для романов, но на самом деле — это враньё, т.к. франко- и англоязычных изданий у нас с огромной вероятностью нет даже 50% от существующих. И в итоге у вас нет графика ни по русским изданиям, который мог бы быть более-менее точным, ни по мировым, т.к. у нас нехватка данных по ним.
Расскажите, пожалуйста, тогда в чём его смысл. Что вы этим графиком хотите показать?


философ

Ссылка на сообщение 20 ноября 2016 г. 20:12  

цитата Dark Andrew

Причём к тому, что написал я про сумму российских и иностранных изданий, это не имеет отношения. Берём ту же ссылку. И что вам даст цифра 16 переизданий, когда из них на русском только 6? А у другого автора будет те же 16, только все 16 на русском. В чём смысл сложения вещей с разным значением?

Ну я пытался ответить на вопрос, что издатели больше всего склонны печатать и соотв что они считают более популярным (при прочих равных). Грубо говоря мера популярности книги. По идее для ответа на этот вопрос язык вообще не важен. Ну издали на иностранном и зашибись — популярная книга. В чем смысл только на родном языке трекать? По идее тут есть артефакт не полноты данных фантлаба — не все издания есть и не для всех есть тираж т.е. для русских изданий тираж выше.
Но как это учитывать и учитывать ли я так с ходу не соображу.


философ

Ссылка на сообщение 20 ноября 2016 г. 20:14  

цитата Dark Andrew


Результат — вы показываете вроде как мировой тираж для романов, но на самом деле — это враньё, т.к. франко- и англоязычных изданий у нас с огромной вероятностью нет даже 50% от существующих. И в итоге у вас нет графика ни по русским изданиям, который мог бы быть более-менее точным, ни по мировым, т.к. у нас нехватка данных по ним.
Расскажите, пожалуйста, тогда в чём его смысл. Что вы этим графиком хотите показать?

Ага вот сейчас я наверное понял. Вы говорите, что данные об изданиях на не русском языке сильно менее точны чем на русском и лучше их вообще убрать из выборки, чтобы они не вносили искажений. Так?


гранд-мастер

Ссылка на сообщение 20 ноября 2016 г. 20:15  

цитата Semenych

И да, я туплю — а почему не учитывать периодику, антологии ... — тут у меня знаний о мире книг не хватает — в чем разница? Мне казалось, что ну все равно.

1. Потому что это принято разделять — есть книжное издание, а есть периодика
2. Потому что у вас роман в периодике может издаваться 12 номеров журнала, а вы каждый посчитаете за отдельное издание

С антологиями может быть и надо учитывать, тут надо смотреть, что вы всё-таки хотите графиком показать, а пока я этого не понимаю.


гранд-мастер

Ссылка на сообщение 20 ноября 2016 г. 20:17  

цитата Semenych

Но как это учитывать и учитывать ли я так с ходу не соображу.

Я написал как — выделить русскоязычные и получить по ним достоверную картину.

цитата Semenych

Вы говорите, что данные об изданиях на не русском языке сильно менее точны чем на русском и лучше их вообще убрать из выборки, чтобы они не вносили искажений. Так?

Или вообще убрать, или вынести в отдельный подпункт. Достоверность достижима хоть в какой-то мере только на русскоязычных изданиях
Страницы: 12    🔍 поиск

Вы здесь: Форумы fantlab.ru > Форум «Техподдержка и развитие сайта» > Тема «[dev] График со статистикой работ автора (beta)»

 
  Новое сообщение по теме «[dev] График со статистикой работ автора (beta)»
Инструменты   
Сообщение:
 

Внимание! Чтобы общаться на форуме, Вам нужно пройти авторизацию:

   Авторизация

логин:
пароль:
регистрация | забыли пароль?



⇑ Наверх