Слепая оценка качества


Вы здесь: Авторские колонки FantLab > Авторская колонка «ArK» > Слепая оценка качества художественного перевода, выполненного нейросетями
Поиск статьи:
   расширенный поиск »

Слепая оценка качества художественного перевода, выполненного нейросетями

Статья написана позавчера в 12:29

Слепая оценка качества художественного перевода, выполненного нейросетями: сравнительный анализ читательской рецепции (на материале опроса на сайте «Фантлаб»)

УДК 81’255.2:004.89:81’322.2

Аннотация. В статье представлены результаты эксперимента по слепой оценке качества перевода художественного текста, выполненного различными субъектами перевода: профессиональным переводчиком (О. Корчевская, издательство «Азбука»), гибридным методом с использованием нейросети Gemini 3 Flash (метод Д.Е.Н.Н.И.С.) и прямыми запросами к нейросетям (Gemini 3 Flash, DeepSeek). Материалом исследования послужил фрагмент книги Эда Крокера «Светопад. Пепел бессмертного» (Ed Crocker «Lightfall»). Респонденты (пользователи сайта «Фантлаб», в том числе профессиональные переводчики) оценивали переводы анонимно по ряду критериев: общее впечатление, читательский выбор, профессиональная пригодность и итоговая оценка по 10-балльной шкале. В статье анализируются комментарии участников, выявляются типичные ошибки нейросетевого перевода (буквализм, стилистическая глухота, нарушение лексической сочетаемости) и факторы, влияющие на предпочтения читателей. Особое внимание уделяется сравнению качества перевода, выполненного человеком и искусственным интеллектом, а также оценке гибридного подхода (нейросеть + постредактирование). Делаются выводы о современном уровне развития нейросетей в контексте художественного перевода и критериях его оценки читательской аудиторией, с учетом дифференциации профессионального и непрофессионального восприятия.

Ключевые слова: художественный перевод; нейросетевой перевод; машинный перевод; оценка качества перевода; слепое тестирование; искусственный интеллект в лингвистике; гибридный перевод; читательская рецепция; профессиональные переводчики; постредактирование; Gemini 3 Flash; DeepSeek; сайт «Фантлаб».

Blind Evaluation of Literary Translation Quality Performed by Neural Networks: A Comparative Analysis of Reader Reception (Based on a Survey on the Fantlab Website)

Abstract. This article presents the results of an experimental blind evaluation of the quality of a literary text translation performed by various agents: a professional human translator (O. Korchevskaya, Azbooka Publishers), a hybrid method using the Gemini 3 Flash neural network (the D.E.N.N.I.S. method), and direct prompts to neural networks (Gemini 3 Flash, DeepSeek). The study is based on a fragment from Ed Crocker's book "Lightfall." Respondents (users of the Fantlab website, including professional translators) anonymously assessed the translations according to several criteria: general impression, reader preference, professional suitability, and a final score on a 10-point scale. The article analyzes participant comments, identifies typical errors in neural network translation (literalism, stylistic insensitivity, violations of lexical collocation), and examines factors influencing reader preferences. Special attention is paid to comparing the quality of human and AI translations, as well as evaluating the hybrid approach (neural network + post-editing). Conclusions are drawn regarding the current capabilities of neural networks in the context of literary translation and the criteria for their evaluation by the readership, taking into account the differentiation between professional and non-professional perception.

Keywords: literary translation; neural machine translation (NMT); translation quality assessment; blind testing; artificial intelligence in linguistics; hybrid translation; reader reception; professional translators; post-editing; Gemini 3 Flash; DeepSeek; Fantlab website.

Введение

Стремительное развитие нейросетевых технологий в последние годы привело к их активному внедрению в сферу перевода. Если технический и деловой перевод уже демонстрируют высокую степень автоматизации, то вопрос о применимости искусственного интеллекта (ИИ) в художественном переводе остается открытым и вызывает оживленные дискуссии как в профессиональной среде, так и среди читателей. Способна ли нейросеть передать не только букву, но и дух оригинала, авторский стиль, идиоматику и подтекст? Насколько перевод, выполненный ИИ, конкурентоспособен по сравнению с работой профессионального переводчика-человека?

Особый интерес представляет сопоставление оценок, данных разными категориями респондентов: профессиональными переводчиками, обладающими специализированными знаниями и навыками анализа, и рядовыми читателями, для которых важен прежде всего эстетический и эмоциональный эффект от текста.

Целью данного исследования является анализ читательской рецепции пяти вариантов перевода одного художественного фрагмента, выполненных разными способами, в условиях слепого тестирования. В задачи работы входит: 1) описание методологии эксперимента и состава респондентов; 2) анализ качественных и количественных оценок, данных респондентами, с учетом их профессиональной принадлежности; 3) выявление типичных ошибок, характерных для нейросетевого перевода; 4) определение факторов, влияющих на предпочтения читателей при выборе перевода.

Материалом исследования послужили результаты опроса, проведенного на сайте «Фантлаб» (крупнейшее русскоязычное сообщество любителей фантастики). Пользователям было предложено оценить пять анонимных вариантов перевода отрывка из книги Эда Крокера «Светопад. Пепел бессмертного» (Ed Crocker «Lightfall»).

Методология эксперимента

Стимульный материал. Для оценки был предложен фрагмент текста романа Эда Крокера «Lightfall». Участникам опроса были представлены пять вариантов перевода этого фрагмента на русский язык:

1. Вариант 1. Перевод, выполненный с помощью нейросети Gemini 3 Flash с применением гибридного метода Д.Е.Н.Н.И.С., который включает стадии детального перевода, литературной редактуры, нейтрализации машинных маркеров и сверки с оригиналом.

2. Вариант 2. Перевод профессионального переводчика О. Корчевской, опубликованный издательством «Азбука» (серия «Звёзды новой фэнтези», 2026 г.). Этот вариант является эталонным «человеческим» переводом.

3. Вариант 3. Перевод, выполненный нейросетью Gemini 3 Flash (прямой запрос, без постредактирования).

4. Вариант 4. Перевод, выполненный нейросетью DeepSeek, предоставленный пользователем SupeR_StaR.

5. Вариант 5. Перевод, выполненный нейросетью DeepSeek, предоставленный пользователем фэйри тэйл.

Характеристика респондентов. В опросе приняли участие четыре пользователя сайта «Фантлаб», чьи развернутые комментарии были отобраны для анализа. Двое из них являются профессиональными переводчиками, что подтверждается наличием персональных страниц в соответствующем разделе сайта:

SkifAlef — переводчик Вадим Викторович Кумок (https://fantlab.ru/translator844). Его комментарий отличается детальным сопоставительным анализом конкретных фрагментов (передача синонимов, лексических единиц, грамматических конструкций) с привлечением оригинала.

Jinnai — переводчик Юрий Павлов (https://fantlab.ru/translator12986). В своем анализе он также опирается на оригинал, выделяя наиболее сложные места и оценивая адекватность их передачи.

Anahitta и bobchik.ghost выступают в роли квалифицированных читателей, не имеющих, судя по доступной информации, профессионального переводческого статуса. Их оценки основаны преимущественно на восприятии текста как самостоятельного произведения на русском языке.

Такое распределение респондентов позволяет провести сравнительный анализ профессионального и любительского взгляда на проблему качества перевода.

Процедура и критерии оценки. Задача респондентов заключалась в том, чтобы оценить представленные тексты, ответив на ряд вопросов:

Методология: Оценивали ли вы переводы как самостоятельные произведения или сличали с оригиналом?

Общее впечатление: Субъективное выделение лучших и худших вариантов с обоснованием.

Читательский выбор: Какой перевод вы бы предпочли для чтения всего произведения целиком?

Профессиональная пригодность: Готовность текста к публикации («как есть», после минимальной правки, после глубокой переработки).

Итоговая оценка: Оценка по шкале от 1 до 10.

Результаты и обсуждение

1. Методология оценки респондентов

Анализ комментариев показывает прямую корреляцию между профессиональным статусом респондента и выбранным методом оценки.

Профессиональные переводчики (SkifAlef, Jinnai) в своих оценках опирались на сличение с оригиналом. SkifAlef провел детальный анализ конкретных фрагментов, сравнивая варианты перевода между собой и с оригиналом, выявляя лексические и смысловые расхождения. Jinnai также ознакомился с оригиналом, выбрал наиболее сложные места и сравнил их с переводами.

Непрофессиональные участники (Anahitta, bobchik.ghost) использовали иной подход. Anahitta просмотрела только первые страницы каждого варианта, не обращаясь к оригиналу. bobchik.ghost в основном оценивал переводы как самостоятельные произведения, лишь выборочно сверяя первый вариант с оригиналом в части топонимов. Это демонстрирует, что для рядового читателя оригинальный текст зачастую недоступен или не используется как инструмент верификации; оценка строится исключительно на субъективном восприятии языка перевода.

2. Общее впечатление и типичные ошибки ИИ

Несмотря на разницу в подходах, все респонденты сошлись во мнении относительно явных аутсайдеров и лидера, однако нюансы оценок различаются.

Безусловным фаворитом стал Вариант 2 (перевод О. Корчевской). Профессиональные переводчики дают ему высокие оценки с оговорками. Jinnai отмечает: «Перевод 2: более литературен и точен, чем первый, но попадаются весьма неудачные кальки («гибель... травматична») и неуместные формулировки для фэнтезийного сеттинга («суперсила»)». Это взгляд профессионала, который видит не только общее качество, но и отдельные недочеты, даже в сильной работе коллеги. Непрофессиональные читатели оценивают вариант 2 более эмоционально и целостно. bobchik.ghost пишет: «Выделил второй вариант... Меньше всего на мой взгляд корявостей и логических нестыковок».

Вариант 1 (метод Д.Е.Н.Н.И.С.) и Вариант 3 (Gemini 3 Flash raw) продемонстрировали интересный феномен конвергенции качества. Профессионалы (SkifAlef, Jinnai) неоднократно указывают на их сильное сходство, предполагая, что первый вариант является результатом доработки третьего. При этом оба варианта получили близкие средние оценки (6.0 и 6.2), что свидетельствует о способности современных нейросетей при грамотной настройке (как в методе Д.Е.Н.Н.И.С.) выдавать результат, приближающийся к коммерческому переводу. Характерно, что Вариант 1 был отмечен как «наиболее адекватный» в сложном фрагменте с описанием факелов (SkifAlef), хотя в других местах его критиковали за канцелярит.

Вариант 4 (DeepSeek от SupeR_StaR) вызвал наибольшие расхождения, которые четко коррелируют с профессиональным статусом респондента. Anahitta (читатель) выделила его как лучший: «Больше всех понравился № 4» (оценка 7). Ей понравилось конкретное предложение, которое показалось наиболее удачным. Однако Jinnai (профессионал) подверг вариант 4 жесткой критике, указав на грубые стилистические ошибки: «близнечная», «кипятковый» и резюмировав: «относительно толковая нейросетка, но в авторский стиль она не попала да и с языком тоже дружит так себе» (оценка 3). SkifAlef (профессионал) также относит четвертый вариант к разряду «неприличных». Эта полярность демонстрирует, что рядовой читатель может не заметить стилистической фальши, если общий смысл фрагмента передан более-менее внятно, в то время как профессионал видит системные ошибки на уровне стиля и идиоматики.

Вариант 5 (DeepSeek от фэйри тэйл) получил единодушно негативные отзывы от всех категорий респондентов, с оценками от 0 до 4 баллов. Это подтверждает гипотезу о том, что качество нейросетевого перевода критически зависит не столько от самой модели, сколько от методологии ее использования и глубины проработки промптов. Без многоэтапной редактуры (как в методе Д.Е.Н.Н.И.С.) нейросеть склонна к генерации «подстрочника» и лексических аномалий («кипятковый»).

3. Анализ конкретных переводческих решений

Детальный разбор, проведенный пользователем SkifAlef, выявил ряд закономерностей, характерных для нейросетевого перевода:

Вариативность синонимического ряда. Фраза "For a wolf or a sorcerer, it is galling" породила пять различных вариантов: «мучительно» (В1, В3), «она оскорбительна» (В2), «невыносимо» (В4), «горько» (В4), «досадно» (В5). SkifAlef выделил вариант «горько» как наиболее экспрессивный и удачный, в то время как вариант с местоимением «она» во втором переводе был признан неточной интерпретацией. Это иллюстрирует как проблему выбора единственно верного тона, так и потенциал ИИ в генерации широкого спектра решений.

Проблема терминологического единообразия. Эксперты (Jinnai, Anahitta) обратили внимание на разнобой в переводе имен собственных. Критике за непоследовательность подверглись как Вариант 2 (Азбука), так и Вариант 1 (Gemini + метод). В то же время Вариант 3 (сырой Gemini) продемонстрировал более системный подход к локализации топонимов, что было отмечено Jinnai как преимущество. Это показывает, что даже «сырая» нейросеть способна выработать единую стратегию, если она заложена в ее алгоритме, в то время как человек и постредактор могут проявить непоследовательность.

Буквализм и нарушение сочетаемости. Перевод slender frame как «тонкое тело» (вариант 5) признан «откровенно плохо», а boiling to the touch как «кипятковый» и «кипяточно горячий» (варианты 4 и 5) охарактеризованы как грубые ошибки, свидетельствующие о непонимании идиоматики русского языка.

4. Читательский выбор и профессиональная пригодность

Ответ на вопрос «В каком переводе вы бы предпочли прочесть всё произведение целиком?» оказался однозначным среди непрофессиональных читателей. bobchik.ghost прямо указывает на второй вариант. Профессионалы (Jinnai, SkifAlef), судя по их общей высокой оценке варианта 2 и критике остальных, также, вероятно, предпочли бы его, хотя и с оговорками о необходимости правки.

Что касается профессиональной пригодности, то здесь мнения практически совпадают. Только Вариант 2 был признан готовым к печати или требующим минимальной правки. bobchik.ghost (читатель) пишет: «Второй вариант, в принципе готов к печати». Jinnai (профессионал) оценивает его на 8 баллов («хороший профессиональный уровень, пригодный к печати после минимальной правки»). Варианты 1 и 3, по мнению респондентов (как профессионалов, так и читателей), требуют серьезной доработки. Варианты 4 и 5 оцениваются как требующие глубокой переработки либо вообще не рассматриваются как пригодные к публикации.

5. Количественный анализ оценок

Сведем итоговые оценки респондентов в таблицу, выделив профессиональный статус:

| Респондент (статус) | Вариант 1 (Gemini + метод) | Вариант 2 (Человек) | Вариант 3 (Gemini) | Вариант 4 (DeepSeek 1) | Вариант 5 (DeepSeek 2) |

| SkifAlef (профессионал) | — | — | — | — | — |

| Jinnai (профессионал) | 6 | 8 | 7.5 | 3 | 0 |

| Anahitta (читатель) | 5 | 6 | 5 | 7 | 2 |

| bobchik.ghost (читатель) | 7 | 8 | 6 | 6 | 4 |

| Средний балл (профессионалы) | 6.0 | 8.0 |7.5 | 3.0 | 0.0 |

| Средний балл (читатели) | 6.0 | 7.0 | 5.5 | 6.5 | 3.0 |

| Общий средний балл | 6.0 | 7.3 | 6.2 | 5.3 | 2.0 |

Примечание: SkifAlef не дал числовых оценок, поэтому расчеты по профессионалам произведены на основе данных Jinnai.

Данные таблицы наглядно демонстрируют лидерство человеческого перевода (Вариант 2) со средним баллом 7.3, что соответствует оценке «хороший профессиональный уровень». При этом профессионалы оценили его выше (8.0), чем читатели (7.0), что может говорить о более глубоком понимании сложности задачи и, соответственно, более высокой оценке качества ее выполнения.

Наибольший разрыв в оценках зафиксирован для Варианта 4 (DeepSeek 1). Профессионал Jinnai ставит ему 3 балла, в то время как читатели дают в среднем 6.5 баллов. Этот случай наиболее ярко демонстрирует расхождение профессионального и любительского восприятия: то, что для профессионала является стилистической катастрофой, для читателя может выглядеть как приемлемый или даже хороший перевод.

Оценки профессионалов и читателей для остальных вариантов (1, 3, 5) в целом коррелируют, хотя читатели склонны оценивать варианты 3 и 5 несколько ниже, чем профессионал.

Заключение

Проведенное исследование, основанное на анализе читательских рецензий на сайте «Фантлаб», позволяет сделать следующие выводы с учетом дифференциации респондентов по профессиональному признаку:

1. Преимущество человеческого перевода. Профессиональный перевод, выполненный человеком (О. Корчевская), получил наиболее высокие и стабильные оценки от всех категорий респондентов. Профессионалы отмечают его литературность и точность, но при этом способны идентифицировать отдельные недочеты. Читатели воспринимают его целостно, как наиболее логичный и лишенный «корявостей».

2. Расхождение профессиональных и читательских оценок. Наибольший интерес представляет случай варианта 4 (DeepSeek), который получил диаметрально противоположные оценки. Это свидетельствует о том, что непрофессиональный читатель может не идентифицировать тонкие стилистические ошибки и нарушения лексической сочетаемости, ориентируясь на общую понятность текста и отдельные удачные фразы. Профессиональный же взгляд выявляет системные проблемы на уровне стиля и идиоматики, что приводит к резкому снижению оценки.

3. Нестабильность качества нейросетевого перевода. Переводы, выполненные исключительно нейросетями (Gemini 3 Flash и DeepSeek), продемонстрировали значительный разброс в качестве. Наиболее характерными ошибками являются: непонимание контекста, буквализм, нарушение лексической сочетаемости, стилистическая глухота. Эти ошибки в разной степени распознаются разными категориями респондентов.

4. Эффективность гибридного подхода (постредактирования). Применение метода Д.Е.Н.Н.И.С. позволило несколько улучшить результат, но не смогло вывести его на уровень профессионального человеческого перевода. Это говорит о том, что даже многоступенчатая обработка не заменяет полноценной работы профессионального редактора-человека.

5. Критерии оценки. Профессиональные переводчики при оценке опираются на сличение с оригиналом, анализ переводческих стратегий и стилистическую адекватность. Рядовые читатели оценивают текст как самостоятельное произведение, обращая внимание на его плавность, логичность и отсутствие явных ошибок, но могут не замечать более глубоких стилистических проблем.

Таким образом, гипотеза о возможности полной автоматизации художественного перевода на современном этапе развития нейросетей не находит подтверждения. Более того, исследование показывает, что оценка качества перевода существенно зависит от уровня компетенции рецензента, и то, что может быть принято читателем, зачастую не выдерживает критики профессионала. Решающую роль в создании качественного художественного текста по-прежнему играет человек-переводчик и редактор.

Ограничения исследования

При интерпретации полученных результатов необходимо учитывать существенное ограничение, которое не позволяет экстраполировать выводы на генеральную совокупность и требуют осторожности в формулировках.

Размер выборки. Главным ограничением данного исследования является крайне малый объем выборки респондентов. В анализе использованы развернутые комментарии всего четырех пользователей сайта «Фантлаб» (SkifAlef, Jinnai, Anahitta, bobchik.ghost). Такой объем данных недостаточен для проведения статистически значимого анализа и формулирования репрезентативных выводов. Полученные результаты следует рассматривать как серию экспертных оценок (case study), а не как репрезентативное социологическое исследование.

В силу чего данное исследование носит пилотный (разведывательный) характер. Его основная ценность заключается не в формулировании окончательных выводов, а в постановке исследовательских вопросов, выявлении тенденций и демонстрации методологии анализа читательской рецепции нейросетевых переводов. Для получения статистически значимых результатов необходим опрос на репрезентативной выборке с использованием стандартизированного инструментария.





41
просмотры





  Комментарии


Ссылка на сообщениепозавчера в 19:37
Ух ты! Прямо целая научная статья! Интересно было прочитать итоги опроса, и кто какой вариант переводил.
Знал бы, что будет такой развёрнутый ответ, я бы глядишь и подробнее может быть что-нибудь прокомментировал))


⇑ Наверх