Ктулху родом из


Вы здесь: Авторские колонки FantLab > Авторская колонка «ZaverLast» > Ктулху родом из Уэльса
Поиск статьи:
   расширенный поиск »

Ктулху родом из Уэльса

Статья написана 23 февраля 15:27

.

«КТУЛХУ РОДОМ ИЗ УЭЛЬСА: 𝑁-грамм анализ частот Р'льехианского языка» (2020). 

«Cthulhu Hails from Wales: N-gram Frequency Analysis of R'lyehian».

.

Статья из издания «Материалы о последних достижениях в обработке Славянского естественного языка» (редактор А. Рамбоусек, Tribun EU, 2020), рассказывающая о работе XIV чешского семинара «RASLAN 2020», посвящённого обмену информацией между исследовательскими коллективами, работающими над проектами компьютерной обработки славянских языков и смежными областями, ориентированными на теоретические и технические аспекты исследований, включая новые идеи. 

.

Авторы: Вит Новотны́ (Vít Novotný) и Мария Стара́ (Marie Stará).

Факультет Информатики, Университет Масарика (MU), г. Брно, Чешская Республика. 

.

В качестве эпиграфа:

 «В криптоанализе, частотный анализ (также известный как подсчёт буквенных символов) — это изучение частоты букв или групп букв в зашифрованном тексте. Этот метод используется в качестве вспомогательного средства для взлома классических шифров. Частотный анализ основан на том факте, что в любом фрагменте письменного языка определённые буквы и их сочетания встречаются с разной частотой. Более того, существует характерное распределение букв, которое примерно одинаково почти для всех образцов того или иного языка».

 

                                                                                                   

                                                                                                    *

.

.

.

Аннотация:

«Р'льехианский» (R’lyehian) — уникальный вымышленный язык, созданный плодотворым автором фантастических ужасов XX века Г.Ф. Лавкрафтом, и в последствии расширенный другими писателями. В произведениях Лавкрафта и его учеников, известных под общим названием «Мифы Ктулху», содержатся фрагменты некоего инопланетного языка. Сам ГФЛ никогда не давал названия этому языку, но консенсус многочисленных фанатов остановился на «Р’льехианском». В предыдущих работах, посвящённых Лавкрафтовскому Мифосу, ещё не изучалось сходство между Р'льехианским и естественными языками, имеющими решающее значение для определения его истинного происхождения. Мы составили полный список слов Р'льехинского языка и использовали инструменты языковой идентификации на основе открытых статистических моделей 𝑁-грамм (N-gram) для поиска наиболее схожих с Р'льехианским естественных языков. На основе подробного списка слов мы также выстроили таблицу частот всех униграфов (письменных символов — графем, соответствующих звуковым фонемам языка) и диграфов (символов, используемых для написания знаков из двух букв, издающих один звук — фонему, либо последовательность фонем) в Р'льехианском языке. Наша работа показала, что Р'льехианский более всего похож на Кельтские языки, что даёт основание для гипотезы о том, что город Р'льех, где «мёртвый Ктулху спит и видит сны», может быть местом на территории британского Уэльса — самобытной исторической области (в прошлом конгломерат древних кельтских княжеств), включающей полуостров Уэльс и более 50-ти близлежащих островов, расположенных на юго-западе Великобритании. Наши частотные таблицы также будут полезным источником для последующих исследований в области мифологии Лавкрафта.

                                                                           * * *

Раздел-1: Введение. 

Говард Филлипс Лавкрафт считается одним из самых влиятельных авторов жанра ужасов XX века. Р'льехианский язык — это вымышленная речь, на которой говорят космические божества (Великие Древние) в Лавкрафтовской истории «Зов Ктулху» (1926), и в его более поздних работах. Имена этих древних могущественных богов, до некоторой степени, позволяют нам больше узнать об их иномирной космологии. Ниже приведён пример предложения на Р'льехианском языке:

Рh'nglui mglw'nafh Cthulhu R'lyeh wgah'nagl fhtagn. 

В своём доме в Р'льехе мёртвый Ктулху спит и грезит. 

В ранее выходивших работах, посвящённых Лавкрафтианским мифам, сходство Р'льехианского языка с естественными языками не учитывалось, и было сосредоточено главным образом на использовании Лавкрафтом английского языка. Поскольку Р'льехианский язык был латинизирован, он пригоден для 𝑁-грамм анализа частоты символов, и следовательно, поддаётся идентификации. В предыдущих исследованиях также не было определено точное местоположение затонувшего города Р'льех. По утверждению Говарда Лавкрафта, Р'льех расположен на координатах 47°9'ю.ш. и 126°43'з.д. в южной части Тихого океана, в то время как писатель Август Дерлет (см. «Чёрный Остров», Weird Tales, 1952), корреспондент Лавкрафта, помещает Р'льех на 49°51'ю.ш. и 128°34'з.д.. Оба этих места находятся недалеко от Тихоокеанского «полюса недоступности» или так называемой точки «Немо» (48°52,6'ю.ш. и 123°23,6'з.д.) — точки в океане, максимально удалённой от любой суши. Определив естественные языки, наиболее схожие с Р'льехианским, мы надеемся обнаружить истинное местонахождение пристанища Древнего Ктулху.

Наша работа структурирована следующим образом: В Разделе-2 мы кратко обсуждаем Р'льехианский язык и его фонологию. В Разделе-3 мы описываем перечень романизированных слов, генетически восходящих к Латыни, а так же инструменты идентификации языков на основе открытых моделей 𝑁-грамм, которые мы использовали для выявления естественных языков, наиболее похожих на письменный Р'льехианский. В Разделе-4 мы приводим результаты идентификации языка и обсуждаем их значение для определения местоположения затонувшего города Р'льех. В Разделе-5 мы делаем заключительный вывод и предлагаем направление для дальнейшей работы.

.

Раздел-2: Р'льехианский язык.

Р'льехианский (R’lyehian), также известный как Ктувианский (Cthuvian) — это язык, созданный Говардом Лавкрафтом для своего рассказа 1926-го года «Зов Ктулху». В отличии от некоторых других вымышленных языков, таких, например, как Эльфийский язык («Синдарин»), разработанный писателем Дж.Р. Толкиным (прим.,в легендариуме Толкина представляет собой один из эльфийских языков — «речь Синдар», частично основанную на Валлийском языке и обладающую особенностью — мутацией согласных, подобно Кельтским языкам. Толкин обсуждает этот искусственный язык в своём эссе 1931-го года «Тайный Порок»), или Клингонский язык, созданный американским лингвистом Марком Окрандом для вселенной научно-фантастического сериала «Звёздный Путь» (Star Trek), Р'льехианский Лавкрафта представлен лишь фрагментами и не имеет полного словаря или грамматики. (прим.,до своего ухода в кинематограф доктор лингвистики Марк Окранд углублённо занимался изучением языков индейцев Северной Америки в рамках известной филологической школы Мэри Хаас, включающей полный цикл исследований по каждому индейскому языку: грамматика, текст и словарь. Среди поклонников Марк Окранд прославился как автор «Клингонского словаря» и «Вулканского языка» для культового сериала «Звёздный Путь», а так же «Атлантийского языка» для полнометражного научно-фантастического мультфильма 2001-го года «Атлантида: Затерянный мир»). Теперь мы перечислим несколько фактов известных о Р'льехианском языке:

- Как предполагается, он непроизносим для людей.

- Поскольку в нём используется множество различных префиксов и суффиксов, его можно классифицировать как синтетический язык. (прим.,синтети́ческие языки — это типологический класс языков, в предложениях которых преобладают синтетические формы выражения синтаксических отношений. Синтетические формы встречаются во многих языках мира. Поскольку язык, в принципе не бывает типологически однородным, термин «синтетические языки» применяется на практике к языкам с высокой степенью синтеза, например к русскому, латинскому, армянскому, немецкому, к тюркским и финно-угорским языкам, а также к большинству языков хамито-семитской группы (афроазиатским). К сожалению, у нас недостаточно данных чтобы более точно классифицировать Р'льехианский как агглютинативный или фузиональный (инфлективный) язык. (подробнее см. статью «Синтетический язык» в Википедии).

- В нём нет различий между прошлым и будущим, есть только настоящее (текущее) и ненастоящее (непередаваемое), поскольку Древние существуют во всех временах одновременно. (Есть отдельные слова для описания нижнего мира, мира снов и мира разума. Древние способны действовать в любом из этих миров по своему желанию).[/i]

- Он не различает частей речи и имеет свободный порядок слов.

- Он записан в Иерогли́фике. Романизированное (латинизированное) написание показывает, как эту речь передают носители английского языка. «[Слово "Ктулху"] представляет собой неуклюжую попытку человека уловить фонетику абсолютно нечеловеческого слова...» (Г.Ф. Лавкрафт: Избранные письма 1934-1937, том 5, Arkham House, 1976).

Некоторые полезные сведения о Р'льехианском можно найти в работе Кристофера Л. Робинсона «Тератонимия: странные и чудовищные имена Г.Ф. Лавкрафта» (Журнал по Ономастике, Maney Publishing, 2010), в которой описываются имена-тератонимы («terato»/монстр + «nym»/имя), использованные писателем:

«Тератонимы Говарда Лавкрафта — чудовищные изобретения, искажающие звуковые формы английского языка и затемняющие те смысловые значения, которые традиционно ассоциируются с литературной ономастикой (прим.,ономастика — раздел языкознания, изучающий любые собственные имена, историю их возникновения и трансформации). Понятие Дж.Р. Толкина о лингвистическом стиле предоставляет полезную концепцию для изучения того, как эти имена играют на расстоянии и близости с английским языком, вызывая определённые исторические и культурные коннотации. Некоторые названия имитируют звуки и формы иностранных терминологий, имеющие «странные» смысловые оттенки в следствии того, что в народном воображении они связаны с Каббализмом или декадентской античностью. Другие вводят звуковые шаблоны, лежащие за пределами фонетики английского языка или противоречащие его фонотактике, что приводит к появлению неудобных для произношения анти-эстетических словесных конструкций. С точки зрения понимания эти тератонимы, в некотором смысле, напрашиваются на сравнение с действующими на подсознательном уровне «эзотерическими» терминами, о чём рассуждает в своих исследованиях французский профессор английского языка Жан-Жак Лесеркль (Университет Париж X-Нантер), поскольку они приуменьшают или затушёвывают смысловое содержание, в тоже самое время усиливая эмоциональное (аффективное) значение и повышая осведомлённость читателя о физическом порождении речи».

Кристофер Л. Робинсон подробно рассматривает особенности, использованные Лавкрафтом для того, чтобы данный язык казался малоприятным, отталкивающим и грубым, а также рассказывает о влиянии других языков (арабского, иврита и фрагментов африканских языков) на эти тератонимы. Некоторые из изложенных выводов могут быть в целом применены к Р'льехианскому языку. По мнению Робинсона, намеренная необычность Р'льехианского языка создавалась на трёх уровнях:

1. Отдельные звуки.

2. Звукосочетания.

3. Словоформы.

На первом уровне необычность выстраивалась путём группирования согласных звуков нетипичных для английского языка, таких как аспирированные (придыхательные) согласные или различные назальные (гнусаво-носовые) сочетания, например: «БН» (bn), «МН» (mn), «МТ» (mt), «МТХ» (mth), или «ПН» (pn).

На втором уровне непроизносимость создавалась так же, как и на первом, путём создания групп звукосочетаний, неестественных для английского языка, или путём использования буквенных связок, встречающихся в английском языке, но помещённых «в формы или позиции, противоречащие его фонотактике». (прим.,«фонотактика» определяет допустимую структуру слога, группы согласных и последовательности гласных с помощью фонотактических ограничений на допустимые сочетания фонем — звуков). К примеру: начинать слог со связки, которая, как правило, появляется в конце английских слов, например: «ПТХ» (pth) в слове «DEPTH».

Что касается третьего уровня, словоформы, то, просто взглянув на слова Р'льехианского языка, уже можно сказать, что он выглядит и звучит неестественно и странно. Для достижения этой цели Лавкрафт использовал в словоформах низкие «А» (a) и заключительные «У, О» (u, o) гласные и согласные буквы, которые при произношении воспринимаются как резкие и диссонирующие.

Произношение.

Не существует чётких правил произношения Р'льехианского языка. Насколько нам известно сам Лавкрафт описал только произношение имени «Ктулху»:

«Реальное звучание — насколько человеческие органы смогут его имитировать или человеческие буквы могут его записать — можно воспринимать как нечто вроде «ХЛУЛ'ХЛУ» (Khlûl'hloo), причём первый слог произносится утробно и очень густо. «У» (u) — звучит примерно также в полном объёме; и первый слог по звучанию мало чем отличается от «КЛУЛ» (Klul), так как «Х» (H) обозначивает гортанную плотность звука. Второй слог передан не очень хорошо — звучание буквы «Л» (L) не представлено». (Г.Ф. Лавкрафт: Избранные письма 1934-1937, том 5, Arkham House, 1976).

Грамматика.

В отличии от земных языков, Р'льехианский не делает различий между существительными, глаголами, прилагательными и другими частями речи. Местоимения могут появляться, а могут и не появляться. Глаголы имеют только две формы времени: настоящее и ненастоящее, поскольку Древние воспринимают время нелинейно. По этой причине, вырванный из контекста возможный перевод любого фрагмента, является не более чем догадкой.

Раздел-3: Методы.

Для выявления наиболее похожих естественных языков нам потребовался свод или список слов Р'льехианского языка, а также инструмент для языковой идентификации, созданный на основе статистической последовательности элементов 𝑁-грамм с предварительно обученными моделями для естественных языков. В этом разделе мы представляем полный перечень Р'льехианских слов и таблицу частот всех униграфов и диграфов в Р'льехианском языке, а также инструменты языковой идентификации, которые мы использовали в нашем эксперименте.

Р'льехианский перечень слов.

Из-за достаточно нечастого употребления Р'льехианского языка в произведениях Лавкрафта мы решили не создавать собственный словарь Р'льехианских слов. Вместо этого мы объединили информацию с двух известных онлайн-ресурсов (https://lovecraft.fandom.com/wiki/R%27lye... | https://naguide.com/call-of-cthulhu-rlyeh...) в подробный список слов, который приводим ниже в алфавитном порядке:

01. ah                        25. grah’n                     49. n’gha                     73. tharanak

02. athg                     26. h’ehye                     50. n’ghft                     74. thflthkh’ngha

03. bug                       27. hafh’drn                  51. naf’lthagn               75. throd

04. bugg-shoggog       28. hai                           52. nglui                     76. uaaah

05. cf’ayak                   29. hastur                     53. nilgh’ri                   77. uh’e

06. cf’tagn                   30. hlirgh                       54. nog                       78. uln

07. chtenff                   31. hrii                          55. nw                        79. ulnagr

08. cthugha                 32. hupadgh                   56. ooboshu                 80. vugtlag’n

09. cthulhu                  33.                            57. orr’e                       81. vugtlagln

10. ebumna                 34. ilyaa                        58. ph’nglui                    82. vulgtlagln

11. ee                         35. k’yarnak                    59. ph’nglui                  83. vulgtm

12. ehye                     36. kadishtu                    60. phlegeth                  84. vulgtmm

13. ep                         37. kn’a                          61. r’luh                        85. wgah’n

14. farnomi                  38. li’hee                        62. r’lyeh                     86. wgah’nagl

15. fhtagn                    39. llll                            63. ron                         87. y’bthnk

16. fhthagn-ngah         40. lloig                           64. s’uhn                     88. y’hah

17. fm’latgh                  41. lw’nafh                     65. sgn’wahl                 89. ya

18. fomalhaut               42. mg                           66. shagg                     90. ygnailh

19. ftaghu                    43. mglw’nafh                 67. shogg                     91. yog-sothoth

20. geb                        44. mnahn’                     68. shtunggli                 92. yuggoth

21. gnaiih                     45. n’gai                         69. shugg                     93. zhro

22. gof’nn                     46. n’gha’ghaa               70. sll’ha

23. goka                       47. n’gha-ghaa               71. stell’bsna

24. gotha                     48. n’grkdl’lh                  72. syha’h

.

Из списка Р'льехианских слов мы извлекли аффиксы (это морфемы, присоединяющиеся к корню и служащие для образования слов):

01. -agl          05. -og         09. c-          13. ng-

02. -agn         06. -or         10. h’-          14. nnn-

03. -agr          07. -oth       11. na-         15. ph’-

04. -nyth        08. -yar        12. nafl-       16. y-

.

Ниже, на основе выше-опубликованного «словаря» мы выстроили таблицу частот всех униграфов и диграфов в Р'льехианском языке (Таблица-1). Наша таблица показывает, что Р'льехианский язык состоит из 7-ии гласных и 28-ми согласных букв, включая 11 диграфов (звуковых фонем), в основном образованных согласной «+h», которая меняет произношение первой согласной буквы.

Идентификация языка.

Далее мы описываем инструменты с открытым исходным кодом, которые мы использовали для идентификации языка в нашем эксперименте. Наша выборка базируется на исследовании «Автоматическая идентификация языка в текстах» — научном обзоре, опубликованном в американском международном «Журнале Исследований Искусственного Интеллекта» — JAIR №65 (авторы работы: Т.С. Яухиайнен, М. Луи, Т. Болдуин, М. Зампьери, К. Линден; Университеты Рочестера, Мельбурна и Хельсинки; изд-во «AAAI Press», 2019). Затем мы представим главную тройку языков, идентифицированных данными инструментами.                                    

.

Таблица-1:.                                                                 Таблица-2:

Частоты всех униграфов и диграфов                              Три наиболее близких к Р'льехианскому

в Р'льехианском языке, извлечённые                              естественных языка определены с помощью

из подробного списка слов.                                            трёх различных инструментов языковой идентификации.

Мы классифицируем униграфы                                       Языки Кельтской группы выделены тёмным цветом.

на согласные и гласные.                                                                                

_________________________________                         ______________________________________________________

Униграфы                         Диграфы                           Инструменты                                  Языки

Согласные   Гласные                                                 ------------------------------------------------------ ----------------------

----------------------------------------------                       

g 9.06%       a 12.33%       th 2.89%                              TextCat                     Шотландский, Мэнский, Валлийский

n 7.90%         7.71%         gh 2.31%                            Cld2                    Ирландский, Хорватский, Сесото (Южно-африканский)

l   7.51%       u 5.59%        ng 1.35%                             LangDetect               Сомалийский, Индонезийский, Валлийский

h 5.39%       o 4.05%         sh 1.35%                             ------------------------------------------------------ ----------------------

r   3.47%       i   3.85%       fh 0.96%

t   3.08%       e 3.47%        lh 0.77%

f   2.31%       ä 0.19%        ph 0.58%

y 2.31%       ch 0.19%

m 1.93%       kh 0.19%

k 1.73%       yh 0.19%

s 1.54%       zh 0.19%

b 1.35%

w 1.16%

d 0.96%

v 0.96%

c 0.77%

p 0.39%

----------------------------------------------

Кратко об инструментах.

«TextCat» — в своей основополагающей работе 1994-года «Категоризация текста на основе 𝑁-грамм» (см. материалы III ежегодного симпозиума «SDAIR-94» по анализу документации и поиску информации) У.Б. Кавнар, Дж.М. Тренкл и другие исследователи, описывают нестандартный метод языковой идентификации на основе 𝑁-грамм, который реализуется с помощью инструмента «TextCat» с открытым исходным кодом. «TextCat» содержит модели для 69-ти естественных языков.

«Cld2» (Compact Language Detector 2) — это идентификатор языка, работающий в веб-браузере «Google Chrome». Для кодовых блоков «Юникода», которые один к одному сопоставляются с обнаруженными языками, идентификатор «Cld2» использует несложные правила. Для остальных, «Cld2» использует классификатор «Naive Bayes» по образу 𝑁-грамм. «Cld2» содержит модели для 160-ти естественных языков.

LangDetect — идентификатор языка, также использующий классификатор «Naive Bayes» на символах 𝑁-грамм. Как и идентификатор «Cld2», «LangDetect» применяет к вводимому тексту ряд эвристических правил нормализации. «LangDetect» поддерживает 55 естественных языков.

______________________________________________________ _________

______________________________________________________ _______

______________________________________________________ _______

______________________________________________________ _______

______________________________________________________ _______

______________________________________________________ _______

______________________________________________________ _______

Раздел-4: Полученные результаты.

Показатели, указанные в Таблице-2, ставят Р'льехианский язык ближе всего к старым Кельтским языкам (Шотландскому, Мэнскому, Ирландскому и Валлийскому), при этом Валлийский является наиболее частым среди трёх самых близких языков. Исходя из полученных данных мы предположили, что городом «Р'льех» может являться уединённый остров Калди, расположенный в полутора километрах от британского полуострова Уэльс на координатах 51°38'с.ш. и 4°41'з.д., где монахи в белых капюшонах, соблюдающие древние Кельтские обряды, делают подношения из самого тёмного шоколада дремлющему Ктулху.

Для справки:

Остров Калди (англ. — Caldey; валлийское название — Ynys Bŷr) имеет очень давнюю и зарегистрированную историю, насчитывающую более 1500 лет, это один из священных островов Британии. Ряд традиций, унаследованных ещё от Кельтских времён, соблюдают монахи из Аббатства Калди, нынешние официальные владельцы острова. Кельтский монастырь был основан на острове в VI веке нашей эры, а с 1136 года здесь действовал монашеский Орден Бенедиктинцев, от которого в последствии ответвился Орден Цистерцианцев (OCist). Вплоть до XIV века цистерцианцы пользовались особой системой числовой записи с помощью символов-глифов (цистерцианских цифр или шифров), интерес к этой системе в разное время проявляли европейские масоны, оккультисты и Гитлеровские нацисты. В настоящее время на острове Калди находится римско-католический монастырь так называемых «белых» монахов-цистерцианцев (по цвету своего одеяния), или «траппистов». Религиозное движение траппистов зародилось на волне церковного реформаторства в середине XVII века в Восточной Франции, и в 1892-ом году было объединено в отдельный Орден Цистерцианцев Строгого Соблюдения (OCSO). Ныне проживающие здесь монахи-цистерцианцы, прибыли на остров в 1929 году из Бельгии. Орден состоит из нескольких независимых друг от друга сообществ. Члены Аббатства Калди приносят монашеский обет не конкретно самому Ордену, а исключительно его местному воплощению, орденá подобного типа свободны развивать свой собственный характер и харизму, но каждый из его членов подчиняется общим правилам жизни по заветам Святого Бенедикта Нурсийского. Трапписты соблюдают устав Святого Бенедикта более строго, чем в остальных орденах. Они обязаны молиться 11 часов в сутки, сохранять обет молчания, прерываемый только для молитвенных песнопений или по уважительной причине, а также блюсти строгий пост (полный запрет на мясо, рыбу и яйца), облегчаемый только для больных. Сегодня островные монахи Аббатства Калди живут за счёт развития туризма, а так же занимаются изготовлением пива, сыра, женских духов и традиционного бельгийского шоколада. Правила Аббатства не разрешают мирским гостям и туристам оставаться на острове в вечернее и ночное время, но круглый год позволяют получить духовное прибежище.

.

Раздел-5: Заключение.

Хотя придуманный Лавкрафтом язык намеренно отличается от естественных языков, наши результаты показывают, что он был вдохновлён, сознательно или подсознательно, кельтским Валлийским языком. В будущей работе следует сравнить фонологию Валлийского и Р'льехианского языков, используя наш подробный перечень слов и частотную таблицу всех униграфов и диграфов, а также расширить Р'льехианский словарь, организовав специальную экспедицию в Уэльс, чтобы побеседовать с Великим Ктулху...

                                                                                                       

                                                                                                                 * * *

.

Author: Vít Novotný & Marie Stará.

Copyright © 2024 Masaryk University.

Перевод: © ZaverLast, 2024.

Ссылка: https://www.muni.cz/en/research/publicati...

____________________________________________________





1297
просмотры





  Комментарии


Ссылка на сообщение23 февраля 16:35
Потрясающе, большое спасибо за перевод!
свернуть ветку
 


Ссылка на сообщение23 февраля 18:07
darken88
Благодарю за положительный отзыв! :beer:


Ссылка на сообщение25 февраля 00:33
Я так и знал : Валлийский, родной Мэйчену, которым Лавкрафт вдохновлялся!


⇑ Наверх