Рис. 2. Фантазия художника на тему неолитических земледельцев. Быт праиндоевропейцев мог выглядеть так.
Работа над проектом шла следующим образом. Первым делом мы собрали 110-словные сводешевские списки для основных древних и многих современных языков и.‑е. семьи. Делалось это по строгой методологии и семантическим спецификациям, описанным в нашей более ранней статье (Kassian et al. 2010). Несмотря на кажущуюся легкость, это совсем не простая задача: на составление одного списка у квалифицированного лингвиста может уйти две-три недели.
Далее мы применили прием поэтапной реконструкции. Как известно, в и.‑е. семье абсолютно консенсусно выделяется ряд неглубоких групп, таких как славянская, германская, албанская и т.п. Если у группы хорошо зафиксирован древний язык, который (пусть и с натяжкой) может рассматриваться как праязык данной группы, то мы брали сводешевский список для этого древнего языка: например, для всей индийской группы это ведийский санскрит. А если такого языка не обнаруживается, то мы на основании синхронных списков реконструировали сводешевский список для праязыка данной группы. Так мы реконструировали 110‑словные списки для праславянского, прабалтийского, прагерманского, праиранского, прабриттского.
Использования именно небольшого числа прасписков вместо большого числа синхронных списков имеет два сильных преимущества.
С математической точки зрения, чем больше таксонов (языков) мы исследуем, тем больше требуется признаков (сводешевских слов) для построения правдоподобного дерева. Скажем, для 30 таксонов может быть достаточным 100‑словник, а для 30-100 таксонов уже лучше использовать 200-словник. При этом, чем дальше мы отдаляемся от сводешевского 100‑словника, тем менее стабильные и менее семантически ясные концепты нам будут попадаться, т.е. для какого-либо языка составить 200‑словник — это задача не в два, а в несколько раз более сложная, чем сбор 100‑словника. В конечном итоге всё упирается в квалифицированные человеко-часы, которых, разумеется, не хватает.
Чем дальше наши списки отстоят от корня дерева (от праязыка), тем больше в них накапливается гомопластичных (параллельных) эволюционных событий. А чем больше у нас входных списков, тем больше в них будет ошибок в силу человеческого фактора. Всё это добавляет шум в датасет и усложняет модель.
Конечно, у нашего метода ступенчатой реконструкции есть своя оборотная сторона: реконструируя прасписки, мы можем банально ошибиться и взять в прасписок совсем не то слово, которое в данном языке выражало данный сводешевский концепт. Мы, однако, оцениваем вероятность ошибиться в конкретных концептах как не слишком высокую и не считаем, что этот риск перевешивает две проблемы синхронных списков, описанные выше. Дело в том, что, во-первых, мы реконструируем списки для довольно неглубоких групп, их хронологический возраст обычно составляет 2000-2500 лет (скажем, славянской группе ок. 2000 лет, германская группа глубже, но не принципиально глубже). Во-вторых, что важнее, мы используем строгую методологию семантической (ономасиологической) реконструкции, недавно разработанную нашей группой (Kassian, Starostin & Zhivlov 2015). В этой методологии сформулированы пять критериев, позволяющих выбрать для того или иного сводешевского концепта наиболее вероятную праоснову. Эти критерии таковы:
Топология дерева. Мы стремимся сократить число эволюционных событий на дереве.
Внешняя этимология, подсказывающая нам исходную семантику при сравнении нескольких лексических кандидатов.
Морфологическая производность. Морфологически прозрачное производное имеет больше шансов оказаться инновацией, чем непроизводная основа.
типология семантических сдвигов. Переход между некоторыми значениями обычен в обоих направлениях (напр., ‘трава’

‘зеленый’), а в некоторых парах переход возможен только в одну сторону (напр., ‘светить’ → ‘луна’).
исключение ареального эффекта. Если лексическая изоглосса захватывает соседние языки, она может быть результатом контактов.
В итоге в нашем датасете оказалось 13 списков, представляющих все известные группы и.‑е. семьи (астериском помечены реконструированные прасписки):
ТАКСОН ДАТИРОВКА
хеттский 1650–1500 до н.э.
тохарский B 400–900 н.э.
древнегреческий 375 до н.э.
классический армянский 400–500 н.э.
албанский (современный) 1950 н.э.
латынь 200 до н.э.
древнеирландский 700–900 н.э.
*прабриттский 300–600 н.э.
*прагерманский 500–300 до н.э.
*праславянский 1–300 н.э.
*прабалтийский 400–1 до н.э.
ведийский санскрит 1200–1000 до н.э.
*праиранский 1500–1000 до н.э.
*прасамодийский (представитель уральской семьи, добавлен для укоренения дерева) 950–750 до н.э.
Разметив формы с этимологически родственными корнями между списками, мы получили традиционную лексикостатистическую матрицу с корневыми когнациями (т.е. когда основы из разных языков, имеющие этимологически общий корень, помечаются как родственные друг другу). Например, в этой матрице герм. *wenda- =слав. *větrъ, а скр. agni = лат. ignis. Назовем эту матрицу Этап-1.
На основе этой матрицы мы строим деревья, причем не одним методом (как обычно делают), а тремя разными методами: метод ближайших соседей (специально модифицированный для лингвистических исследований), байесовский метод и метод максимальной парсимонии. Особенности этих методов — отдельная объемная тема, в которую сейчас нет нужды углубляться. Нам важно, что каждый из этих методов имеет свои сильные и слабые стороны, поэтому мы используем все три, а потом три полученных дерева объединяем в одно консенсусное дерево, которое и рассматриваем как результат Этапа-1.
Однако нас не очень интересует топология, полученная из корневых когнаций, потому что мы понимаем, что наши входные лексические данные можно улучшить и таким образом усилить филогенетический сигнал.
Комментарии 119
Сектор анатолийских и кельтских языков
доктор филологических наук (2016)
E-mail: kassian@iling-ran.ru
Участник международного проекта «Глобальная лексикостатистическая база данных / The Global Lexicostatistical Database»
Член редакционной коллегии журнала «Вопросы языкового родства» (РГГУ / Институт языкознания РАН).
Область интересов - клинописные языки Древней Передней Азии (хеттский, хурритский, хаттский языки), дальнее языковое родство, ареальные связи языков Старого и Нового Света, теория и методология сравнительно-исторического языкознания.