Расчёт степени близости языков

Тема в разделе "Компаративистика", создана пользователем Leo, 8 июл 2004.

  1. Leo

    Leo New Member

    Неоднократно видел на разных сайтах в разной форме подсчёт степени близости языков. То они были в процентах (напр. русский-белорусский 90%, украинский-чешский 70 % и т. д.) /естественно без указания способа расчёта и с туманными ссылками/, то в годах (напр. 200 лет расхождения - диалект, 500 - два разняых языка, 1000 - разные языковые группы и т. п.), иногда по степени понимаемости (узнавание по произношению местности происхождения собеседника /диалект/, понимание языка с небольшими затруднениями (близкородственный язык), соответственно с большими затруднениями (дальнородственный язык) и т. д. и т. п.). Вопрос в том, как это всё расчитывается. Применение известной формулы с логарифмом и 80 % вызывает большие сомнения в её какой-либо точности, особенно из-за коэффициента, если в английском он подобран в 82 %, то это не факт, что в исландском он не будет 92, а в тайском в 52. Применения списка Сводеша тоже даёт мало надежды, так там не учитываются грамматические изменения, а также слова которые почти не изменяя форму слегка изменили значение (напр. рус. человек - укр. чоловiк /мужчина/). Кто чего может подсказать ?
     
  2. Загрузка...


  3. Ян Ковач

    Ян Ковач New Member

    1, Сравнение по списку Сводеша много сомнений не вызывает,
    он одинок для произвольных языков, по-моему, иначе нечего сравнивать.
    Конечно выбор слов дело сложное. Взять ли "перст,пес, свет" или только "палец, собака, мир"? Или считать ладонь и длань (якобы долонь) идентичными? Подобно вышесказанному чоловiк - человек...
    Разным подходом можно получить немножко разные результаты(напр. близость зап. и вост. слав.языков), по-этому я бы тоже рад узнал детальнее, как все это ученые делают.
    2, Применение коеффициента в известной формуле сомнительно (особенно) сейчас. Ибо языки развиваются очень разными скоростьями (вид. английский напротив арабского за последних напр. 300 лет). В разные эпохи в одном языке прибавляли слова для технич. изобретаний, в других пока нет (тогда).
    Но о давне-прошлом лингвисты возможно предполагают,
    что все развивалось примерно одинаковым темпом, так что логики в данной формуле все же есть...(это мое мнение)
    Главная проблема, что коэффициент-то не постоянная,а переменная в данной функции, и придумать лучший модель возможно математически трудно.
    (Это все только мое мнение) :?:
     
  4. Leo

    Leo New Member

    Совершенно верно !

    В том то и дело, что каждый делает, как это нравится. Интересно, существуют ли более-менее общепринятые формы ?

    Вот ! То есть было бы логичнее использовать несколько коэффициентов ?
     
  5. Ян Ковач

    Ян Ковач New Member

    Исследовав чуть больше по инету, мне показалось, что тут смешиваются два принципы...
    Одно дело найти степень близости двух избранных языков,
    и другое подход через историч. развитие, генеалогич. классификацию, метод Сводеша...

    О первом:
    Нет ничего проще, чем взять напр. 5 000 наиболее употребительных слов (мимо заимствований)
    и сравнить. За правильное слово бы взал такое, которое довольно разпространено и "общепонятно",
    то есть, напр. перстъ -уже возможно вне( или чешское бртник - пчелар, кто знает - кто не знает).
    {При этом критерий вскорее понятность(слово еще существует) чем "активное употребление слова".}
    И сравнивая, учесть и синонимы, хотя в списке будет только одно слово(с данным смыслом).
    Также считать эквивалентными слова с разными окончаниями, полугласными (vowels) и "трансформациями"
    (звонко-глухие пари, пари всех патализаций(смягчений) итд.)
    Скажу пример: красивый(рус.)/прекрасный = prekrásny (слвц.) = pie(n)kny (поль.), ибо слвц. pekný подходящий синоним.
    Или пари(рус-слвц): дявол - diabol (б--в), пчела - včela(бчела(укр.), "б --> п" и "б --> в"), шумер - сумер (племя)( с--ш), хотя - hoci ( ть--ц)...
    Мне кажется, что всякие матрици с процентами отводятся как-раз
    от списка Свадеша( 100 слов! или 200 -в другом вариянте!!!Это должно хватит?и вообще - таким методом?), что неточно. :?:
    Исправьте меня, если ошибаюсь.(Взял ли кто-нибудь из лингвистов просто слова и сравнил? :D )

    О втором:
    Каждая группа близкородственных языков требует особенный подход(уточнение метода).
    Принцип метода Сводеша объяснен напр. на http://www.krugosvet.ru/articles/92/1009211/1009211a1.htm ( или http://www.scientific.ru/journal/translations/vlad.html)
    и с разными проблемами вокруг него...Стоит он на трех условиях:
    1, проценто изменяемых слов в течение избранного времени (согласен, что для славян./яз. не объязательно как у американ.индиян :D )
    2, цитата:"Темп сохранения/несохранения слов в течение выбранного времени относительно постоянен" - некогда очень относительно... :wink:
    3, формула с матем. точки зрения в порядке, но...подробнее:
    Возму язык А, коефициент r (для этого языка!) можно найти напр. сравнивая список после каждых 100 лет и сделать среднее значение,
    так как считать r функцией(дискретной, непренывная с "хорошим предписом" врядли нашлась бы) времени r(t) - уже сложно.
    А вот что с "С – доля сохранившихся слов из списка"? :?:
    Как знаем что сохранилось а что нет? Этот пункт я явно недопонимаю...Разве знаем версию списка "в начале"?
    Ведь здесь надо сравнивать с какой-то старой версией, что не всегда удается.
    Думаю, что вскорее это так: по современной точке языка на графе функции и нанесеным точкам в избранных временах (как раз по этой формули - хоть только приблизительно)
    можно построить график и продолжить (прибл.) по координате времени в прошлое достаточно "далеко",
    чтобы, взяв другой близкий язык и сделав то самое, получить пересечение - и это и есть время, в котором эти два языки стали разхождаться.
    (Все на графе: время (слева направо)- развитие (сверху вниз, точнее напр. сдвиг "от земли"))
    Предполагаю, С(н), где н - избранное время, изчисливать как разницу от С(0) (нуль- то есть самый старий вариянт),
    это покажет "высоту функции развития"на графике во время "н".
    Иначе не знаю, что такое "С" и как его найти...
    Предложить что-то лучшее не собираюсь, математики не боюсь - это мое орудие,
    по без хорошего лингвист. понимания трудно найти достаточно "правильную" модель...
    Повторяю, что для современного разстояния близких языков это все избиточно...ведь можно и прямо сравнить! :?:
    Знает кто-нибудь больше и может прояснить? Не уверен насколько правильно эту методу понимаю.
    ( и почему не взять больше слов(для "Сводеша"), ведь уже компютери выдуманы) :)
     
  6. Leo

    Leo New Member

    Интересно, как они тут:
    http://teneta.rinet.ru/rus/de/diachok-shapoval_genealog.htm

    подсчитали процент общей лексики (в последней строке таблицы опечатка - но это не важно). Да и остальные числа сомнение вызывают... И как проценты и годы соотносятся с критерием "понимание-непонимание-отдельное непонимание и т. д."
     
  7. adada

    adada New Member

    Leo, я заглянул недавно (по другому поводу) в книгу:
    Арапов М.В., Квантитативная лингвистика. - М.: Наука, 1988. Кажется, в ней речь идет о какой-то особо эффективной, "авторской" методике компаративистики.

    И воспользуюсь случаем, чтобы спросить, нет ли у кого эл. копии другой подобной работы:
    Арапов М. В., Херц М. М. Математические методы в исторической лингвистике.- М., 1974.
     
  8. Leo

    Leo New Member

    Адада, мерси, буду благодарен
     
  9. Вот ссылка на статью, опубликованную в журнале "Nature":

    Language-tree divergence times support the Anatolian theory of Indo-European origin

    RUSSELL D. GRAY AND QUENTIN D. ATKINSON

    ....
    Languages, like genes, provide vital clues about human history1, 2. The origin of the Indo-European language family is «the most intensively studied, yet still most recalcitrant, problem of historical linguistics«3. Numerous genetic studies of Indo-European origins have also produced inconclusive results4-6. Here we analyse linguistic data using computational methods derived from evolutionary biology.


    Вот картинка, которую получили авторы статьи:
    [​IMG]

    Мне было бы интересно узнать, что думают по этому поводу профессионалы-лингвисты.

    (У меня есть некие свои соображения, но я пока повременю - до того, как познакомлюсь с откликами более компетентных, чем я, людей)
     
  10. Leo

    Leo New Member

    Как-то всё это не очень понятно. Во-первых некоторые сокращения, во-вторых что означаюь маленькие цифры. В третьих некотрые "важные" языки отсутствуют, а другие - гораздо менее распротранённые - присутствуют (напр. нет нижненемецкого языка, а есть немецкий диалект пеннсильванских голландцев). В четвёртых вызывает сомнение, что фризский ближе нидерландскому, чем английский, а также особая близость цыганского и сингальского, ваханского и осетинского. Белудский плохо смотрится без курдского. Непонятно, что такое валахский и почему румынский близок ладинскому. Судя по тому, что сардинский противопоставляется все остальным романским, а букмол называется риксмолом, авторы явно пользовались старыми данными. Объединения армянского и греческого тоже сомнительно. Диковато смотрится и объединение польского с восточнославянскими. Откуда взялись пять албанских и почему шведский оказался ближе западноскандинавским, чем датскому. Действительно ли хинди ближе к панджаби, чем к непали ? О кентум-сатам тут говорить не приходится. Частота чего используется в диаграмме ? (Если совпадений слов, то тогда можно взять комбинацию персидский-арабский-турецкий, и они окажутся родными братьями). Вообще откуда всё это получилось !?
     
  11. Марина

    Марина New Member

    Особенно мне понравилась пара: English ST, Sranan… :D
     
  12. Leo

    Leo New Member

    Автор явно опустил пару: шрифт де Брайля - сурдоязык :)
     
  13. Лео, так Вы саму-то статью просмотрите. некоторые из вопросов и отпадут. например, маленькие цифры "означаюь" байесовские, т.е. апостериорные вероятности. Грубо говоря, что-то вроде "если данная пара веток действительно разделилась тогда, когда мы это получили по нашей методике, то какова вероятность, что процент совпадений лексики будет именно таков, каков он в реальных языках".

    А вот по этому поводу я бы хотел высказаться после того, как профессионалы выскажутся по поводу статьи (подчеркиваю, именно статьи и предлагаемой в статье методики, а не полученных результатов.)

    Добавлено спустя 2 часа 50 минут 23 секунды:

    Еще позвольте дать некоторые разъяснения по поводу методики Сводеша. (Заранее прошу прощения у профессионалов, которым и так все, что я напишу, понятно.) В частности, отвечу и на часть вопросов Яна Ковача.

    Основная идея вот какая.
    Предположим, что существует некоторое ядро в языке - группа слов, отражающих основные понятия, с которыми человек (по крайней мере, в доиндустриальную эпоху) сталкивается практически ежедневно и практически ежедневно произносит эти слова. Это значит, что такие слова войдут в его лексикон с самого раннего детства, и поэтому скорее всего, и в старости, и в общении с детьми и внуками человек будет эти понятия называть так же, как услышал в детстве от своих родителей. (В отличие от сравнительно редко встречающихся понятий, которые, возможно, он вообще впервые услышит в зрелом возрасте от жителя соседней деревни, возможно, вообще иноплеменного - и соответственно, будет называть не так, как называли их его отец или дед.) Так вот, слова, входящие в это "ядро" языка, будут гораздо более стабильными, чем вся лексика языка в целом.

    Теперь следующий шаг в рассуждениях. Возьмем очень узкое ядро - скажем, 200 слов, как предложил вначале Сводеш, или даже всего только 100. Это будут самые устойчивые слова языка, такие, что даже на протяжении 1000 лет вероятность замены такого слова в языке на какое-то другое будет очень мала. Предположим теперь, что эта вероятность примерно одинакова для каждого из выбранных слов, примерно одинакова для разных языков и примерно одинакова для разных тысячелетних периодов. (Т.е. и для периода, скажем, с 1500 до 500 до н.э, и для периода с 100 по 1100 н.э.). Эти предположения изначально не доказаны, однако не видно особых причин, по которым в реальности дело было бы не так. (Повторяю, речь идет о доиндустриальной эпохе).

    Но тогда, зная (например, на основании известной истории языков, таких, как романские или германские) такую вероятность для одного слова, мы можем (по формулам теории вероятности) посчитать ожидаемое число слов, которые будут заменены в языке за 1000, за 2000 или за 500 лет (меньшие промежутки не стоит брать, т.к. на коротком отрезке времени выше будет влияние случайных отклонений). Точно так же можно предсказать, каково будет число общих слов в ядре у двух языков, разошедшихся 1000 или 2000 лет назад. И наоборот - зная итоговый результат (процент общих слов в ядрах двух языков) оценить наиболее вероятный срок их раздельного существования.

    Ситуация оказывается абсолютно аналогичной расчетам распада радиоактивных атомов - там тоже есть некоторое исходное количество атомов, каждый из которых с маленькой вероятностью может распасться (а может и не распасться) в течение некоторого периода времени. Про каждый конкретный атом мы заранее ничего не знаем, но с полной уверенностью можем утверждать, что за Х лет распадется У% от начального количества атомов. Разница только в том, что атомов обычно (хотя тоже не всегда) - триллионы, поэтому заметные отклонения реального результата от прогнозируемого практически невероятны, а вот лля стоэлементного множества такие отклонения иногда получаются. Т.е., грубо говоря, если мы рассмотрим, скажем, 50 языков (т.е. 1225 пар), то для одной-двух пар мы вполне можем получить результат, сильно отличающийся от реальной языковой истории. (В частности, именно таков часто приводимый пример исландского и, если не ошибаюсь, датского языков - по формулам Сводеша получается, что эти языки разошлись лет 200 назад, хотя реально, по данным исторических источников, это произошло на полтыщи лет раньше.)

    Еще несколько уточнений (как раз то, о чем спрашивал Ян).
    Совпадающими считаются только слова, имеющие одинаковое, указанное в списке, значение. Т.е., например, если в английском языке есть слово white, родственное русскому слову цвет, но при этом русское слово не означает именно "белый" (значение из списка Сводеша) - то совпадение не защитывается.
    И наоборот - если есть два слова с одинаковым значением, восходящие к одной праформе, пусть даже в нынешней форме эти слова звучат совершенно непохоже - то они все равно считаются совпадающими. (Пример: англ. tongue - рус. язык)
    Если в каком-то языке есть два синонима, то берется основной, тот, который ребенок слышит от родителей. Поэтому, например, для английского eye нет совпадения с русским языком, т.к. русское "око" употребляется гораздо реже, чем "глаз", не говоря уж о том, что это слово относится к книжной лексике.
    Конечно, существуют "пограничные ситуации", когда есть два синонимапримерно одинаковой частотности (пес-собака), но это сравнительно редкая ситуация.

    (мною частично использованы постинги участника нашего форума espada, помещенные им на другом форуме )
     
  14. Ян Ковач

    Ян Ковач New Member

    Не совсем понимаю. :dunno: На ссылке, давшей мною, то самое, ср. картинки. :cool:
    Как раз, я бы стал делить лексику иначе.
    А, обыходное, бытовое, общеупотребительное ядро.
    Б, остальное, высший (книжный) стиль, реже встречающиеся слова
    В множестве А, конечно, большое количество слов совпадает с ядром языка по Сводешу,
    но не всё (прибыл компютер). В смысле, Сводеш огромной частью включен в А как подможество.
    Напр. зависимо от стиля жизни, не все часто употребляют:
    олень, стая серн, лосос, пшеница, икра, подъём, лопата, топор...?
    Определить элементы входящие в А можно лишь статистически по частоте.
    И как раз в А находится, по-моему, подмножество найболее изменяемых слов языка! :yes: :dunno:
    То есть, наименее стабильные слова. И где доказано, что последние как-раз вне Сводешова ядра?
    Возможно да, но пока не вижу, почему.
    Примеры этой подгруппы: наогул, зрешты, таксамо...просто часто-встречающиеся фразы
    типа «как дела?» и прочее. Может быть, именно они, частые фразы (влияние литерат. нормы)
    и определяют дальнейшее развитие «очень частых слов» в рамках государства.
    Да к стабильности слов:
    По-моему, частота употребления вовсе не должна определять стабильность.
    Уже редкие слова (в обиходе), напр. из категории хозяйства: рало, ярмо (иго), хомут, ремень, плуг, вилы, лопата...
    думаю, вряд ли когда либо изменялись или будут вообще изменяться.
    Замечание: иностранец,изучающий язык, без них прекрасно сможет обойтись в разговоре.
    Или обратно, заимствования без сомнения не входят в Сводеша, но значит,
    они нестабильные? Совсем нет.
    Компютер (рачунальник, почитач, вычислитель. машина) вряд ли когда-либо измениться. :)
    Или древние суккар, шай, лемон/цитрон...изменяются ли? (не смотря на произношение, сахар ли цукор)
    Итак, мой вывод, или скорее вопрос: Почему вообще слова из ядра (Сводеша) гораздо стабильнее, чем лексика в целом,
    и почему они должны зеркалить слова, с которыми сталкиваемся ежедневно? :dunno:

    Конечно, список Сводеша имеет глубокий смысл, с этим не спорьюсь. :)
    «Список Сводеша - душа языка» (парафразирую Франсуу Филидора :mrgreen: ). Но не думаю,
    что изменения, трансформации в его рамках, дадут достаточно хороший образ
    об изменениях в языке целом, в совокупности. Может быть, но не должно.
    Проясню: англичанин, изучивший белорусский язык, посмотрит в таблицу сравнений,
    и сделает вывод по процентам общего, напр. что с верхне-лужичанем легче договориться,
    чем с украинцем, ибо 78% явно выше 76% (см. таблицу в теме Славян. языки/ самый славянский).
    Но его вывод неверен. Процента касаются лишь слов списка, но явно многие фразы, конструкции и прочее,
    подтверждают великую близость белорусского с украинским. :yes:

    Итак, суть моего замысла в построении множества А, можно построить и разширением
    списка Сводеша, из которого, надеюсь, получим более яркое представление
    о схожести и различьях в изучаемых парах языков, и об «времени» разхождения.

    О второй части, темпе развития и прочем, позже...
    --------------
    Повторяю ссылку: http://www.scientific.ru/journal/translations/vlad.html
    Там и очень интересная ссылка :roll: на
    COMPARATIVE INDOEUROPEAN DATABASE COLLECTED BY ISIDORE DYEN
    http://www.ntu.edu.au/education/langs/ielex/IE-DATA1
     
  15. Ян, прежде всего - спасибо за ссылку на Scientific.ru (в прошлый раз вы эту ссылку написали с ошибкой, поэтому она у меня не открылась)
    Вы правы, там обсуждается та же самая статья Рассела Грея и его аспирант Квентина Аткинсона из "Nature", о которой я говорил. Там, в этом обсуждении, кстати, есть некоторые дополнительные подробности, которых я не нашел до этого.

    Я Вам обязательно отвечу подробно, но не сейчас, а через несколько дней, когда будет время для подготовки обстоятельного сообщения.
    Пока посмотрите еще несколько ссылок на английском.

    1. Вот тут обзорное обсуждение методики Грея и Аткинсона в Language Log.
    Также стоит посмотреть открывающиеся с этой страницы ссылки
    http://itre.cis.upenn.edu/~myl/languagelog/archives/000830.html
    http://itre.cis.upenn.edu/~myl/languagelog/archives/000819.html
    http://itre.cis.upenn.edu/~myl/languagelog/archives/000210.html
    http://itre.cis.upenn.edu/~myl/languagelog/archives/000208.html

    2. Сайт самого Рассела Грея со ссылками на ответы критикам его методики:

    http://www.psych.auckland.ac.nz/psych/research/Evolution/Response to Larry TraskFinal.doc

    http://www.psych.auckland.ac.nz/psych/research/Evolution/Response to Trask Take2.doc
     
  16. Laplandian

    Laplandian New Member

     
  17. Марина

    Марина New Member

    :lol: