Нейросеть переводит с мёртвых языков

  • Размер шрифта: Больше Меньше
  • Печатать
  • PDF

В Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) Массачусетского Института разработали систему для чтения текстов на давно мёртвых языках.

В мире существуют десятки мёртвых языков, записи на которых не поддаются расшифровке, поскольку у нас нет достаточных знаний об их грамматике, лексике и синтаксисе. Но для науки они по-прежнему остаются бесценными источниками информации – о людях, которые на них говорили, культурах, их создавших.

Исследователи CSAIL MIT недавно сделали крупное открытие в этой области: новая система, которая способна автоматически расшифровывать записи даже без достаточной базы знаний о них. Кроме того, система также может сама определять отношения между языками, выявляя родственные связи (а порой и опровергая теории о родстве языков, бытовавшие до недавнего времени – как произошло с иберийским и баскским языками). Алгоритм позволяет оценить близость между двумя языками; фактически, при тестировании на известных языках он может даже точно определять языковые семьи.

По словам Реджины Барзилай (Regina Barzilay), профессора MIT, система руководствуется принципами исторической лингвистики, гласящими, что все языки развиваются определенным и предсказуемым образом. Так например, глухой звук «п» в речи может смениться звонким «б», и с течением поколений это отразится и в буквенной записи. Но замена «п» на, скажем, «к» не соответствует фонетической логике и вряд ли возможна.

Эти и другие проверенные лингвистические законы были учтены в алгоритме дешифровки – и как оказалось, они вполне могут заменить недостающие лексические знания по языкам. Алгоритм учится встраивать звуки языка в многомерное пространство, где различия в произношении отражаются на расстоянии между соответствующими векторами. Такая конструкция позволяет им фиксировать соответствующие закономерности изменения языка и выражать их в виде вычислительных ограничений. Полученная модель может сегментировать слова в древнем языке и сопоставлять их с аналогами в родственном языке.

Основы проекта описаны в статье Реджины Барзилай и Цзямина Ло (Jiaming Luo) «Нейродешифровка по алгоритму потока минимальной стоимости: от угаритского языка к линейному письму Б» («Neural Decipherment via Minimum-Cost Flow: from Ugaritic to Linear B»).

В будущей работе группа надеется расширить свою работу за пределы простого соединения текстов со связанными словами на известном языке — подход, называемый «расшифровкой на основе языкового родства». Новый подход команды будет включать определение семантического значения слов, даже если они не знают, как их читать.

«Например, даже не зная языка, мы можем идентифицировать отсылки к конкретным людями и местам и дополнительно исследовать их», - говорит Барзилай. Но вопрос, выполнима ли задача работы с семантикой без каких-либо обучающих данных на нужном языке, пока еще остается открытым.

Источник: новостная лента MIT

в разделе: В мире Просмотров: 48