Новый алгоритм: компьютер определяет родной язык человека по тексту на английском языке

  • Размер шрифта: Больше Меньше
  • Печатать
  • PDF

Normal 0 false false false MicrosoftInternetExplorer4

Исследователи Лаборатории информатики и искусственного интеллекта (CSAIL) Массачусетского технологического института разработали алгоритм, определяющий родной язык человека по особенностям его английского. Этот алгоритм также дает лингвистам новый инструмент для уточнения существующей классификации языков.

В качестве примеров система использует более 1000 эссе на английском языке, написанных носителями 14 разных иностранных языков. Сначала она анализирует используемые в тексте части речи и связи слов в предложениях, затем подбирает в своей базе подходящие примеры, которые и указывают на родной язык автора.

Анализируя результаты, команда CSAIL отметила важную вещь: путем количественного анализа алгоритм дает информацию о том, насколько близки друг другу те или иные языки. Вывод об этом делается на основании сходства и различия синтаксических паттернов: места подлежащего и сказуемого в предложении, способа выражения отрицания и прочих.

Проще говоря, результат системы, дающий 51% вероятности, что родной язык автора русский, 33% что польский и 16% что японский – так же говорит, что польский язык по своему устройству гораздо ближе к русскому, чем японский.

 

На основании полученной информации исследователи составили «семейное древо» имеющихся в их базе 14 языков, и оно получилось практически идентичным той классификации, которую лингвисты когда-то составили вручную. Например, девять языков, принадлежащих к индоевропейской семье, действительно заметно отличались от пяти неиндоевропейских, входящих в число этих четырнадцати.

Это открытие дает лингвистам еще один инструмент изучения языков, информации о которых пока еще недостаточно. С учетом того, что во «Всемирном атласе языковых структур» (The World Atlas of Language Structures, WALS) до сих пор пробелы на месте десятков разных языков, эту новую возможность нельзя недооценивать.

Ученый-исследователь лаборатории CSAIL Борис Кац (Boris Katz), аспирант Евгений Берзак и экс-подстдок Рой Рейхарт (Roi Reichart) (ныне сотрудник Израильского технологического института) заявляют, что точность определения родных языков тестируемых при помощи данного алгоритма – без привлечения каких-либо сторонних методов и дополнительной информации – составляет 72%

Подробнее –  на сайте Массачусетского технологического института

в разделе: В мире Просмотров: 951