Словарь простых словосочетаний

Словарь простых словосочетаний (СПС) описывает синтагматические свойства слов с учетом некоторых их морфологических характеристик.

В настоящее время составление СПС находится в начальной стадии. На данной странице опубликован лишь небольшой фрагмент будущего словаря и некоторая информация о нем.

Класс словосочетания Словарь
Главный компонент: существительное
Подчиненный компонент: прилагательное или порядковое числительное
Тип синтаксической связи: согласование
Просмотр Скачать без примеров [X Мб]
Скачать с примерами [Y Гб]
Схема данных
Главный компонент: существительное
Подчиненный компонент: существительное в родительном падеже
Тип синтаксической связи: беспредложное управление или примыкание
Просмотр Скачать без примеров [X Мб]
Скачать с примерами [Y Гб]
Схема данных

Назначение словаря

Словарь может использоваться для контекстного разрешения лексической омонимии. Например, для фразы родов войск бесконтекстный морфологический разбор первого слова формально допускает лексему роды, хотя очевидно, что такой вариант разбора является ошибочным. Таких примеров масса: голов скотаголы (мн.ч. от гол); воздушных судовсуды; поле зренияпол; пара месяцевпар и т.п.

Аналогичная ситуация с морфологической омонимией. Для фразы текст публикации бесконтекстный морфологический разбор второго слова допускает дательный падеж, но контекст позволяет данный вариант морфологического разбора исключить.

СПС может использоваться методами автоматического синтаксического анализа в качестве дополнительного средства проверки допустимости синтаксической связи.

В свою очередь, методы автоматической классификации и кластеризации текстовых документов, использующие в качестве пространства признаков n-граммы (последовательности слов текста длинны n), могут получить дополнительную информацию о том, является ли последовательность случайным сорасположением слов или интерпретируемым словосочетанием. Эти сведения можно использовать при отборе признаков.

Словарь словосочетаний может служить источником информации при создании других информационных ресурсов: словарей моделей управления, онтологий, FrameNet-подобных ресурсов. Например, при создании онтологии можно быстро получить информацию, какими признаками характеризуется та или иная сущность: зачастую достаточно проанализировать словосочетания, в которые входит соответствующее существительное. Например, у объекта мост можно выделить признаки: назначение (автомобильный, пешеходный), тип конструкции (понтонный, вантовый, арочный), тип материала (деревянный, железобетонный) и т.д.

Устройство словаря

Словарь разделен на фрагменты в соответствии со следующим принципом. Первый уровень классификации делит словосочетания по части речи опорного (главного, стержневого) компонента: имя существительное,  глагол (личные и неличные формы).

На следующем уровне классификации у существительных выделены подклассы по типам синтаксических связей с зависимым:

  • согласование с именами прилагательными, порядковыми числительными, причастиями;
  • беспредложное управление и примыкание существительного с делением по числам и падежам (родительный, дательный, творительный);
  • предложное управление без деления по падежам (с учетом составных предлогов).

Для глаголов выделены следующие подклассы по типам синтаксических связей:

  • беспредложное подчинение существительного (управление и примыкание) с делением по падежам (родительный, дательный, винительный, творительный);
  • подчинение предложных групп;
  • примыкание наречий и инфинитива;
  • предикативная связь (с подлежащим, выраженным существительным) — для глаголов в личной форме.

Кроме самих словосочетаний в словаре содержится информация об их употреблениях в тексте (фрагменты текста). Примеры употреблений получены автоматическими средствами и не верифицированы.

Изначально словарь строится программным средством (выполняется автоматический анализ большого массива текстов). Затем выполняется проверка содержимого людьми. Поэтому каждый элемент словаря имеет пометки (статус), выполнялась ли его проверка и каково решение проверявшего (корректное или некорректное словосочетание).