Airec

Skip to content

НИР "Фактография"

Тема НИР

Исследование и разработка методов автоматического создания фактографических информационных ресурсов на базе анализа текстовых документальных материалов.

Цели исследования

1. Разработка методов извлечения информации из текстов, обеспечивающих глубокую интерпретацию содержимого. В данном контексте под глубокой интерпретацией мы понимаем стремление сопоставить содержимое текста с как можно более мелкими смысловыми единицами, а также восстановление информации, неявно представленной в тексте.

2. Разработка методов отождествления извлеченной информации при множественной ее номинации в тексте. Отметим, что отождествление не является синонимом проблемы разрешения кореферентности. Отождествление осуществляется на уровне структурированной информации, а не текста, и поэтому не оперирует языковыми сущностями, например, местоимениями.

Подходы и методы

В основе извлечения информации лежит инженерный подход — правила извлечения информации разрабатываются лингвистами и специалистами по предметной области.

Процесс извлечения информации построен вокруг модели представления знаний, в которой доминирует фреймовый подход. Мы называем эту модель ресурс знаний, чтобы подчеркнуть ее отличие от онтологий, фактографических баз данных, тезаурусов и словарей. Ресурс знаний содержит в себе онтологию, расширенную лингвистической информацией (моделями управления, лексическим проявлением концептов и др.). Ресурс знаний служит, с одной стороны источником информации о предметной области и ее концептуальном аппарате. Данная информация используется на этапах извлечения и отождествления информации. С другой стороны, ресурс знаний является целевой структурой для извлекаемой информации. Именно в терминах онтологии, содержащейся в ресурсе знаний, представляется извлекаемая из текста целевая информация.

В качестве механизма отождествления опробован подход, опирающийся на формализованные знания о мире. Например, нам известно, что в каждой компании может быть только одна должность генерального директора. Таким образом, если мы среди извлеченных фактов отыскиваем несколько упоминаний должности "генеральный директор", связанной с одной и той же компанией, то на основании наших знаний мы можем сделать вывод о том, что это множественные упоминания одной и той же должности. Выделен еще один перспективный подход, в основе которого лежит следующее предположение. Если объекты относятся к одному классу и их характеристики (атрибуты) в значительной степени совпадают, то высока вероятность того, что данные объекты модели характеризуют один объект реальности. Причем уверенность выше, если объекты извлечены из одного текста. Порог — сколько и каких атрибутов должно совпадать, чтобы можно было говорить о тождественности — можно установить посредством машинного обучения или эвристически.

Дополниительные материалы

Работа проводилась по государственному контракту № 07.514.11.4109 от 26.10.2011 с Министерством образования и науки Российской Федерации в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы».

Институт программных систем РАН
152021, Россия, г. Переславль-Залесский