Коллекции

В рамках работ над нашим инструментарием для извлечения информации из текстов мы создаем вспомогательные ресурсы, которые позволяют осуществлять оценку качества решения задачи. Оценочная методология обычно заключается в создании коллекций документов, в которых цели извлечения размечены экспертами вручную. Затем документы коллекции анализируются программой извлечения информации, и результаты работы алгоритмов извлечения сопоставляются с эталонной разметкой. На этой странице мы размещаем созданные нами коллекции, чтобы другие научные коллективы могли использовать их в своих исследованиях для сравнительной оценки или обучения алгоритмов извлечения информации из текстов.

Коллекция "Relations-1000"

Коллекция "Relations-1000" создана для оценки точности и полноты алгоритмов автоматического извлечения (из новостных текстов) отношений типа роль-лицо и роль-по-отношению-к. Отношения первого типа выражают связь лица с его ролью или аспектом. Например, директор Иван Смирнов (роль), позитивист Федор Иванов (аспект). Второй тип отношений указывает, относительно чего/кого лицо играет данную роль. Например, акционер компании, заведующий кафедрой, племянник Бориса.

Подробнее...

Коллекция "Situations-1000"

Коллекция "Situations-1000" создана для оценки точности и полноты алгоритмов извлечения (из новостных текстов) событий назначения на должность и отставки. В рамках задачи извлечения предлагается определить тип события, место упоминания события в тексте, а также выявить участников события в форме фрагмента текста (строки).

Подробнее...

Коллекция "Persons-1111-F"

Коллекция "Persons-1111-F" создана для оценки точности и полноты алгоритмов извлечения личных имен из новостных текстов. В рамках задачи извлечения предлагается определить места упоминания лиц в тексте, а также привести это упоминание к заданной канонической форме. Набор текстов отличен от коллекции "Persons-1000" и охватывает новости Юго-Восточной Азии, Среднеазиатского региона и стран арабского мира.

Подробнее...

Коллекция "Persons-1000"

Коллекция "Persons-1000" (расширенная версия коллекции "Persons-600") создана для оценки точности и полноты алгоритмов извлечения личных имен из новостных текстов. В рамках задачи извлечения предлагается определить места упоминания лиц в тексте, а также привести это упоминание к заданной канонической форме.

Подробнее...

Коллекция "Persons-600"

Коллекция "Persons-600" создана для оценки точности и полноты алгоритмов извлечения личных имен из новостных текстов. В рамках задачи извлечения предлагается определить места упоминания лиц в тексте, а также привести это упоминание к заданной канонической форме.

Подробнее...