Коллекция "Persons-1111-F"

Коллекция "Persons-1111-F" создана для оценки точности и полноты алгоритмов извлечения личных имен из новостных текстов. В рамках задачи извлечения предлагается определить места упоминания лиц в тексте, а также привести это упоминание к заданной канонической форме. Набор текстов отличен от коллекции "Persons-1000" и охватывает новости Юго-Восточной Азии, Среднеазиатского региона и стран арабского мира.

[Подробнее, pdf]

Сводная информация

Язык коллекции: русский
Формат документов: плоский текстовый файл (plain-text)
Кодировка: utf-8 и windows-1251
Жанр: новостные сообщения
Документов: 1111
Эталонов разметки: 5693

Copyright

Настоящие материалы представляют собой фрагменты новостных сообщений и правомерно обнародованных текстовых произведений, взятые с сайтов новостных агентств, и предназначены для использования научным сообществом в соответствие со ст. 1274 ГК РФ в научно-исследовательских целях, а именно: для оценки и сравнения алгоритмов автоматического анализа текстовой информации. Указание правообладателя и источника заимствования сделано в файле Reference.pdf. Использование таких фрагментов текстовых произведений, выходящее за рамки ограничений исключительных прав на объекты авторского права, установленных 4 Главой ГК РФ является незаконным.

Скачать коллекцию

Коллекция представлена в форме единого zip-архива. Архив содержит файлы коллекции, а также сопровождающие файлы CollectionInfo.pdf, Copyright.pdf, Reference.pdf.

СКАЧАТЬ КОЛЛЕКЦИЮ [~3,8 Мб]