Коллекция "Persons-600" создана для оценки точности и полноты алгоритмов извлечения личных имен из новостных текстов. В рамках задачи извлечения предлагается определить места упоминания лиц в тексте, а также привести это упоминание к заданной канонической форме.
Сводная информация
Язык коллекции: | русский |
Формат документов: | плоский текстовый файл (plain-text) |
Кодировка: | windows-1251 |
Жанр: | новостные сообщения |
Тематика: | доминируют сообщения о назначениях на должность и отставках |
Документов: | 600 |
Эталонов разметки: | 6132 |
Copyright
Настоящие материалы представляют собой фрагменты новостных сообщений и правомерно обнародованных текстовых произведений, взятые с сайтов новостных агентств, и предназначены для использования научным сообществом в соответствие со ст. 1274 ГК РФ в научно-исследовательских целях, а именно: для оценки и сравнения алгоритмов автоматического анализа текстовой информации. Указание правообладателя и источника заимствования сделано в файле Reference.pdf. Использование таких фрагментов текстовых произведений, выходящее за рамки ограничений исключительных прав на объекты авторского права, установленных 4 Главой ГК РФ является незаконным.
Скачать коллекцию
Коллекция представлена в форме единого zip-архива. Архив содержит файлы коллекции, а также сопровождающие файлы CollectionInfo.pdf, Copyright.pdf, Reference.pdf.
СКАЧАТЬ КОЛЛЕКЦИЮ [~2,4 Мб]