Коллекция "Persons-1000"

Коллекция "Persons-1000" (расширенная версия коллекции "Persons-600") создана для оценки точности и полноты алгоритмов извлечения личных имен из новостных текстов. В рамках задачи извлечения предлагается определить места упоминания лиц в тексте, а также привести это упоминание к заданной канонической форме.

Сводная информация

Язык коллекции: русский
Формат документов: плоский текстовый файл (plain-text)
Кодировка: windows-1251
Жанр: новостные сообщения
Документов: 1000
Эталонов разметки: 10600
[Описание коллекции, pdf]

Copyright

Настоящие материалы представляют собой фрагменты новостных сообщений и правомерно обнародованных текстовых произведений, взятые с сайтов новостных агентств, и предназначены для использования научным сообществом в соответствие со ст. 1274 ГК РФ в научно-исследовательских целях, а именно: для оценки и сравнения алгоритмов автоматического анализа текстовой информации. Указание правообладателя и источника заимствования сделано в файле Reference.pdf. Использование таких фрагментов текстовых произведений, выходящее за рамки ограничений исключительных прав на объекты авторского права, установленных 4 Главой ГК РФ является незаконным.

Для библиографических ссылок

Власова Н.А., Сулейманова Е.А., Трофимов И.В. Сообщение о русскоязычной коллекции для задачи извлечения личных имен из текстов // Труды конференции по компьютерной и когнитивной лингвистике TEL'2014 "Языковая семантика: модели и технологии". Казань, 2014. С. 36–40.

Скачать коллекцию

Коллекция представлена в форме единого zip-архива. Архив содержит файлы коллекции, а также сопровождающие файлы CollectionInfo.pdf, Copyright.pdf, Reference.pdf.

СКАЧАТЬ КОЛЛЕКЦИЮ [~3,2 Мб]

Дополнительные материалы

 

Коллекция создана при поддержке РФФИ (проект № 13-06-00483).