Коллекция "Persons-1000" (расширенная версия коллекции "Persons-600") создана для оценки точности и полноты алгоритмов извлечения личных имен из новостных текстов. В рамках задачи извлечения предлагается определить места упоминания лиц в тексте, а также привести это упоминание к заданной канонической форме.
Сводная информация
|
CopyrightНастоящие материалы представляют собой фрагменты новостных сообщений и правомерно обнародованных текстовых произведений, взятые с сайтов новостных агентств, и предназначены для использования научным сообществом в соответствие со ст. 1274 ГК РФ в научно-исследовательских целях, а именно: для оценки и сравнения алгоритмов автоматического анализа текстовой информации. Указание правообладателя и источника заимствования сделано в файле Reference.pdf. Использование таких фрагментов текстовых произведений, выходящее за рамки ограничений исключительных прав на объекты авторского права, установленных 4 Главой ГК РФ является незаконным. |
Для библиографических ссылок
Власова Н.А., Сулейманова Е.А., Трофимов И.В. Сообщение о русскоязычной коллекции для задачи извлечения личных имен из текстов // Труды конференции по компьютерной и когнитивной лингвистике TEL'2014 "Языковая семантика: модели и технологии". — Казань, 2014. — С. 36–40.
Скачать коллекцию
Коллекция представлена в форме единого zip-архива. Архив содержит файлы коллекции, а также сопровождающие файлы CollectionInfo.pdf, Copyright.pdf, Reference.pdf.
СКАЧАТЬ КОЛЛЕКЦИЮ [~3,2 Мб]
Дополнительные материалы
- Сравнительный анализ ACE-разметки и разметки в этой коллекции.
- Руководство ACE для аннотаторов от 2008 года: ACE English Annotation Guidelines for Entities v6.6.
- Руководство MUC-7 для аннотаторов (по задаче выявления именованных сущностей): MUC-7 Named Entity Task Definition v3.5 (оригинал).
Коллекция создана при поддержке РФФИ (проект № 13-06-00483).