ОКР "Информация"

Тема ОКР

Разработка экспериментального программного комплекса поиска и аналитической обработки научно-технической информации (НТИ) для создания электронного банка данных о нанотехнологиях.

Задачи ОКР

1. Разработка методов активного поиска информации по нанотехнологиям, представленной в открытых источниках. Разработка методов автоматического извлечения метаданных из найденных документов. Должны извлекаться метаданные не только из формата документа, но и из текста.

2. Разработка экспериментального образца программного комплекса поиска и аналитической обработки НТИ по нанотехнологиям, включая рабочее место оператора банка данных и интерфейс пользователя банка данных.

Подходы и методы

В качестве средства активного поиска информации разрабатывается специализированный настраиваемый краулер, задачей которого является помощь оператору в загрузке целевого контента в банк данных из открытых источников, а также предварительная фильтрация и рубрикация контента.

Получение метаданных из документов осуществляется при помощи разбора формата документа и извлечения информации непосредственно из текста. Например, для научных статей извлекается название статьи, авторы, их адреса, УДК, ссылки на гранты. Извлечение информации выполняется при помощи правил, составляемых лингвистами.

Неформальная схема разрабатываемого программного обеспечения представлена на рисунке ниже.