Исида-Т:
Интеллектуальная Система Извлечения Данных и их Анализа (на основе Текстов)
Цель
Разработка инструментальных программных средств для решения задачи извлечения информации из текстов на русском языке.
Общие технические параметры.
- Windows / Linux.
- C++.
- Unicode.
- doc, docx, html, plain text (в любой кодировке).
- Язык интерфейса: русский, английский.
- Анализируемый язык: русский, английский (огранич.).
- Расширяемая архитектура.
Исида-Т: Основные компоненты
По состоянию на октябрь 2012 года Исида-Т включала в себя:
- инфраструктурные средства (конфигурирование, подключение аналитических модулей, модели разделяемой памяти);
- модули базового лингвистического анализа;
- средства моделирования предметных знаний и использования их в процессе извлечения информации;
- интерпретаторы для правил извлечения информации и отождествления извлеченных сущностей;
- графическую оболочку для настройки системы на прикладную задачу извлечения;
- средства отладки и оценки качества извлечения.
ИСИДА-Т: Моделирование знаний
Построение первичных текстовых объектов
Построение текстовых фактов
Вывод новых фактов
Пример вывода новых фактов об отставках и назначениях на основе данных, содержащихся в разных текстах
- «Смена лиц, занимающих должность»