Исида-Т:
Интеллектуальная Система Извлечения Данных и их Анализа (на основе Текстов)

Цель

Разработка инструментальных программных средств для решения задачи извлечения информации из текстов на русском языке.

Общие технические параметры.

  • Windows / Linux.
  • C++.
  • Unicode.
  • doc, docx, html, plain text (в любой кодировке).
  • Язык интерфейса: русский, английский.
  • Анализируемый язык: русский, английский (огранич.).
  • Расширяемая архитектура.

Исида-Т: Основные компоненты

По состоянию на октябрь 2012 года Исида-Т включала в себя:

  • инфраструктурные средства (конфигурирование, подключение аналитических модулей, модели разделяемой памяти);
  • модули базового лингвистического анализа;
  • средства моделирования предметных знаний и использования их в процессе извлечения информации;
  • интерпретаторы для правил извлечения информации и отождествления извлеченных сущностей;
  • графическую оболочку для настройки системы на прикладную задачу извлечения;
  • средства отладки и оценки качества извлечения.

 

ИСИДА-Т: Моделирование знаний

alt

 

Построение первичных текстовых объектов

alt

 

Построение текстовых фактов

alt

 

Вывод новых фактов

Пример вывода новых фактов об отставках и назначениях на основе данных, содержащихся в разных текстах

  • «Смена лиц, занимающих должность»

alt