Задача извлечения информации из текстов

Извлечение информации — это задача

  • автоматического поиска целевой информации в электронных текстовых документах и
  • представления найденной информации в удобной для анализа структурированной форме.  

С технической точки зрения это, как правило, означает автоматическое наполнение таблицы (или базы данных) предопределенной структуры информацией, содержащейся в текстовых документах.

Схематически процесс извлечения информации можно изобразить следующим образом.

Извлечение информации обычно используется для обработки больших документальных массивов или систематического поиска / структурирования информации заданного типа в течение продолжительного интервала времени. Примером задачи первого вида может послужить структурирование информации в каком-либо документальном архиве. Для второго вида задач примерами могут послужить мониторинг определенной информации в веб и обработка однотипных документов (резюме соискателей работы, заявления граждан и т.п.).

Программные системы извлечения информации в большинстве своем относятся к настраиваемым системам. Сначала определяются цели извлечения (сущности, отношения, факты, события, представляющие интерес в рамках решаемой задачи), а  затем в соответствии с целями производится настройка системы на поиск и структурирование этих сведений.

После структурирования целевая информация может обрабатываться традиционными аналитическими и статистическими методами — построение выборок по заданным условиям (фильтрация), сортировка, построение диаграмм и графиков — то есть всеми теми средствами, которые предоставляют нам системы управления базами данных и электронные таблицы.

Подробнее о задаче извлечения информации см. соответствующую статью в Википедии.