Извлечение информации — это задача
- автоматического поиска целевой информации в электронных текстовых документах и
- представления найденной информации в удобной для анализа структурированной форме.
С технической точки зрения это, как правило, означает автоматическое наполнение таблицы (или базы данных) предопределенной структуры информацией, содержащейся в текстовых документах.
Схематически процесс извлечения информации можно изобразить следующим образом.
Извлечение информации обычно используется для обработки больших документальных массивов или систематического поиска / структурирования информации заданного типа в течение продолжительного интервала времени. Примером задачи первого вида может послужить структурирование информации в каком-либо документальном архиве. Для второго вида задач примерами могут послужить мониторинг определенной информации в веб и обработка однотипных документов (резюме соискателей работы, заявления граждан и т.п.).
Программные системы извлечения информации в большинстве своем относятся к настраиваемым системам. Сначала определяются цели извлечения (сущности, отношения, факты, события, представляющие интерес в рамках решаемой задачи), а затем в соответствии с целями производится настройка системы на поиск и структурирование этих сведений.
После структурирования целевая информация может обрабатываться традиционными аналитическими и статистическими методами — построение выборок по заданным условиям (фильтрация), сортировка, построение диаграмм и графиков — то есть всеми теми средствами, которые предоставляют нам системы управления базами данных и электронные таблицы.
Подробнее о задаче извлечения информации см. соответствующую статью в Википедии.