Система классификации текстов - КЛАСТЕР

Программная система для классификации текстовых информационных сообщений на русском языке. Система позволяет определить принадлежность входного текста к тому или иному классу текстов. Иерархически организованный классификатор создается пользователем.

Система поддерживает два режима работы:

  • режим обучения системы на обучающих текстах и/или с помощью эксперта
  • режим классификации исходных текстов

В режиме обучения система формирует описание класса, состоящее из множества взвешенных терминов. В режиме классификации происходит ввод текстов для классификации и собственно классификация. Система осуществляет выделение терминов (как однословных, так и многословных), производит частичный синтаксический анализ текстов. Традиционная статистическая оценка значимости термина дополняется учетом различных способов вхождения термина в документ.