Airec

Skip to content

База данных текстовых фрагментов из новостных сообщений (БДТФ-Н)

Содержимым базы данных (БД) являются предложения на русском языке, автоматически извлеченные из новостных сообщений.

Так как процесс извлечения иногда неточно определяет границы предложений, мы назвали БД базой данных текстовых фрагментов.

БД создана в научно-исследовательских целях и предназначена для проведения лингвистических исследований (главным образом, статистическими методами).
Объем БД превышает 21 млн. записей. Текстовые фрагменты были извлечены приблизительно из 2 млн. различных новостных сообщений. Текстовые фрагменты упорядочены в БД лексикографически (восстановление исходных текстов новостных сообщений невозможно). Выполнено простейшее удаление дубликатов.
БД доступна в виде zip-архива (1.4 Гб). Архив содержит SQL-скрипт, создающий в БД MySQL таблицу с именем text_fragments. Таблица содержит два поля:

id — идентификатор записи;
sentence — текстовый фрагмент в кодировке utf-8. Тип поля text в нотации MySQL.

БД доступна под лицензией CC-BY 4.0 (Creative Commons Attribution); создана сотрудниками ИЦИИ Трофимовым И.В. и Погореловой Е.В.

СКАЧАТЬ [~1.4 Гб]

(версия 2) [~1.8 Гб; более 28 млн. записей]

(версия 3) [~2.2 Гб; более 34 млн. записей]

Произведение «База данных текстовых фрагментов из новостных сообщений (БДТФ-Н)», созданное авторами Трофимовым И.В. и Погореловой Е.В., публикуется на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.

Институт программных систем РАН
152021, Россия, г. Переславль-Залесский