Поиск

Сборники тезисовИнформационные и интеллектуальные системы и технологииИнформационные системы и технологии

Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, 2015.

Автоматическая сегментация текста с учетом его семантической структуры

УДК: 004.912

Аннотация:

Задача сегментации связного текста состоит в разделении его на отдельные блоки (сегменты, субтемы), имеющие семантически сходное содержимое. На уровне произведения в целом такая структура (главы, параграфы, подпараграфы), как правило, задается автором. Однако в задачах автоматической обработки естественного языка особый интерес представляет такое членение на уровне отдельных абзацев (групп абзацев). С этой целью предложен ряд алгоритмов, среди которых признанным лидером по качеству сегментации является алгоритм TextTiling. Существует программная реализация алгоритма на языке Python, входящая в пакет NLTK (Natural Languate Toolkit). При отладке этой реализации был выявлен ряд недостатков. Выполнена оценка качества работы исходного и модифицированного алгоритмов TextTiling, которая проведена путем сравнения с сегментацией текста, проведенной экспертом. Показано, что выполненная модификация алгоритма позволила улучшить качество сегментации и практически приблизить его к уровню экспертной оценки.

Авторы:

Сивачук Владислав Александрович, Чивичилов Вадим Александрович

Руководители:

Гусарова Наталия Федоровна

Скачать PDF-файл

Яндекс.Метрика