Сборники тезисов • Информационные и интеллектуальные системы и технологии • Технологии программирования, искусственный интеллект, биоинформатика
Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, 2016.
Алгоритм генерации шаблонов извлечения простых сущностей на базе Sequential Pattern Mining методов
УДК: 004.89
Аннотация:
В работе рассмотрен первый этап процесса генерации онтологии, а именно, процесс извлечения объектов предметной области – базовых терминов, на основе которых строится онтология. Также дан обзор существующих решений и предложен разработанный алгоритм генерации так называемых "оберток" – экстракторов, позволяющих извлекать однотипные сущности, которые строятся на основе размеченной обучающей выборки. Предлагаемый алгоритм генерации "оберток" использует регулярные выражения расширенные морфологическими шаблонами для собственно извлечения подстрок, соответствующих сущностям в тексте и алгоритм PrefixSpan для генерации шаблонов-кандидатов.