Сборники тезисов • Информационные и интеллектуальные системы и технологии • Информационные системы и технологии
Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, 2015.
Извлечение объектов из электронных таблиц
УДК: 004.896, 004.622, 004.043
Аннотация:
Бизнес-процессы являются источником большого количества документов, среди которых значительную долю занимают электронные таблицы, как наиболее удобный способ представления множества однотипных данных. Характерным примером таких документов выступают прайс-листы. По сравнению с неструктурированным текстом, электронные таблицы представляют информацию в относительно упорядоченном виде (с возможностью агрегации). Несмотря на это, сравнение и анализ таблиц со схожими данными, например ценовых предложений от разных компаний, остается трудоемкой задачей. Автоматизация процесса поиска информации минимизирует участие человека в рутинной задаче сопоставления представлений однотипных объектов в разных таблицах. Для решения поставленной проблемы разработан алгоритм извлечения объектов из табличных документов и программный модуль, реализующий предложенный алгоритм.