Сборники тезисов • Информационные и интеллектуальные системы и технологии • Технологии программирования, искусственный интеллект, биоинформатика
Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, 2016.
Задача автоматической классификации исправлений опечаток в поисковых запросах по классам надежности
УДК: 004.89
Аннотация:
Автоматическая проверка и исправление правописания и опечаток в поисковых запросах – важный компонент любого современного поискового движка. В поисковых движках существует несколько традиционных способов исправить ошибку в поисковом запросе и минимизировать количество запросов с ошибками. Автодополнение запроса при написании, подмешивание выдачи по предполагаемому исправлению, подсказка-ссылка на предполагаемое исправление, автоисправление запроса – для каждого из них предъявляются различные требования по точности. Соответственно, существует нужда в автоматической оценке надежности исправления поискового запроса. В работе предложена новая модель для решения данной задачи, которая использует методы машинного обучения и набор статистических, лексических и документ-ориентированных факторов. Полученная модель работает эффективней известных существующих моделей.