Сборники тезисов • Информационные и интеллектуальные системы и технологии • Технологии программирования, искусственный интеллект, биоинформатика
Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, 2016.
Методы дедупликации организаций с использованием их названий и географических координат
УДК: 004.891
Аннотация:
Существует огромное количество справочников организаций. Справочники содержат в себе информацию об организациях, например, такую как названия, географические координаты, фотографии, телефоны, адрес в интернете, электронная почта. Также существуют ресурсы, которые агрегируют у себя эту информацию. Перед этими ресурсами встает задача дедупликации сущностей из разных источников. В докладе рассмотрены некоторые методы и подходы решения этой задачи.