Сборники тезисов • Сборник тезисов докладов конгресса молодых ученых. Выпуск 1 • ИНФОРМАЦИОННЫЕ СИСТЕМЫ И ТЕХНОЛОГИИ
ПОДГОТОВКА ИСХОДНЫХ ДАННЫХ К ПРОВЕДЕНИЮ КЛАСТЕРИЗАЦИИ ДОКУМЕНТОВ
УДК: 004.048
Аннотация:
В работе рассмотрены трудности, возникающие при автоматической обработке
текстовых документов на естественном языке, варианты их решения. Обобщается
практический опыт ведущих университетов и научных центров мира, занимающихся
компьютерной лингвистикой. Проведено сравнение английского и русского языков,
следующие из этого изменения, которые необходимо вносить при использовании алгоритмов,
разработанных для англоязычных документов.