Сборники тезисов • Сборник тезисов докладов конгресса молодых ученых. Выпуск 1 • ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ
ВЕРИФИКАЦИЯ БЛОКОВ ДАННЫХ В СИСТЕМЕ БЕЗХЕШЕВОЙ ДЕДУПЛИКАЦИИ
УДК: 004.627
Аннотация:
Дедупликация – это технология, ориентируемая на исключения избыточности в наборах
данных путем замены повторяющихся данных ссылками на уже существующие данные,
обеспечивая, таким образом, сокращение хранимой на носителе информации. Эту
технологию используют преимущественно в области резервного копирования по причине
наличия большой избыточности в данных резервных копий. Важной задачей при реализации
дедупликации является задача верификации блоков. Исторически сложилось, что
большинство реализаций данной технологии имеют в основе хешевую концепцию,
подразумевающую верификацию с использованием хеш-суммы блока. Данная концепция
предполагает достаточно большие дополнительные расходы на хранение хеш-структур
(связка хеш-суммы блока со ссылкой на блок), например для хранения только хеш-структур в
памяти для 1 ТБ дедуплицированных данных понадобится 40 ГБ, при использовании
алгоритма хеширования MD5, с размером ссылки на блок 8 Б и размером блока в 1 кБ.
Проблема создания менее ресурсозатратной системы дедупликации крайне актуальна ввиду
постоянного увеличения объемов хранящихся данных.
Целью работы стала разработка и исследование модуля верификации блоков в системе
безхешевой дедупликации.