О трендах и товарном предложении на рынке средств резевного копирования
Лев Левин,
обозреватель PC Week/RE,
внештатный эксперт «Бестселлеров IT-рынка»
Первые дисковые массивы для резервного копирования (тогда они назывались «дисковыми библиотеки») вышли на рынок почти десять лет назад, когда благодаря внедрению технологии SATA появилась возможность строить большие дисковые массивы из относительно дешевых десктопных винчестеров и реализовать резервное копирование по схеме disk-to-disk (D2D). Хранение резервных копий на жестких дисках вместо ленты позволило существенно увеличить скорость как резервного копирования, так и восстановления данных, поскольку в отличие от ленты жесткий диск позволяет реализовать выборочную запись и чтение данных с носителя, что избавляет от присущих ленте как носителю с последовательным доступом задержек из-за необходимости перемотки. Потребность в увеличении скорости резервного копирования и восстановления резко возросла в последние годы в связи с массовым внедрением виртуализации, поскольку теперь от решений резервного копирования требуется обеспечить быстрое восстановление в случае сбоев сразу десятков и даже сотен виртуальных машин (серверов). Очевидно, что традиционные ленточные системы, рассчитанные на восстановление за несколько часов, неспособны справиться с этой задачей.
За прошедшее десятилетие системы D2D значительно улучшили свою производительность и функционал. Современные дисковые библиотеки строятся из 3,5-дюйм терабайтных дисков SATA (применять более дорогие SAS-диски, а тем более твердотельные диски для D2D не имеет смысла, поскольку это серьезно увеличит затраты на хранение резервных копий). Для надежности в дисковых библиотеках накопители чаще всего объединяются в RAID-массив шестого уровня, который обеспечивает сохранение данных даже в случае одновременного выхода из строя сразу двух дисков массива.
Дисковые библиотеки обладают полной совместимостью с наиболее распространенным программным обеспечением сетевого резервного копирования Symantec Backup Exec и NetBackup, CommVault Simpana, IBM Tivoli Storage Manager, CA ArcServe, что гарантирует успешное внедрение решений резервного копирования. Кроме того, EMC и HP являются не только производителями дисковых библиотек, но и ПО резервного копирования, поэтому они тесно интегрировали свои аппаратные решения D2D со своими пакетами программ EMC Networker и HP Data Protector. Компания Dell предлагает свои дисковые библиотеки PowerVault DL с уже инсталлированным и полностью настроенным Symantec Backup Exec и CommVault Simpana как решение для резервного копирования «под ключ», на развертывание которого уходит не более 25 мин.
По тому же пути недавно пошла и сама компания Symantec, выпустив аппаратные приставки Backup Exec 3600 и NetBackup 5220 с готовыми к использованию своими пакетами резервного копирования. Для Symantec эти приставки являются первыми в истории компании аппаратными продуктами для резервного копирования, и пока она продает их только в США и некоторых европейских странах.
Несмотря на постоянное уменьшение стоимости жестких дисков SATA в расчете на один гигабайт емкости, они оказываются дороже магнитной ленты. Эту разницу в стоимости хранения ленточных и дисковых библиотек должна существенно нивелировать активно продвигаемая с середины прошлого десятилетия технология дедупликации. Основная идея дедупликации — это сокращение размера емкости, которое занимают на дисках резервные копии, за счет устранения резервного копирования идентичных наборов данных. Например, если выполняется резервное копирование почтовых ящиков сотрудников одного отдела, то вполне вероятно, что у разных пользователей в их ящиках найдется много одинаковых писем. Еще один пример дубликатов — это образы виртуальных машин, где многие файлы, например, относящиеся к «гостевой» операционной системе, совпадают у разных виртуальных машин.
Разумеется, для реализации дедупликации на практике требуется решение, способное выявить такие дубликаты, и вместо того чтобы повторно записывать на диск какой-то набор данных, записать только указатель на уже записанную резервную копию, по которому при необходимости этот набор данных можно будет восстановить. Фирменные алгоритмы дедупликации разрабатывали ряд компаний-стартапов, часть из которых впоследствии были приобретены ведущими игроками рынка СХД. Эти алгоритмы стали главной интеллектуальной «начинкой» нового поколения дисковых библиотек, которое компания IDC определяет как специализированные приставки для резервного копирования (Purpose-Built Backup Appliance, PBBA). Последние усовершенствования технологии дедупликации связаны с появлением специальных программ-ускорителей, которые оптимизируют самую трудоемкую процедуру дедупликации, а именно, анализ поступающих резервных копий на наличие в них дубликатов уже записанных данных. Такие программы, распределяющие интенсивно загружающие процессоры операции поиска дубликатов по нескольким серверам, недавно были выпущены для EMC Data Domain и HP B6000.
Еще одна важная функция дисковых библиотек — это возможность удаленной репликации между ними резервных копий по сетям WAN. Реализация этой функции обеспечивает катастрофоустойчивость резервного копирования, т. е. восстановление данных по резервным копиям в случае длительного выхода из строя дата-центра, где установлена основная дисковая библиотека. В мире ленточных систем для катастрофоустойчивости применяется хранение лент с резервными копиями в удаленном хранилище, однако такой подход не позволяет быстро восстановить данные (при восстановлении после катастрофы много времени уйдет на доставку ленты из удаленного хранилища), и, кроме того, создает риск потери лент с конфиденциальной информацией при их транспортировке в хранилище. Еще одно применение удаленной репликации — это централизация резервного копирования в компаниях с территориально-распределенной структурой. В филиалах таких компаний можно установить дисковые библиотеки начального уровня, с которых резервные копии по WAN будут реплицироваться на дисковую библиотеку корпоративного класса, развернутую в центральном офисе.
По данным IDC, в прошлом году было продано PBBA на сумму 2,4 млрд долл., причем более половины этой суммы (65,5%) пришлось на долю EMC, за которой следуют IBM и HP с долями 15,3 и 4,1% соответственно. IDC прогнозирует, что вплоть до 2016 г. продажи PBBA будут расти быстро, со средним темпом почти 20% в год.
Основные показатели для оценки производительности дисковых библиотек — это емкость и быстродействие. Говоря о емкости, следует различать физическую, полезную и логическую емкости. Первый показатель — это суммарная емкость установленных в системе жестких дисков, вторая — это физическая емкость минус емкость дисков, которые используются для хранения служебной информации RAID-массива (битов четности, по которым можно восстановить данные, если выйдет из строя один из основных дисков массива) либо зеркалирования. Наконец, логическая емкость — это полезная, помноженная на коэффициент дедупликации, который сильно зависит как от самих дедуплицируемых данных, так и от частоты резервного копирования. Для корректного сравнения продуктов разных вендоров нужно использовать два последних показателя емкости, однако не все вендоры указывают полезную емкость. Например, в документации EMC приведена только логическая емкость систем Data Domain, которая получена при обработке «резервного копирования типичных корпоративных данных (файловых серверов, баз данных, электронной почты, файлов разработчиков)».
Большинство дисковых библиотек — это приставки, разработанные на базе стоечных одно- или двухпроцессорных серверов стандартной архитектуры со встроенным RAID-массивом. Для расширения емкости к приставкам можно подключать внешние дисковые полки либо классическую ленточную библиотеку, на которую с дисков периодически переписываются старые резервные копии.
На сегодняшний день наиболее мощной линейкой дисковых библиотек, включающей модели, рассчитанные как на СМБ, так и корпоративный сектор, обладает компания EMC. Успех EMC объясняется не только активным маркетингом решений Data Domain, но и тем обстоятельством, что в отличие от других вендоров PBBA эта компания не предлагает ленточные системы, поэтому она смогла агрессивно продвигать Data Domain как замену устаревшим (по ее мнению) системам резервного копирования на базе ленточных библиотек.
Приставка IBM TS7600 использует технологии фирмы ProtecTIER, которую IBM купила в 2009 г. По оценкам IDC, хотя продажи IBM TS7600 в несколько раз меньше, чем EMC Data Domain, зато IBM доминирует в секторе PBBA для мэйнфреймов. У EMC есть собственная дисковая библиотека для мэйнфреймов, однако ей трудно конкурировать в этом секторе с IBM, которая является единственным производителем серверов этого класса.
Компания HP не стала приобретать разработчика средств дедупликации, а сделала ставку на ресурсы своего научно-исследовательского отдела HP Labs. В результате компания несколько позже основных конкурентов вывела на рынок собственную технологию дедупликации StoreOnce, которая сейчас используется во всей ее линейке дисковых библиотек, начиная от системы младшего класса D2D 2500 и кончая системой корпоративного уровня B6200. Однако НР утверждает, что ее StoreOnce более эффективно и быстрее выявляет дубликаты, чем EMC Data Domain, особенно при резервном копировании больших объемов данных.
По оценкам IDC, на долю Dell пока приходится только 1% мирового рынка PBBA (ранее компания поставляла своим заказчикам DataDomain, но затем отказалась от этого продукта в связи с прекращением OEM-партнерства с EMC), однако этот вендор активно расширяет свой продуктовый портфель дисковых библиотек.
Полная электронная версия этой статьи доступна только для подписчиков. Для получения полной электронной версии статьи сейчас Вы можете оформить запрос.