Системы хранения данных - краткий обзор. Системы хранения данных от серверного интегратора Классификация систем хранения данных

Системы хранения данных - краткий обзор. Системы хранения данных от серверного интегратора Классификация систем хранения данных

Каково назначение систем хранения данных (СХД)?

Системы хранения данных предназначены для безопасного и отказоустойчивого хранения обрабатываемых данных с возможностями быстрого восстановления доступа к данным в случае сбоя в работе системы.

Какие основные разновидности СХД?

По типу реализации СХД делятся на аппаратные и программные. По области применения СХД делятся на индивидуальные, для малых рабочих групп, для рабочих групп, для предприятий, корпоративные. По типу подключения СХД делятся на:

1. DAS (Direct Attached Storage — системы с прямым подключением)

Особенностью данного типа систем является то, что контроль за доступом к данным для устройств, подключенных к сети, осуществляется сервером или рабочей станцией, к которой подключено хранилище.

2. NAS (Network Attached Storage — системы, подключаемые к ЛВС)

В данном типе систем доступ к информации, размещенной в хранилище, контролируется программным обеспечением, которое работает в самом хранилище.

3. SAN (Storage Attached Network — системы, представляющие собой сеть между серверами, которые обрабатывают данные и, собственно, СХД);

При таком способе построения системы хранения данных контроль за доступом к информации осуществляется программным обеспечением, работающим на серверах СХД. Через коммутаторы SAN производится подключение хранилища к серверам по высокопроизводительным протоколам доступа (Fibre channel, iSCSI, ATA over ethernet, и т.п.)

Каковы особенности программной и аппаратной реализации СХД?

Аппаратная реализация СХД представляет собой единый аппаратный комплекс, состоящий из устройства хранения (представляющего собой диск или массив дисков, на которых данные физически хранятся), и устройства управления (контроллер, занимающийся распределением данных между элементами хранилища).

Программная реализация СХД представляет собой распределенную систему, в которой данные хранятся без привязки к какому-либо конкретному хранилищу или серверу, и доступ к данным осуществляется посредством специализированного ПО, которое отвечает за сохранность и безопасность хранимых данных).

Начинаем новую рубрику под названием «Ликбез». Здесь будут описываться, казалось бы, всем хорошо известные вещи, но, как часто оказывается — не всем, и не настолько хорошо. Надеемся, что рубрика будет полезной.

Итак, выпуск №1 – «Системы хранения данных».

Системы хранения данных.

По-английски они называются одним словом – storage, что очень удобно. Но на русский это слово переводится довольно коряво – «хранилище». Часто на слэнге «ИТ-шников» используют слово «сторадж» в русской транскрипции, или слово «хранилка», но это уже совсем моветон. Поэтому будем использовать термин «системы хранения данных», сокращенно СХД, или просто «системы хранения».

К устройствам хранения данных можно отнести любые устройства для записи данных: т.н. «флешки», компакт-диски (CD, DVD, ZIP), ленточные накопители (Tape), жесткие диски (Hard disk, их еще называют по старинке «винчестеры», поскольку первые их модели напоминали обойму с патронами одноименной винтовки 19 века) и пр. Жесткие диски используются не только внутри компьютеров, но и как внешние USB-устройства записи информации, и даже, например, одна из первых моделей iPod’а – это небольшой жесткий диск диаметром 1,8 дюйма, с выходом на наушники и встроенным экраном.

В последнее время все большую популярность набирают т.н. «твердотельные» системы хранения SSD (Solid State Disk, или Solid State Drive), которые по принципу действия схожи с «флешкой» для фотоаппарата или смартфона, только имеют контроллер и больший объем хранимых данных. В отличие от жесткого диска, SSD-диск не имеет механически движущихся частей. Пока цены на такие системы хранения достаточно высоки, но быстро снижаются.

Все это – потребительские устройства, а среди промышленных систем следует выделить, прежде всего, аппаратные системы хранения: массивы жестких дисков, т.н. RAID-контроллеры для них, ленточные системы хранения для долговременного хранения данных. Кроме того, отдельный класс: контроллеры для систем хранения, для управления резервированием данных, создания «мгновенных снимков» (Snapshot) в системе хранения для последующего их восстановления, репликации данных и т.д.). В системы хранения данных также входят сетевые устройства (HBА, коммутаторы Fiber Channel Switch, кабели FC/SAS и пр.). И, наконец, разработаны масштабные решения по хранению данных, архивации, восстановления данных и устойчивости к катастрофам (disater recovery).

Откуда берутся данные, которые необходимо хранить? От нас, любимых, пользователей, от прикладных программ, электронной почты, а также от различного оборудования – файловых серверов, и серверов баз данных. Кроме того, поставщик большого количества данных – т.н. устройства М2М (Machine-to-Machine communication) – разного рода датчики, сенсоры, камеры и пр.

По частоте использования хранимых данных, СХД можно подразделить на системы краткосрочного хранения (online storage), хранения средней продолжительности (near-line storage) и системы долговременного хранения (offline storage).

К первым можно отнести жесткий диск (или SSD) любого персонального компьютера. Ко вторым и третьим – внешние системы хранения DAS (Direct Attached Storage), которые могут представлять собой массив внешних, по отношению к компьютеру, дисков (Disk Array). Их, в свою очередь также можно подразделить на «просто массив дисков» JBOD (Just a Bunch Of Disks) и массив с управляющим контроллером iDAS (intelligent disk array storage).

Внешние системы хранения бывают трех типов DAS (Direct Attached Storage), SAN (Storage Area Network) и NAS (Network attached Storage). К сожалению, даже многие опытные ИТ-шники не могут объяснить разницу между SAN и NAS, говоря, что когда-то эта разница была, а теперь – ее, якобы, уже и нет. На самом деле, разница есть, и существенная (см. рис. 1).

Рисунок 1. Различие между SAN и NAS.

В SAN с системой хранения связаны фактически сами серверы через сеть области хранения данных SAN. В случае NAS – сетевые серверы связаны через локальную сеть LAN с общей файловой системой в RAID.

Основные протоколы подключения СХД

Протокол SCSI (Small Computer System Interface), произносится как «скáзи», протокол, разработанный в середине 80-х годов для подключения внешних устройств к мини-компьютерам. Его версия SCSI-3 является основой для всех протоколов связи систем хранения данных и использует общую систему команд SCSI. Его основные преимущества: независимость от используемого сервера, возможность параллельной работы нескольких устройств, высокая скорость передачи данных. Недостатки: ограниченность числа подключенных устройств, дальность соединения сильно ограничена.

Протокол FC (Fiber Channel), внутренний протокол между сервером и совместно используемой СХД, контроллером, дисками. Это широко используемый протокол последовательной связи, работающий на скоростях 4 или 8 Гигабит в секунду (Gbps). Он, как явствует из его названия, работает через оптоволокно (fiber), но и по меди тоже может работать. Fiber Channel – основной протокол для систем хранения FC SAN.

Протокол iSCSI (Internet Small Computer System Interface), стандартный протокол для передачи блоков данных поверх широко известного протокола TCP/IP т.е. «SCSI over IP». iSCSI может рассматриваться как высокоскоростное недорогое решение для систем хранения, подключаемых удаленно, через Интернет. iSCSI инкапсулирует команды SCSI в пакеты TCP/IP для передачи их по IP-сети.

Протокол SAS (Serial Attached SCSI). SAS использует последовательную передачу данных и совместим с жесткими дисками SATA. В настоящий момент SAS может передавать данные со скоростью 3 Гбит/с или 6 Гбит/с, и поддерживает режим полного дуплекса, т.е. может передавать данные в обе стороны с одинаковой скоростью.

Типы систем хранения.

Можно различить три основных типа систем хранения:

  • DAS (Direct Attached Storage)
  • NAS (Network attached Storage)
  • SAN (Storage Area Network)

СХД c непосредственном подключением дисков DAS были разработаны еще в конце 70-х годов, вследствие взрывного увеличения пользовательских данных, которые уже просто физически не помещались во внутренней долговременной памяти компьютеров (для молодых сделаем примечание, что здесь речь идет не о персоналках, их тогда еще не было, а больших компьютерах, т.н. мейнфреймах). Скорость передачи данных в DAS была не очень высокой, от 20 до 80 Мбит/с, но для тогдашних нужд её вполне хватало.

Рисунок 2. DAS

СХД с сетевым подключением NAS появились в начале 90-х годов. Причиной стало быстрое развитие сетей и критические требования к совместному использованию больших массивов данных в пределах предприятия или сети оператора. В NAS использовалась специальная сетевая файловая система CIFS (Windows) или NFS (Linux), поэтому разные серверы разных пользователей могли считывать один и тот же файл из NAS одновременно. Скорость передачи данных была уже повыше: 1 – 10 Гбит/с.

Рисунок 3. NAS

В середине 90-х появились сети для подключения устройств хранения FC SAN. Их разработка была вызвана необходимостью организации разбросанных по сети данных. Одно устройство хранения в SAN может быть разбито на несколько небольших узлов, называемых LUN (Logical Unit Number), каждый из которых принадлежит одному серверу. Скорость передачи данных возросла до 2-8 Гбит/с. Такие СХД могли обеспечивать технологии защиты данных от потерь (snapshot, backup).

Рисунок 4. FC SAN

Другая разновидность SAN – IP SAN (IP Storage Area Network), разработанная в начале 2000-х годов. FC SAN были дороги, сложны в управлении, а сети протокола IP находились на пике развития, поэтому и появился этот стандарт. СХД подключались к серверам при помощи iSCSI-контроллера через IP-коммутаторы и обеспечивали скорость передачи данных 1 – 10 Гбит/с.

Рис.5. IP SAN.

В таблице ниже показаны некоторые сравнительные характеристики всех рассмотренных систем хранения:

Тип NAS SAN
Параметр FC SAN IP SAN DAS
Тип передачи SCSI, FC, SAS FC IP IP
Тип данных Блок данных Файл Блок данных Блок данных
Типичное приложение Любое Файл-сервер Базы данных Видео-наблюдение
Преимущество Превосходная совместимость Легкость установки, низкая стоимость Хорошая масштаби-руемость Хорошая масштаби-руемость
Недостатки Трудность управления.

Неэффективное использование ресурсов. Плохая масштабиру-емость

Низкая производительность.

Ограничения в применимости

Высокая стоимость.

Сложность конфигурации масштабирования

Низкая производи-тельность

Кратко, SAN предназначены для передачи массивных блоков данных в СХД, в то время как NAS обеспечивают доступ к данным на уровне файлов. Комбинацией SAN + NAS можно получить высокую степень интеграции данных, высокопроизводительный и совместный доступ к файлам. Такие системы получили название unified storage – «унифицированные системы хранения».

Унифицированные системы хранения: архитектура сетевых СХД, которая поддерживает как файлово-ориентированную систему NAS, так и блоко-ориентированную систему SAN. Такие системы были разработаны в начале 2000-х годов с целью разрешить проблемы администрирования и высокой суммарной стоимости владения раздельными системами на одном предприятии. Эта СХД поддерживает практически все протоколы: FC, iSCSI, FCoE, NFS, CIFS.

Жесткие диски

Все жесткие диски можно подразделить на два основных типа: HDD (Нard Disk Drive, что, собственно, и переводится как «жесткий диск») и SSD (Solid State Drive, – т.н. «твердотельный диск»). То есть, и тот и другой диск – жесткие. Что же тогда «мягкий диск», такие вообще бывают? Да, в прошлом были, назывались «флоппи-диски» (так их прозвали из-за характерного “хлопающего” звука в дисководе при работе). Приводы для них ещё можно увидеть в системных блоках старых компьютеров, которые сохранились в некоторых госучреждениях. Однако, при всем желании, такие магнитные диски их вряд ли можно отнести к СИСТЕМАМ хранения. Это были некие аналоги теперешних «флешек», хотя и очень небольшой ёмкости.

Различие HDD и SSD в том, что HDD имеет внутри несколько соосных магнитных дисков и сложную механику, перемещающую магнитные головки считывания-записи, а SSD совсем не имеет механически движущихся частей, и представляет собой, по сути, микросхему, запрессованную в пластик. Поэтому называть «жесткими дисками» только HDD, строго говоря, некорректно.

Жесткие диски можно классифицировать по следующим параметрам:

  • Конструктивное исполнение: HDD, SSD;
  • Диаметру HDD в дюймах: 3.5 , 2.5, 1.8 дюйма;
  • Интерфейсу: ATA/IDE, SATA/NL SAS, SCSI, SAS, FC
  • Классу использования: индивидуальные (desktop class), корпоративные (enterprsie class).
Параметр SATA SAS NL-SAS SSD
Скорость вращения (RPM) 7200 15000/10000 7200 NA
Типичная ёмкость (TБ) 1T/2T/3T 0.3T/0.6T/0.9T 2T/3T/4T 0.1T/0.2T/0.4T
MTBF (час) 1 200 000 1 600 000 1 200 000 2 000 000
Примечания Развитие жестких дисков ATA с последовательной передачей данных.

SATA 2.0 поддерживает скорости передачи 300MБ/с, SATA3.0 поддерживает до 600MБ/с.

Среднегодовой % отказов AFR (Annualized Failure Rate) для дисков SATA – около 2%.

Жесткие диски SATA с интерфейсом SAS подходят для иерархических (tiering). Среднегодовой % отказов AFR (Annualized Failure Rate) для дисков NL-SAS около 2%. Твердотельные диски выполненные из электронных микросхем памяти, включая устройство управления и чип (FLASH/DRAM). Спецификация интерфейса, функции и метод использования такие же, как у HDD, размер и форма – тоже.

Характеристики жестких дисков.

  • Ёмкость

В современных жестких дисках емкость измеряется в гигабайтах или терабайтах. Для HDD эта величина кратна ёмкости одного магнитного диска внутри коробки, умноженной на число магнитных, которых обычно бывает несколько.

  • Скорость вращения (только для HDD)

Скорость вращения магнитных дисков внутри привода, измеряется в оборотах в минуту RPМ (Rotation Per Minute), обычно составляет 5400 RPM или 7200 RPM. HDD с интерфейсами SCSI/SAS имеют скорость вращения 10000-15000 RPM.

  • Среднее время доступа = Среднее время поиска (Mean seek time) + Среднее время ожидания (Mean wait time), т.е. время извлечения информации с диска.
  • Скорость передачи данных

Это скорости считывания и записи данных на жестком диске, измеряемая в мегабайтах в секунду (MB/S).

  • IOPS (Input/Output Per Second)

Число операций ввода-вывода (или чтения-записи) в секунду (Input/Output Operations Per Second), один из основных индикаторов измерения производительности диска. Для приложений с частыми операциями чтения и записи, таких как OLTP (Online Transaction Processing) – онлайн-обработка транзакций, IOPS – самый важный показатель, т.к. именно от него зависит быстродействие бизнес-приложения. Другой важный показатель – data throughput, что примерно можно перевести как «пропускная способность передачи данных», что показывает, какой объем данных можно передать за единицу времени.

RAID

Как бы ни были надёжны жесткие диски, а все же данные в них иногда теряются, по разным причинам. Поэтому была предложена технология RAID (Redundant Array of Independent Disks) – массив независимых дисков с избыточностью хранения данных. Избыточность означает то, что все байты данных при записи на один диск дублируются на другом диске, и могут быть использованы в том случае, если первый диск откажет. Кроме того, эта технология помогает увеличить IOPS.

Основные понятия RAID – stripping (т.н. «располосование» или разделение) и mirroring (т.н. «зеркалирование», или дублирование) данных. Их сочетания определяют различные виды RAID-массивов жестких дисков.

Различают следующие уровни RAID-массивов:

Комбинации этих видов порождают еще несколько новых видов RAID:

Рисунок поясняет принцип выполнения RAID 0 (разделение):

Рис. 6. RAID 0.

А так выполняется RAID 1 (дублирование):

Рис. 7. RAID 1.

А вот так работает RAID 3. XOR – логическая функция “исключающее ИЛИ” (eXclusive OR). При помощи неё вычисляется значение паритета для блоков данных A, B, C, D… , который записывается на отдельный диск.

Рис. 8. RAID 3.

Вышеприведенные схемы хорошо иллюстрируют принцип действия RAID и в комментариях не нуждаются. Мы не будем приводить схемы работы остальных уровней RAID, желающие могут их найти в Интернете.

Основные характеристики видов RAID приведены в таблице.

Программное обеспечение систем хранения

Программное обеспечение для систем хранения можно подразделить на следующие категории:

  1. Управление и администрирование (Management): управление и задание параметров инфраструктуры: вентиляции, охлаждения, режимы работы дисков и пр., управление по времени суток и пр.
  2. Защита данных: Snapshot («моментальный снимок» состояния диска), копирование содержимого LUN, множественное дублирование (split mirror), удаленное дублирование данных (Remote Replication), непрерывная защита данных CDP (Continuous Data Protection) и др.
  3. Повышение надежности: различное ПО для множественного копирования и резервирования маршрутов передачи данных внутри ЦОД и между ними.
  4. Повышение эффективности: Технология тонкого резервирования (Thin Provisioning), автоматическое разделение системы хранения на уровни (tiered storage), устранение повторений данных (deduplication), управление качеством сервиса, предварительное извлечение из кэш-памяти (cache prefetch), разделение данных (partitioning), автоматическая миграция данных, снижение скорости вращения диска (disk spin down)

Очень интересна технология «thin provisioning ». Как это часто бывает в ИТ, термины часто трудно поддаются адекватному переводу на русский язык, например, трудно точно перевести слово «provisioning» («обеспечение», «поддержка», «предоставление» – ни один из этих терминов не передает смысл полностью). А уж когда оно – «тонкое» (thin)…

Для иллюстрации принципа «thin provisioning», можно привести банковский кредит. Когда банк выпускает десять тысяч кредитных карт с лимитом в 500 тысяч, ему не нужно иметь на счету 5 миллиардов, чтобы этот объем кредитов обслуживать. Пользователи кредитных карт обычно не тратят весь кредит сразу, и используют лишь его малую часть. Тем не менее, каждый пользователь в отдельности может воспользоваться всей или почти всей суммой кредита, если общий объем средств банка не исчерпан.

Рис. 9. Thin provisioning .

Таким образом, использование thin provisioning позволяет решить проблему неэффективного распределения пространства в SAN, сэкономить место, облегчить административные процедуры распределения пространства приложениям на хранилище, и использовать так называемый oversubscribing, то есть выделить приложениям места больше, чем мы располагаем физически, в расчете на то, что приложения не затребуют одновременно все пространство. По мере же возникновения в нем потребности позже возможно увеличить физическую емкость хранилища.

Разделение системы хранения на уровни (tiered storage) предполагает, что различные данные хранятся в устройствах хранения, быстродействие которых соответствует частоте обращения к этим данным. Например, часто используемые данные можно размещать в «online storage» на дисках SSD с высокой скоростью доступа, высокой производительностью. Однако, цена таких дисков пока высока, поэтому их целесообразно использовать только для online storage (пока).

Скорость дисков FC/SAS также достаточно высока, а цена умерена. Поэтому такие диски хорошо походят для «near-line storage», где хранятся данные, обращения к которым происходят не так часто, но в то же время и не так редко.

Наконец, диски SATA/NL-SAS имеют относительно невысокую скорость доступа, но зато отличаются большой емкостью и относительно дешевы. Поэтому на них обычно делают offline storage, для данных редкого использования.

Как только система управления замечает, что обращения к данным в offline storage участились, она переводит их в near-line storage, а при дальнейшей активизации их использования – и в online storage на дисках SSD.

Дедупликация (устранение повторений) данных (deduplication, DEDUP). Как следует из названия, дедупликация устраняет повторы данных на пространстве диска, обычно используемого в части резервирования данных. Хотя система неспособна определить, какая информация избыточна, она может определить наличие повторов данных. За счет этого становится возможным значительно сократить требования к емкости системы резервирования.

Снижение скорости вращения диска (Disk spin-down ) – то, что обычно называют «гибернацией» (засыпанием) диска. Если данные на каком-то диске не используются долгое время, то Disk spin-down переводит его в режим гибернации, чтобы снизить потребление энергии на бесполезное вращение диска на обычной скорости. При этом также повышается срок службы диска и увеличивается надежность системы в целом. При поступлении нового запроса к данным на этом диске, он «просыпается» и скорость его вращения увеличивается до обычной. Платой за экономию энергии и повышение надежности является некоторая задержка при первом обращении к данным на диске, но эта плата вполне оправдана.

«Моментальный снимок» состояния диска (Snapshot ). Snapshot – это полностью пригодная к использованию копия определенного набора данных на диске на момент съёма этой копии (поэтому она и называется «моментальным снимком»). Такая копия используется для частичного восстановления состояния системы на момент копирования. При этом непрерывность работы системы совершенно не затрагивается, и быстродействие не ухудшается.

Удаленная репликация данных (Remote Replication) : работает с использованием технологии зеркалирования (Mirroring). Может поддерживать несколько копий данных на двух или более сайтах для предотвращения потери данных в случае стихийных бедствий. Существует два типа репликации: синхронная и асинхронная, различие между ними пояснено на рисунке.

Рис. 10. Удаленная репликация данных (Remote Replication).

Непрерывная защита данных CDP (Continuous data protection) , также известная как continuous backup или real-time backup, представляет собой создание резервной копии автоматически при каждом изменении данных. При этом становится возможным восстановление данных при любых авариях в любой момент времени, причем при этом доступны актуальная копия данных, а не тех, что были несколько минут или часов назад.

Программы управления и администрирования (Management Software): сюда входит разнообразное программное обеспечение по управлению и администрированию различных устройств: простые программы конфигурации (cofiguration wizards), программы централизованного мониторинга: отображение топологии, мониторинг в реальном времени механизмы формирования отчетов о сбоях. Также сюда входят программы «гарантии непрерывности бизнеса» (Business Guarantee): многоразмерная статистика производительности, отчеты и запросы производительности и пр.

Восстановление при стихийных бедствиях (DR, Disaster Recovery) . Это довольно важная составляющая серьезных промышленных СХД, хотя и достаточно затратная. Но эти затраты необходимо нести, чтобы не потерять в одночасье «то, что нажито непосильным трудом». Рассмотренные выше системы защиты данных (Snapshot, Remote Replication, CDP) хороши до тех пор, пока в населённом пункте, где расположена система хранения не произошло какое-либо стихийное бедствие: цунами, наводнение, землетрясение или (тьфу-тьфу-тьфу) – ядерная война. Да и любая война тоже способна сильно подпортить жизнь людям, которые занимаются полезными делами, например, хранением данных, а не беганием с автоматом с целью оттяпать себе чужие территории или наказать каких-нибудь «неверных». Удаленная репликация подразумевает, что реплицирующая СХД находится в том же самом городе, или как минимум поблизости. Что, например, при цунами не спасает.

Технология Disaster Recovery предполагает, что центр резервирования, используемый для восстановления данных при стихийных бедствиях, располагается на значительном удалении от места основного ЦОД, и взаимодействует с ним по сети передачи данных, наложенной на транспортную сеть, чаще всего оптическую. Использовать при таком расположении основного и резервного ЦОД, например, технологию CDP будет просто невозможно технически.

В технологии DR используются три основополагающих понятия:

  • BW (Backup Window) – «окно резервирования», время, необходимое для системы резервирования для того, чтобы скопировать принятый объем данных рабочей системы.
  • RPO (Recovery Point Objective) – «Допустимая точка восстановления», максимальный период времени и соответствующий объем данных, который допустимо потерять для пользователя СХД.
  • RTO (Recovery Time Objective) – «допустимое время недоступности», максимальное время, в течение которого СХД может быть недоступной, без критического воздействия на основной бизнес.

Рис. 11. Три основополагающих понятия технологии DR.

* * *

Данное эссе не претендует на полноту изложения и лишь поясняет основные принципы работы СХД, хотя и далеко не в полном объеме. В различных источниках в Интернете содержится много документов, более подробно описывающих все изложенные (и не изложенные) здесь моменты.

Продолжение темы СХД об объектных системах хранения – .

В данной статье, мы рассмотрим, какие виды систем хранения данных (СХД) на сегодняшнее время существуют, так же рассмотрю одни из основных компонентов СХД – внешние интерфейсы подключения (протоколы взаимодействия) и накопители, на которых хранятся данные. Так же проведем их общее сравнение по предоставляемым возможностям. Для примеров мы буду ссылаться на линейку СХД, представляемую компанией DELL.

  • Примеры моделей DAS
  • Примеры моделей NAS
  • Примеры моделей SAN
  • Типы носителей информации и протокол взаимодействия с системами хранения данных Протокол Fibre Channel
  • Протокол iSCSI
  • Протокол SAS
  • Сравнение протоколов подключения систем хранения данных

Существующие типы систем хранения данных

В случае отдельного ПК под системой хранения данных можно понимать внутренний жесткий диск или систему дисков (RAID массив). Если же речь заходит о системах хранения данных разного уровня предприятий, то традиционно можно выделить три технологии организации хранения данных:

  • Direct Attached Storage (DAS);
  • Network Attach Storage (NAS);
  • Storage Area Network (SAN).

Устройства DAS (Direct Attached Storage) – решение, когда устройство для хранения данных подключено непосредственно к серверу, или к рабочей станции, как правило, через интерфейс по протоколу SAS.

Устройства NAS (Network Attached Storage) – отдельно стоящая интегрированная дисковая система, по-сути, NAS-cервер, со своей специализированной ОС и набором полезных функций быстрого запуска системы и обеспечения доступа к файлам. Система подключается к обычной компьютерной сети (ЛВС), и является быстрым решением проблемы нехватки свободного дискового пространства, доступного для пользователей данной сети.

Storage Area Network (SAN) –это специальная выделенная сеть, объединяющая устройства хранения данных с серверами приложений, обычно строится на основе протокола Fibre Channel или протокола iSCSI.

Теперь давайте более детально рассмотрим каждый из приведенных выше типов СХД, их положительные и отрицательные стороны.

Архитектура системы хранения DAS (Direct Attached Storage)

К основным преимуществам DAS систем можно отнести их низкую стоимость (в сравнении с другими решениями СХД), простоту развертывания и администрирования, а также высокую скорость обмена данными между системой хранения и сервером. Собственно, именно благодаря этому они завоевали большую популярность в сегменте малых офисов, хостинг-провайдеров и небольших корпоративных сетей. В то же время DAS-системы имеют и свои недостатки, к которым можно отнести неоптимальную утилизацию ресурсов, поскольку каждая DAS система требует подключения выделенного сервера и позволяет подключить максимум 2 сервера к дисковой полке в определенной конфигурации.

Рисунок 1: Архитектура Direct Attached Storage

  • Достаточно низкая стоимость. По сути эта СХД представляет собой дисковую корзину с жесткими дисками, вынесенную за пределы сервера.
  • Простота развертывания и администрирования.
  • Высокая скорость обмена между дисковым массивом и сервером.
  • Низкая надежность. При выходе из строя сервера, к которому подключено данное хранилище, данные перестают быть доступными.
  • Низкая степень консолидации ресурсов – вся ёмкость доступна одному или двум серверам, что снижает гибкость распределения данных между серверами. В результате необходимо закупать либо больше внутренних жестких дисков, либо ставить дополнительные дисковые полки для других серверных систем
  • Низкая утилизация ресурсов.

Примеры моделей DAS

Из интересных моделей устройств этого типа хотелось бы отметить модельный ряд DELL PowerVaultсерии MD. Начальные модели дисковых полок (JBOD) MD1000 и MD1120 позволяют создавать дисковые массивы c количеством диском до 144-х. Это достигается за счет модульности архитектуры, в массив можно подключить вплоть до 6 устройств, по три дисковых полки на каждый канал RAID-контроллера. Например, если использовать стойку из 6 DELL PowerVault MD1120, то реализуем массив с эффективным объемом данных 43,2 ТБ. Подобные дисковые полки подключаются одним или двумя кабелями SAS к внешним портам RAID-контроллеров, установленных в серверах Dell PowerEdge и управляются консолью управления самого сервера.

Если же есть потребность в создании архитектуры с высокой отказоустойчивостью, например, для создания отказоустойчивого кластера MS Exchange, SQL-сервера, то для этих целей подойдет модельDELL PowerVault MD3000. Это система уже имеет активную логику внутри дисковой полки и полностью избыточна за счет использования двух встроенных контроллеров RAID, работающих по схеме «актвиный-активный» и имеющих зеркалированную копию буферизованных в кэш-памяти данных.

Оба контроллера параллельно обрабатывают потоки чтения и записи данных, и в случае неисправности одного из них, второй «подхватывает» данные с соседнего контроллера. При этом подключение к низко уровнему SAS-контроллеру внутри 2-х серверов (кластеру) может производиться по нескольким интерфейсам (MPIO), что обеспечивает избыточность и балансировку нагрузки в средах Microsoft. Для наращивания дискового пространства к PowerVault MD3000 можно подключить 2-е дополнительные дисковые полки MD1000.

Архитектура системы хранения NAS (Network Attached Storage)

Технология NAS (сетевые подсистемы хранения данных, Network Attached Storage) развивается как альтернатива универсальным серверам, несущим множество функций (печати, приложений, факс сервер, электронная почта и т.п.). В отличие от них NAS-устройства исполняют только одну функцию — файловый сервер. И стараются сделать это как можно лучше, проще и быстрее.

NAS подключаются к ЛВС и осуществляют доступ к данным для неограниченного количества гетерогенных клиентов (клиентов с различными ОС) или других серверов. В настоящее время практически все NAS устройства ориентированы на использование в сетях Ethernet (Fast Ethernet, Gigabit Ethernet) на основе протоколов TCP/IP. Доступ к устройствам NAS производится с помощью специальных протоколов доступа к файлам. Наиболее распространенными протоколами файлового доступа являются протоколы CIFS, NFS и DAFS. Внутри подобных серверов стоят специализированные ОС, такие как MS Windows Storage Server.

Рисунок 2: Архитектура Network Attached Storage

  • Дешевизна и доступность его ресурсов не только для отдельных серверов, но и для любых компьютеров организации.
  • Простота коллективного использования ресурсов.
  • Простота развертывания и администрирования
  • Универсальность для клиентов (один сервер может обслуживать клиентов MS, Novell, Mac, Unix)
  • Доступ к информации через протоколы “сетевых файловых систем” зачастую медленнее, чем как к локальному диску.
  • Большинство недорогих NAS-серверов не позволяют обеспечить скоростной и гибкий метод доступа к данным на уровне блоков, присущих SAN системам, а не на уровне файлов.

Примеры моделей NAS

В настоящий момент классические NAS решения, такие как PowerVault NF100/500/600 . Это системы на базе массовых 1 и 2-х процессорных серверов Dell, оптимизированных для быстрого развертывания NAS-сервисов. Они позволяют создавать файловое хранилище вплоть до 10 ТБ (PowerVault NF600) используя SATA или SAS диски, и подключив данный сервер к ЛВС. Также имеются и более высокопроизводительные интегрированные решение, например PowerVault NX1950 , вмещающие в себя 15 дисков и расширяемые до 45 за счет подключения дополнительных дисковых полок MD1000.

Серьезным преимуществом NX1950 является возможность работать не только с файлами, но и с блоками данных на уровне протокола iSCSI. Также разновидность NX1950 может работать как «гейтвэй», позволяющий организовать файловый доступ к СХД на базе iSCSI (c блочным методом доступа), например MD3000i или к Dell EqualLogic PS5x00.

Архитектура системы хранения SAN (Storage Area Network)

Storage Area Network (SAN) — это специальная выделенная сеть, объединяющая устройства хранения данных с серверами приложений, обычно строится на основе протокола Fibre Channel, либо на набирающем обороты протоколу iSCSI. В отличие от NAS, SAN не имеет понятия о файлах: файловые операции выполняются на подключенных к SAN серверах. SAN оперирует блоками, как некий большой жесткий диск. Идеальный результат работы SAN — возможность доступа любого сервера под любой операционной системой к любой части дисковой емкости, находящейся в SAN. Оконечные элементы SAN — это серверы приложений и системы хранения данных (дисковые массивы, ленточные библиотеки и т. п.). А между ними, как и в обычной сети, находятся адаптеры, коммутаторы, мосты, концентраторы. ISCSI является более «дружелюбным» протоколом, поскольку он основан на использовании стандартной инфраструктуры Ethernet – сетевых карт, коммутаторов, кабелей. Более того, именно системы хранения данных на базе iSCSI являются наиболее популярными для виртуализированных серверов, в силу простоты настройки протокола.

Рисунок 3: Архитектура Storage Area Network

  • Высокая надёжность доступа к данным, находящимся на внешних системах хранения. Независимость топологии SAN от используемых СХД и серверов.
  • Централизованное хранение данных (надёжность, безопасность).
  • Удобное централизованное управление коммутацией и данными.
  • Перенос интенсивного трафика ввода-вывода в отдельную сеть, разгружая LAN.
  • Высокое быстродействие и низкая латентность.
  • Масштабируемость и гибкость логической структуры SAN
  • Возможность организации резервных, удаленных СХД и удаленной системы бэкапа и восстановления данных.
  • Возможность строить отказоустойчивые кластерные решения без дополнительных затрат на базе имеющейся SAN.
  • Более высокая стоимость
  • Сложность в настройке FC-систем
  • Необходимость сертификации специалистов по FC-сетям (iSCSI является более простым протоколом)
  • Более жесткие требования к совместимости и валидации компонентов.
  • Появление в силу дороговизны DAS-«островов» в сетях на базе FC-протокола, когда на предприятиях появляются одиночные серверы с внутренним дисковым пространством, NAS-серверы или DAS-системы в силу нехватки бюджета.

Примеры моделей SAN

В настоящий момент имеется достаточно большой выбор дисковых массивов для построения SAN, начиная от моделей для малых и средних предприятий, такие как серия DELL AX, которые позволяют создавать хранилища емкостью до 60 Тбайт, и заканчивая дисковыми массивами для больших корпораций DELL/EMC серии CX4, они позволяют создать хранилища емкостью до 950 Тб. Есть недорогое решение на основе iSCSI, это PowerVault MD3000i – решение позволяет подключать до 16-32 серверов, в одно устройство можно установить до 15 дисков, и расширить систему двумя полками MD1000, создав массив на 45Тб.

Отдельного упоминания заслуживает система Dell EqualLogic на базе протокола iSCSI. Она позиционируется как СХД масштаба предприятия и сравнима по цене с системами Dell | EMC CX4, с модульной архитектурой портов, поддерживающих как FC протокол, так и iSCSI протокол. Система EqualLogic является одноранговой, т.е каждая дисковая полка имеет активные контроллеры RAID. При подключении этих массивов в единую систему, производительность дискового пула плавно растет с ростом доступного объема хранения данных. Система позволяет создать массивы более 500TB, настраивается менее, чем за час, и не требует специализированных знаний администраторов.

Модель лицензирования также отличается от остальных и уже включает в первоначальную стоимость все возможные опции моментальных копий, репликацию и средства интеграции в различные ОС и приложения. Эта система считается одной из наиболее быстрых систем в тестах для MS Exchange (ESRP).

Типы носителей информации и протокол взаимодействия с СХД

Определившись с типом СХД, который Вам наиболее подходит для решения тех или иных задач, необходимо перейти к выбору протокола взаимодействия с СХД и выбору накопителей, которые будут использоваться в системе хранения.

В настоящий момент для хранения данных в дисковых массивах используются SATA и SAS диски. Какие диски выбрать в хранилище зависит от конкретных задач. Стоит отметить несколько фактов.

SATA II диски:

  • Доступны объемы одного диска до 1 ТБ
  • Скорость вращения 5400-7200 RPM
  • Скорость ввода/вывода до 2,4 Гбит/с
  • Время наработки на отказ примерно в два раза меньше чем у SAS дисков.
  • Менее надежные, чем SAS диски.
  • Дешевле примерно в 1,5 раза, чем SAS-диски.
  • Доступны объемы одного диска до 450 ГБ
  • Скорость вращения 7200 (NearLine), 10000 и 15000 RPM
  • Скорость ввода/вывода до 3,0 Гбит/с
  • Время наработки на отказ в два раза больше чем у SATA II дисков.
  • Более надежные диски.

Важно! В прошлом году начался промышленный выпуск SAS дисков с пониженной скоростью вращения – 7200 rpm (Near-line SAS Drive). Это позволило повысить объем хранимых данных на одном диске до 1 ТБ и снизить энергопторебление дисков со скоростным интерфейсом. При том, что стоимость таких дисков сравнима со стоимостью дисков SATA II, а надежность и скорость ввода/вывода осталась на уровне SAS дисков.

Таким образом, в настоящий момент стоит действительно серьезно задуматься над протоколами хранения данных, которые вы собираетесь использовать в рамках корпоративной СХД.

До недавнего времени основными протоколами взаимодействия с СХД являлись – FibreChannel и SCSI. Сейчас на смену SCSI, расширив его функционал, пришли протоколы iSCSI и SAS. Давайте ниже рассмотрим плюсы и минусы каждого из протоколов и соответствующих интерфейсов подключения к СХД.

Протокол Fibre Channel

На практике современный Fibre Channel (FC) имеет скорости 2 Гбит/Сек (Fibre Channel 2 Gb), 4 Гбит/Сек (Fibre Channel 4 Gb) full- duplex или 8 Гбит/Сек, то есть такая скорость обеспечивается одновременно в обе стороны. При таких скоростях расстояния подключения практически не ограничены – от стандартных 300 метров на самом «обычном» оборудовании до нескольких сотен или даже тысяч километров при использовании специализированного оборудования. Главный плюс протокола FC – возможность объединения многих устройств хранения и хостов (серверов) в единую сеть хранения данных (SAN). При этом не проблема распределенности устройств на больших расстояниях, возможность агрегирования каналов, возможность резервирования путей доступа, «горячего подключения» оборудования, большая помехозащищенность. Но с другой стороны мы имеем высокую стоимость, и высокую трудоемкость инсталляции и обслуживания дисковых массивов использующих FC.

Важно! Следует разделять два термина протокол Fibre Channel и оптоволоконный интерфейс Fiber Channel. Протокол Fibre Сhannel может работать на разных интерфейсах — и на оптоволоконном соединении с разной модуляцией, и на медных соединениях.

  • Гибкая масштабируемость СХД;
  • Позволяет создавать СХД на значительных расстояниях (но меньших, чем в случае iSCSI протокола; где, в теории, вся глобальная IP сеть может выступать носителем.
  • Большие возможности резервирования.
  • Высокая стоимость решения;
  • Еще более высокая стоимость при организации FC-сети на сотни или тысячи километров
  • Высокая трудоемкость при внедрении и обслуживании.

Важно! Помимо появления протокола FC8 Гб/c, ожидается появление протокола FCoE (Fibre Channel over Ethernet), который позволит использовать стандартные IP сети для организации обмена пакетами FC.

Протокол iSCSI

Протокол iSCSI (инкапсуляция SCSI пакетов в протокол IP) позволяет пользователям создать сети хранения данных на базе протокола IP с использованием Ethernet-инфраструктуры и портов RJ45. Таким образом, протокол iSCSI дает возможность обойти те ограничения, которыми характеризуются хранилища данных с непосредственным подключением, включая невозможность совместного использования ресурсов через серверы и невозможность расширения емкости без отключения приложений. Скорость передачи на данный момент ограничена 1 Гб/c (Gigabit Ethernet), но данная скорость является достаточной для большинства бизнес-приложений масштаба средних предприятий и это подтверждают многочисленные тесты. Интересно то, что важна не столько скорость передачи данных на одном канале, сколько алгоритмы работы RAID контроллеров и возможность агрегации массивов в единый пул, как в случае с DELL EqualLogic, когда используются по три 1Гб порта на каждом массиве, и идет балансировка нагрузки среди массивов одной группы.

Важно отметить, что сети SAN на базе протокола iSCSI обеспечивают те же преимущества, что и сети SAN с использованием протокола Fibre Channel, но при этом упрощаются процедуры развертывания и управления сетью, и значительно снижаются стоимостные затраты на данную СХД.

  • Высокая доступность;
  • Масштабируемость;
  • Простота администрирования, так как используется технология Ethernet;
  • Более низкая цена организации SAN на протоколе iSCSI, чем на FC.
  • Простота интеграции в среды виртуализации
  • Есть определенные ограничения по использованию СХД с протоколом iSCSI с некоторыми OLAP и OLTP приложениями, с системами Real Time и при работе с большим числом видеопотоков в HD формате
  • Высокоуровневые СХД на базе iSCSI, также как и CХД c FC-протоколом, требуют использования быстрых, дорогостоящих Ethernet-коммутаторов
  • Рекомендуется использование либо выделенных Ethernet коммутаторов, либо организация VLAN для разделения потоков данных. Дизайн сети является не менее важной частью проекта, чем при разработке FC-сетей.

Важно! В скором времени производители обещают выпустить в серийное производство SAN на базе протокола iSCSI с поддержкой скоростей передачи данных до 10 Гб/c. Также готовится финальная версия протокола DCE (Data Center Ethernet), массовое появление устройств, поддерживающих протокол DCE, ожидается к 2011 году.

C точки зрения используемых интерфейсов, протокол iSCSI задействует интерфейсы Ethernet 1Гбит/C, а ими могут быть как медные, так оптоволоконные интерфейсы при работе на больших расстояниях.

Протокол SAS

Протокол SAS и одноименный интерфейс разработаны для замены параллельного SCSI и позволяет достичь более высокой пропускной способности, чем SCSI. Хотя SAS использует последовательный интерфейс в отличие от параллельного интерфейса, используемого традиционным SCSI, для управления SAS-устройствами по-прежнему используются команды SCSI. SAS позволяет обеспечить физическое подключение между массивом данных и несколькими серверами на небольшие расстояния.

  • Приемлемая цена;
  • Легкость консолидации хранилищ – хотя СХД на базе SAS не может подключаться к такому количеству хостов (серверов), как SAN конфигурации которые используют протоколы FC или iSCSI, но при использовании протокола SAS не возникает трудностей с дополнительным оборудованием для организации общего хранилища для нескольких серверов.
  • Протокол SAS позволяет обеспечить большую пропускную способность с помощью 4 канальных соединений внутри одного интерфейса. Каждый канал обеспечивает 3 Гб/c , что позволяет достичь скорости передачи данных 12 Гб/с (в настоящий момент это наивысшая скорость передачи данных для СХД).
  • Ограниченность досягаемости – длинна кабеля не может превышать 8 метров. Тем самым хранилища с подключением по протоколу SAS, будут оптимальны только тогда когда серверы и массивы будут расположены в одной стойке или в одной серверной;
  • Количество подключаемых хостов (серверов) как правило, ограничено несколькими узлами.

Важно! В 2009 году ожидается появление технологии SAS со скоростью передачи данных по одному каналу – 6 Гбит/c, что позволит значительно увеличить привлекательность использования данного протокола.

Сравнение протоколов подключения СХД

Ниже приведена сводная таблица сравнения возможностей различных протоколов взаимодействия с СХД.

Параметр

Протоколы подключения СХД

Архитектура SCSI команды инкапсулируются в IP пакет и передаются через Ethernet, последовательная передача Последовательная передача SCSI команд Коммутируемая
Растояние между дисковым массивом и узлом (сервер или свитч) Ограничено лишь расстоянием IP cетей. Не более 8 метров между устройствами. 50.000 метров без использования специализрованных рипитеров
Масштабируемость Миллионы устройств – при работе по протоколу IPv6. 32 устройства 256 устройств
16 миллионов устройств, если использовать FC-SW (fabric switches) архитектура
Производительность 1 Гб/с (планируется развитие до 10 Гб/с) 3 Гб/с при использовании 4х портов, до 12 Гб/с (в 2009 году до 6 Гб/с по одному порту) До 8 Гб/с
Уровень вложений (затрат на внедрение) Незначительный – используется Ethernet Средний Значительный

Таким образом, представленные решения на первый взгляд достаточно четко разделяются по соответствию требованиям заказчиков. Однако на практике все не так однозначно, включаются дополнительные факторы в виде ограничений по бюджетам, динамики развития организации (и динамики увеличения объема хранимой информации), отраслевая специфика и т.д.

Как известно, в последнее время наблюдается интенсивное увеличение объемов накапливаемой информации и данных. Исследование, проведенное IDC «Цифровая вселенная», продемонстрировало, что мировой объем цифровой информации к 2020 г. способен увеличиться с 4,4 зеттебайт до 44 зеттебайт. По словам экспертов, каждые два года объем цифровой информации удваивается. Поэтому сегодня чрезвычайно актуальной является проблема не только обработки информации, но также и ее хранения.

Для решения данного вопроса в настоящее время наблюдается весьма активное развитие такого направления, как развитие СХД (сетей/систем хранения данных). Попробуем разобраться, что именно современная ИТ-индустрия подразумевает под понятием «система хранения данных».

СХД – это программно-аппаратное комплексное решение, направленное на организацию надежного и качественного хранения различных информационных ресурсов, а также предоставления бесперебойного доступа к этим ресурсам.

Создание подобного комплекса должно помочь в решении самых разных задач, встающих перед современным бизнесом в ходе построения цельной информационной системы.

Основные компоненты СХД :

Устройства хранения (ленточная библиотека, внутренний либо внешний дисковый массив);

Система мониторинга и управления;

Подсистема резервного копирования/ архивирования данных;

Программное обеспечение управления хранением;

Инфраструктура доступа ко всем устройствам хранения.

Основные задачи

Рассмотрим наиболее типичные задачи:

Децентрализация информации. Некоторые организации обладают развитой филиальной структурой. Каждое отдельное подразделение такой организации должно обладать свободным доступом ко всей информации, необходимой ему для работы. Современные СХД взаимодействуют с пользователями, которые находится на большом расстоянии от центра, где выполняется обработка данных, поэтому способны решить эту задачу.

Невозможность предусмотреть конечные требуемые ресурсы. Во время планирования проекта определить, с каким именно объемами информации придется работать во время эксплуатации системы, бывает крайне сложно. Кроме этого, постоянно увеличивается масса накапливаемых данных. Большинство современных СХД обладает поддержкой масштабируемости (способности наращивать свою производительность после добавления ресурсов), поэтому мощность системы можно будет увеличивать пропорционально возрастанию нагрузок (производить апгрейд).

Безопасность всей хранимой информации. Проконтролировать, а также ограничить доступ к информационным ресурсам предприятия бывает довольно сложно. Неквалифицированные действия обслуживающего персонала и пользователей, умышленные попытки вредительства – все это способно нанести хранящимся данным значительный вред. Современные СХД используют различные схемы отказоустойчивости, позволяющие противостоять как умышленным диверсиям, так и неумелым действиям неквалифицированных сотрудников, сохранив тем самым работоспособность системы.

Сложность управления распределенными информационными потоками – любое действие, направленное на изменение распределенных информационных данных в одном из филиалов, неизбежно создает ряд проблем – от сложности синхронизации разных баз данных и версий файлов разработчиков до ненужного дублирования информации. Программные продукты управления, поставляемые вместе с СХД , помогут вам оптимально упростить и эффективно оптимизировать работу с хранимой информацией.

Высокие расходы. Как показали результаты проведенного IDC Perspectives исследования, расходы на хранение данных составляют порядка двадцати трех процентов от всех расходов на IT. Эти расходы включают стоимость программной и аппаратной частей комплекса, выплаты обслуживающему персоналу и пр. Использование СХД позволяет сэкономить на администрировании системы, а также обеспечивает снижение расходов на персонал.


Основные типы СХД

Все системы хранения данных подразделяются на 2 типа: ленточные и дисковые СХД . Каждый из двух вышеупомянутых видов делится, в свою очередь, на несколько подвидов.

Дисковые СХД

Такие системы хранения данных используются для создания резервных промежуточных копий, а также оперативной работы с различными данными.

Дисковые СХД подразделяются на следующие подвиды:

Устройства для резервных копий (различные дисковые библиотеки);

Устройства для рабочих данных (оборудование, характеризующееся высокой производительностью);

Устройства, используемые для длительного хранения архивов.


Ленточные СХД

Используются для создания архивов, а также резервных копий.

Ленточные СХД подразделяются на следующие подвиды:

Ленточные библиотеки (два либо более накопителей, большое количество слотов для лент);

Автозагрузчики (1 накопитель, несколько слотов, предназначенных для лент);

Отдельные накопители.

Основные интерфейсы подключения

Выше мы рассмотрели основные типы систем, а теперь давайте разберемся подробнее со структурой самих СХД . Современные системы хранения данных подразделяются в соответствии с типом используемых ими интерфейсов подключения хостов. Рассмотрим ниже 2 наиболее распространенных внешних интерфейса подключения - SCSI и FibreChannel. Интерфейс SCSI напоминает широко распространенный IDE и представляет собой параллельный интерфейс, который допускает размещение на одной шине от шестнадцати устройств (для IDE, как известно, два устройства на канал). Максимальная скорость SCSI протокола сегодня составляет 320 мегабайт в секунду (версия, которая будет обеспечивать скорость в 640 мегабайт в секунду, сегодня находится в разработке). Недостатки SCSI следующие – неудобные, не обладающие помехозащищенностью, слишком толстые кабели, максимальная длина которых не превышает двадцати пяти метров. Сам протокол SCSI тоже накладывает определенные ограничения – как правило, это 1 инициатор на шине плюс ведомые устройства (стримеры, диски и пр.).

Интерфейс FibreChannel используется реже, чем интерфейс SCSI, так как оборудование, используемое для данного интерфейса, стоит дороже. Кроме этого, FibreChannel используется для развертывания крупных SAN сетей хранения данных, поэтому используется он только в крупных компаниях. Расстояния могут быть, практически, любыми – от стандартных трехсот метров на типовом оборудовании до двух тысяч километров для мощных коммутаторов («директоров»). Основным преимуществом интерфейса FibreChannel является возможность объединить многие устройства хранения и хосты (сервера) в общую SAN сеть хранения данных. Менее важными преимуществами являются: большие, чем со SCSI, расстояния, возможность агрегирования каналов и резервирования путей доступа, возможность «горячего подключения» оборудования, более высокая помехозащищенность. Используются двухжильные одно- и многомодовые оптические кабели (с коннекторами типа SC либо LC), а также SFP – оптические трансмиттеры, изготавливаемые на основе лазерных либо светодиодных излучателей (от этих компонентов зависит максимальное расстояние между используемыми устройствами, а также скорость передачи).

Варианты топологий СХД

Традиционно СХД используется для подключения серверов к DAS – системе хранения данных. Кроме DAS существуют еще и NAS – устройства хранения данных, которые подключаются к сети, а также SAN – составляющие сетей хранения данных. SAN и NAS системы были созданы как альтернатива архитектуре DAS. При этом каждое из вышеупомянутых решений разрабатывалось в качестве ответа на постоянно увеличивающиеся требования к современным системам хранения данных и основывалось на применении доступных на тот момент технологий.

Архитектуры первых сетевых систем хранения разработаны были в 1990-х годах для устранения наиболее ощутимых недостатков DAS систем. Сетевые решения в сфере систем хранения были предназначены для реализации вышеперечисленных задач: снижения затрат и сложности управления данными, уменьшения трафика локальных сетей, повышения общей производительности и степени готовности данных. При этом архитектуры SAN и NAS решают разные аспекты одной общей проблемы. В результате одновременно стали существовать 2 сетевые архитектуры. Каждая из них обладает собственными функциональными возможностями и преимуществами.

DAS


(D irect A ttached S torage) – это архитектурное решение, используемое в случаях, когда устройство, применяемое для хранения цифровых данных, подключено по протоколу SAS через интерфейс непосредственно к серверу либо к рабочей станции.


Основные преимущества DAS систем: невысокая, сравнительно с остальными решениями СХД, стоимость, простота развертывания, а также администрирования, высокоскоростной обмен данными между сервером и системой хранения.

Вышеперечисленные преимущества позволили DAS системам стать чрезвычайно популярными в сегменте небольших корпоративных сетей, хостинг-провайдеров и малых офисов. Но при этом у DAS-систем имеются и свои недостатки, например, не оптимальная утилизация ресурсов, объясняемая тем, что для каждой DAS-системы требуется подключение выделенного сервера, кроме этого, каждая такая система позволяет подключить к дисковой полке не больше двух серверов в определенной конфигурации.

Преимущества:

Доступная стоимость. СХД представляет собой по сути установленную за пределами сервера дисковую корзину, снабженную жесткими дисками.

Обеспечение высокоскоростного обмена между сервером и дисковым массивом.


Недостатки:

Недостаточная надежность – в случае аварии либо возникновения в сети каких-либо проблем сервера перестают быть доступными ряду пользователей.

Высокая латентность, возникающая из-за того, что все запросы обрабатываются одним сервером.

Низкая управляемость – доступность всей емкости одному серверу уменьшает гибкость распределения данных.

Низкая утилизация ресурсов – требуемые объемы данных предсказать сложно: одни устройства DAS в организации могут испытывать избыток емкости, а другим может ее не хватать, поскольку перераспределение емкости обычно бывает слишком трудоемким либо вовсе невозможным.

NAS


(N etwork A ttached S torage) – это интегрированная отдельно стоящая дисковая система, включающая в себя NAS сервер с собственной специализированной операционной системой и набором полезных для пользователей функций, обеспечивающих быстрый запуск системы, а также доступ к любым файлам. Подключается система к обыкновенной компьютерной сети, позволяя пользователям данной сети решить проблему недостатка свободного дискового пространства.

NAS - хранилище, которое подключается к сети как обычное сетевое устройство, обеспечивая файловый доступ к цифровым данным. Любое устройство NAS представляет собой комбинацию системы хранения данных и сервера, к которому подключена эта система. Простейшим вариантом NAS устройства является сетевой сервер, который предоставляет файловые ресурсы.

Состоят NAS устройства из головного устройства, которое выполняет обработку данных, а также соединяет цепочку дисков в единую сеть. NAS обеспечивают использование систем хранения данных в сетях Ethernet. Совместный доступ к файлам организуется в них при помощи протокола TCP/IP. Подобные устройства обеспечивают совместное использование файлов даже теми клиентами, системы которых функционируют под управлением разных операционных систем. В отличие от DAS архитектуры, в NAS системах сервера для повышения общей емкости в автономный режим можно не переводить; добавлять диски в структуру NAS можно посредством простого подключения устройства в сеть.

NAS технология развивается сегодня в качестве альтернативы универсальным серверам, несущим в себе большое количество различных функций (электронная почта, факс сервер, приложения, печать и пр.). NAS-устройства, в отличие от универсальных серверов, выполняют всего одну функцию – файлового сервера, стараясь делать это максимально быстро, просто и качественно.

Подключение NAS к ЛВС обеспечивает доступ к цифровой информации неограниченному числу гетерогенных клиентов (то есть клиентов с разными операционными системами) либо другим серверам. Сегодня практически все устройства NAS используются в сетях Ethernet на основе TCP/IP протоколов. Доступ к NAS устройствам осуществляется посредством использования специальных протоколов доступа. Самые распространенные протоколы файлового доступа – DAFS, NFS, CIFS. Внутри таких серверов устанавливаются специализированные операционные системы.

NAS-устройство может выглядеть как обычная «коробочка», снабженная одним портом Ethernet, а также парой жестких дисков, а может представлять собой огромную систему, снабженную несколькими специализированными серверами, огромным количеством дисков, а также внешних Ethernet-портов. Иногда устройства NAS представляют собой часть SAN-сети. В этом случае они собственных накопителей не имеют, а лишь предоставляют доступ к тем данным, которые располагаются на блочных устройствах. В данном случае NAS выступает как мощный специализированный сервер, а SAN – как устройство хранения данных. Из SAN и NAS компонентов в данном случае формируется единая DAS топология.

Преимущества

Невысокая стоимость, доступность ресурсов для отдельных серверов, а также для любого компьютера организации.

Универсальность (один сервер способен обслуживать клиентов Unix, Novell, MS, Mac).

Простота развертывания, а также администрирования.

Простота совместного использования ресурсов.


Недостатки

Доступ к информации посредством протоколов сетевых файловых систем часто бывает более медленным, чем доступ к локальному диску.

Большая часть доступных по цене NAS-серверов не в состоянии обеспечивать гибкий, скоростной метод доступа, который обеспечивается современными SAN системами (на уровне блоков, а не файлов).

SAN


(S torage A rea N etwork) - это архитектурное решение позволяет подключать к серверам внешние устройства хранения данных (ленточные библиотеки, дисковые массивы, оптические накопители и пр.). При таком подключении внешние устройства распознаются операционной системой как локальные. Использование SAN сети позволяет снизить совокупную стоимость содержания системы хранения данных и позволяет современным организациям организовать надежное хранение своей информации.

Простейший вариант SAN – это СХД , сервера и коммутаторы, объединенные оптическими каналами связи. Кроме дисковых систем хранения данных, в SAN могут быть подключены дисковые библиотеки, стримеры (ленточные библиотеки), устройства, используемые для хранения информации на оптических дисках и пр.

Преимущества

Надежностью доступа к тем данным, которые находятся на внешних системах.

Независимость SAN топологии от используемых серверов и систем хранения данных.

Безопасность и надежность централизованного хранения данных.

Удобство централизованного управления данными и коммутацией.

Возможность перенести в отдельную сеть трафика ввода-вывода, обеспечивающая разгрузку LAN.

Низкая латентность и высокое быстродействие.

Гибкость и масштабируемость логической структуры SAN.

Фактическая неограниченность географических размеров SAN.

Возможность оперативного распределения ресурсов между серверами.

Простота схемы резервного копирования, обеспечиваемая тем, что все данные располагаются в одном месте.

Возможность создания отказоустойчивых кластерных решений на основе имеющейся SAN без дополнительных затрат.

Наличие дополнительных сервисов и возможностей, таких как удаленная репликация, снапшоты и пр.

Высокий уровень безопасности SAN/


Единственным недостатком подобных решений является их высокая стоимость. В целом, отечественный рынок систем хранения данных отстает от рынка развитых западных государств, для которого характерно широкое использование СХД . Высокая стоимость и дефицит скоростных каналов связи – главные причины, тормозящие развитие российского рынка СХД .

RAID

Говоря о системах хранения данных, обязательно следует рассмотреть и одну и главных технологий, лежащих в основе работы таких систем и повсеместно используемых в современной IT-индустрии. Мы имеем в виду RAID-массивы.

RAID-массив состоит из нескольких дисков, которые управляются контроллером и связаны между собой посредством скоростных каналов передачи данных. Внешней системой такие диски (запоминающие устройства) воспринимаются в качестве единого целого. Тип используемого массива непосредственным образом влияет на степень быстродействия и отказоустойчивости. RAID-массивы используются для увеличения надежности хранения данных, а также для повышения скорости записи/чтения.

Существует несколько уровней RAID, используемых при создании сетей хранения данных. Чаще всего используются следующие уровни:

1. Это дисковый массив увеличенной производительности, без отказоустойчивости, с чередованием.
Информация разбивается на отдельные блоки данных. Записывается она одновременно на два либо несколько дисков.

Плюсы:

Суммируется объем памяти.

Значительное увеличение производительности (количество дисков непосредственно влияет на кратность повышения производительности).


Минусы:

Надежность RAID 0 ниже надежности даже самого ненадежного диска, поскольку в случае отказа любого из дисков, весь массив становится неработоспособным.


2. – дисковый зеркальный массив. Этот массив состоит из пары дисков, полностью копирующих друг друга.

Плюсы:

Обеспечение при распараллеливании запросов приемлемой скорости записи, а также выигрыша по скорости чтения.

Обеспечение высокой надежности – дисковый массив такого типа функционирует до того времени, пока в нем работает хотя бы 1 диск. Вероятность поломки одновременно 2-х дисков, равная произведению вероятностей поломки каждого из них, намного ниже, чем вероятность поломки одного диска. При поломке одного диска на практике необходимо немедленно принимать меры, вновь восстанавливая избыточность. Для этого рекомендуется с RAID любого уровня (за исключением нулевого) применять диски горячего резерва.


Минусы:

Недостаток RAID 1 состоит только в том, что пользователь получает один жесткий диск по цене двух дисков.



3. . Это построенный из RAID 1 массивов массив RAID 0.

4. RAID 2 . Используется для массивов, применяющих код Хемминга.

Массивы данного типа основываются на применении кода Хемминга. Диски подразделяются на 2 группы: для данных, а также для кодов, используемых для коррекции ошибок. Данные по дискам, используемым для хранения информации, распределяются аналогично распределению в RAID 0, то есть они разбиваются на блоки небольшого размера в соответствии с количеством дисков. На оставшихся дисках хранятся все коды коррекции ошибок, которые помогают восстановить информацию в случае, если один из жестких дисков выйдет из строя. Метод Хемминга, используемый в ЕСС памяти, дает возможность исправлять на лету однократные ошибки, а также обнаруживать двукратные.

RAID 3 , RAID 4 . Это массивы дисковые с чередованием, а также выделенным диском четности. В RAID 3 данные из n дисков разбиваются на составляющие размером меньше сектора (на блоки либо байты), после чего распределяются по дискам n-1. На одном диске хранятся блоки четности. В массиве RAID 2 для данной цели использовался n-1 диск, однако большинство информации на контрольных дисках использовалось для коррекции на лету ошибок, тогда как большинству пользователей при поломке диска достаточно простого восстановления информации (для этого бывает достаточно информации, которая помещается на одном жестком диске).

Массив RAID 4 напоминает RAID 3, однако, данные на нем разбиваются не на отдельные байты, а на блоки. Это отчасти позволило решить проблему недостаточно высокой скорости передачи данных, имеющих небольшой объем. Запись при этом осуществляется чересчур медленно из-за того, что при записи генерируется четность для блока, записываясь на единственный диск.
От RAID 2 RAID 3 отличается невозможностью скорректировать ошибки на лету, а также меньшей избыточностью.

Плюсы:

Облачные провайдеры тоже осуществляют активные закупки для своих нужд систем хранения данных, к примеру, Facebook и Google строят из готовых компонентов по индивидуальному заказу собственные серверы, но эти серверы в отчете IDC не учитываются.

Также в компании IDC ожидают, что вскоре развивающиеся рынки в отношении потребления СХД существенно обгонят рынки развитые, поскольку им свойственны более высокие темпы экономического роста. К примеру, регион Восточной и Центральной Европы, Африки и Ближнего Востока в 2014 г. по расходам на системы хранения данных превзойдет Японию. К 2015 г. Азиатско-Тихоокеанский регион, исключая Японию, по объему потребления систем хранения данных превзойдет Западную Европу.

Выполняемая нашей компанией «Навигатор» продажа систем хранения данных дает возможность каждому желающему получить надежную и долговечную основу для хранения своих мультимедийных данных. Широкий выбор Raid массивов, сетевых хранилищ и прочих систем дает возможность в индивидуальном порядке подобрать для каждого заказа RAID со второго по четвертый является невозможность осуществления параллельных операций записи, объясняемая тем, что для хранения цифровой информации о четности применяется отдельный контрольный диск. У RAID 5 вышеупомянутый недостаток отсутствует. Запись контрольных сумм и блоков данных осуществляется автоматически на все диски, асимметричность конфигурации дисков отсутствует. Под контрольными суммами имеется в виду результат операции XOR.XOR дает возможность заменить результатом любой операнд и, использовав алгоритм XOR, в результате получить недостающий операнд. Чтобы сохранить результат XOR , необходим всего один диск (размер его идентичен размеру любого диска в raid).

Плюсы:

Популярность RAID5 объясняется, прежде всего, его экономичностью. На запись на том RAID5 тратятся дополнительные ресурсы, что приводит в итоге к падению производительности, поскольку необходимы дополнительные вычисления, а также операции записи. Но зато при чтении (в сравнении с отдельным жестким диском) имеется определенный выигрыш, состоящий в том, что идущие с нескольких дисков потоки данных могут обрабатываться параллельно.


Минусы:

RAID 5 характеризуется намного более низкой производительностью, особенно при проведении операций, связанных с записью в произвольном порядке (типа Random Write), при которых производительность уменьшается на 10-25 процентов от производительности RAID 10 или RAID 0. Происходит это потому, что данному процессу требуется больше операций с дисками (происходит замена каждой операции записи сервера на RAID контроллере на 3 операции – 1 операцию чтения и 2 операции записи). Минусы RAID 5 проявляются тогда, когда из строя выходит один диск – при этом наблюдается переход всего тома в критический режим, все операции чтения и записи сопровождаются дополнительными манипуляциями, что приводит к резкому падению производительности. Уровень надежности при этом падает до уровня надежности RAID 0, снабженного соответствующим количеством дисков, становясь в n раз меньше надежности одиночного диска. В случае, если до восстановления массива выйдет из строя еще хоть один диск либо на нем возникнет невосстановимая ошибка, массив разрушится, причем данные на нем обычными методами восстановить не удастся. Учтите также, что процесс восстановления за счет избыточности данных RAID, носящий название RAID Reconstruction, после того, как диск выйдет из строя, вызовет интенсивную непрерывную нагрузку чтения со всех дисков, которая будет сохраняться в течение многих часов. В результате этого один из оставшихся дисков может выйти из строя. Также могут выявиться не обнаруженные ранее сбои чтения данных вcold data массивах (тех данных, к которым во время обычной работы массива не обращаются – малоактивных и архивных), что приводит к повышению риска сбоя во время восстановления данных.



6. – это массив RAID 50, который построен из массивов RAID5;

7. – массив дисковый с чередованием, который использует 2 контрольные суммы, вычисляемые 2-мя независимыми способами.

RAID 6 во многом аналогичен RAID 5, однако отличается от него более высокой степенью надежности: в нем под контрольные суммы происходит выделение емкости двух дисков, две суммы рассчитываются по различным алгоритмам. Необходим RAID-контроллер более высокой мощности. Помогает защитить от кратного отказа, обеспечивая работоспособность после выхода из строя одновременно двух дисков. Организация массива требует использования минимум четырех дисков. Использование RAID-6 обычно приводит к падению производительности дисковой группы приблизительно на 10-15 процентов. Это объясняется большим объемом информации, которую приходится обрабатывать контроллеру (появляется необходимость в расчете второй контрольной суммы, а также чтении и перезаписи большего количества дисковых блоков в процессе записи каждого из блоков).

8. – это массив RAID 0, который построен из массивов RAID6.

9. Hybrid RAID . Это еще один уровень массива RAID, ставший в последнее время достаточно популярным. Это обычные уровни RAID, используемые вместе с дополнительным программным обеспечением, а также SSD-дисками, которые применяются в качестве кэша для чтения. Это приводит к увеличению производительности системы, объясняемой тем, что SSD, в сравнении с HDD, обладают намного лучшими скоростными характеристиками. Сегодня существует несколько реализаций, к примеру, Crucial Adrenaline, а также несколько бюджетных контроллеров Adaptec. В настоящее время использование Hybrid RAID из-за маленького ресурса SSD-дисков не рекомендуется.


Операции считывания в Hybrid RAID выполняются с твердотельного накопителя, обладающего большей скоростью, а операции записи осуществляются и на твердотельных накопителях, и на жестких дисках (делается это с целью выполнения резервирования).
Hybrid RAID отлично подходит для приложений, использующих данные нижнего уровня (виртуальной вычислительной машины, файлового сервера либо интернет-шлюза).

Особенности современного рынка СХД

Аналитическая компания IDC летом 2013 г. обнародовала очередной свой прогноз для рынка СХД , рассчитанный ею до 2017 г. Подсчеты аналитиков демонстрируют, что в ближайшее четырехлетие мировыми предприятиями будут закуплены СХД , общая емкость которых составит сто тридцать восемь экзабайт. Совокупная реализуемая мощность систем хранения ежегодно будет увеличиваться примерно на тридцать процентов.

Тем не менее, в сравнении с предыдущими годами, когда наблюдался бурный рост потребления хранилищ данных, темпы этого роста несколько замедлятся, так как сегодня большинство компаний использует облачные решения, отдавая предпочтение технологиям, оптимизирующим хранилища данных. Экономия места в хранилищах достигается при помощи таких средств, как виртуализация, сжатие данных, дедупликация данных и пр. Все вышеперечисленные средства обеспечивают экономию места, позволяя компаниям избегать спонтанных покупок и прибегать к приобретению новых систем хранения лишь тогда, когда в них действительно имеется необходимость.

Из 138 экзабайт, продажа которых ожидается в 2017 г., 102 экзабайта будет приходиться на внешние СХД , а 36 – на внутренние. В 2012 г. было реализовано СХД на двадцать экзабайт для внешних систем и на восемь – для внутренних. Финансовые затраты на промышленные СХД ежегодно будут увеличиваться приблизительно на 4,1 процента и к 2017 г. составят порядка сорока двух с половиной миллиардов долларов.

Мы уже отмечали, что переживший недавно настоящий бум мировой рынок СХД постепенно пошел на спад. В 2005 г. рост потребления СХД составил на промышленном уровне шестьдесят пять процентов, а в 2006, а также 2007 г. – по пятьдесят девять процентов. В последующие годы рост потребления СХД еще больше снизился из-за негативного влияния мирового экономического кризиса.

Аналитики прогнозируют, что рост использования облачных СХД приведет к уменьшению потребления решений систем хранения данных на корпоративном уровне. Облачные провайдеры тоже осуществляют активные закупки для своих нужд систем хранения данных, к примеру, Facebook и Google строят из готовых компонентов по индивидуальному заказу собственные серверы, но эти серверы в отчете IDC не учитываются.

Также в компании IDC ожидают, что вскоре развивающиеся рынки в отношении потребления СХД существенно обгонят рынки развитые, поскольку им свойственны более высокие темпы экономического роста. К примеру, регион Восточной и Центральной Европы, Африки и Ближнего Востока в 2014 г. по расходам на системы хранения данных превзойдет Японию. К 2015 г. Азиатско-Тихоокеанский регион, исключая Японию, по объему потребления систем хранения данных превзойдет Западную Европу.

Оперативная продажа систем хранения данных

Выполняемая нашей компанией «Навигатор» продажа систем хранения данных дает возможность каждому желающему получить надежную и долговечную основу для хранения своих мультимедийных данных. Широкий выбор Raid массивов, сетевых хранилищ и прочих систем дает возможность в индивидуальном порядке подобрать для каждого заказчика тот комплекс, который подойдет для него наилучшим образом.

Широкие технические возможность, грамотность и опыт персонала компании гарантируют быстрое и комплексное выполнение поставленной задачи. При этом мы не ограничивается исключительно продажей систем хранения данных, поскольку выполняем также ее настройку, запуск и последующее сервисное и техническое обслуживание.