Купить сетевое хранилище данных за хорошую стоимость? Вам сюда! Cистемы хранения данных

17.01.2018

DAS, SAN, NAS - магические аббревиатуры, без которых не обходится ни одна из статей и ни одно аналитическое исследование по системам хранения. Они служат обозначением основных типов соединения систем хранения с вычислительными системами.

DAS (direct-attached storage) - устройство внешней памяти, напрямую подсоединенное к основному компьютеру и используемое только им. Простейший пример DAS - встроенный жесткий диск. Для связи хоста с внешней памятью в типовой конфигурации DAS используется SCSI, команды которого позволяют выделить определенный блок данных на специфицированном диске или смонтировать определенный картридж в ленточной библиотеке.

Конфигурация DAS приемлема для применений, нетребовательных к объемам, производительности и надежности систем хранения. DAS не обеспечивает возможности совместного использования емкости хранения разными хостами и тем более возможности разделения данных. Установка таких устройств хранения - более дешевый вариант по сравнению с сетевыми конфигурациями, однако, если иметь в виду большие организации, этот тип инфраструктуры хранения нельзя считать оптимальным. Много DAS-подключений означает разрозненные и разбросанные по всей компании островки внешней памяти, избытки которой не могут использоваться другими хост-компьютерами, что приводит к неэффективной трате емкости хранения в целом.

Кроме того, при такой организации хранения нет никакой возможности создать единую точку управления внешней памятью, что неизбежно усложняет процессы резервирования/восстановления данных и создает серьезную проблему защиты информации. В итоге общая стоимость владения подобной системой хранения может оказаться значительно выше, чем более сложная на первый взгляд и изначально более дорогая сетевая конфигурация.

SAN

Сегодня, говоря о системе хранения корпоративного уровня, мы имеем в виду сетевое хранение (storage networking). Больше известны широкой публике сети хранения - SAN (storage area network). SAN представляет собой выделенную сеть устройств хранения, которая позволяет множеству серверов использовать совокупный ресурс внешней памяти без нагрузки на локальную сеть.

SAN не зависит от среды передачи, но на данный момент фактическим стандартом является технология Fibre Channel (FC), обеспечивающая скорость передачи данных 1-2 Гбит/с. В отличие от традиционных сред передачи на базе SCSI, обеспечивающих подключение на расстояние не более чем на 25 метров, Fibre Channel позволяет работать на удалении до 100 км. Средой передачи в сети Fibre Channel могут служить как медный кабель, так и оптоволокно.

В сеть хранения могут подключаться дисковые массивы RAID, простые массивы дисков, (так называемые Just a Bunch of Disks - JBOD), ленточные или магнитооптические библиотеки для резервирования и архивирования данных. Основными компонентами для организации сети SAN помимо самих устройств хранения являются адаптеры для подключения серверов к сети Fibre Channel (host bus adapter - НВА), cетевые устройства для поддержки той или иной топологии FC-сети и специализированный программный инструментарий для управления сетью хранения. Эти программные системы могут выполняться как на сервере общего назначения, так и на самих устройствах хранения, хотя иногда часть функций выносится на специализированный тонкий сервер для управления сетью хранения (SAN appliance).

Задача программного обеспечения для SAN - это прежде всего централизованное управление сетью хранения, включая конфигурирование, мониторинг, контроль и анализ компонентов сети. Одной из наиболее важных является функция управления доступом к дисковым массивам, если в SAN хранятся данные разнородных серверов. Сети хранения обеспечивают одновременный доступ множества серверов к множеству дисковых подсистем, привязывая каждый хост к определенным дискам на определенном дисковом массиве. Для разных операционных систем необходимо расслоение дискового массива на «логические области» (logical unit - LUN), которыми они будут пользоваться без возникновения конфликтов. Выделение логических областей может понадобиться и для организации доступа к одним и тем же данным для некоторого пула серверов, например, серверов одной рабочей группы. За поддержку всех этих операций отвечают специальные программные модули.

Привлекательность сетей хранения объясняется теми преимуществами, которые они могут дать организациям, требовательным к эффективности работы с большими объемами данных. Выделенная сеть хранения разгружает основную (локальную или глобальную) сеть вычислительных серверов и клиентских рабочих станций, освобождая ее от потоков ввода/вывода данных.

Этот фактор, а также высокоскоростная среда передачи, используемая для SAN, обеспечивают повышение производительности процессов обмена данными с внешними системами хранения. SAN означает консолидацию систем хранения, создание на разных носителях единого пула ресурсов, который будет разделяться всеми вычислительными мощностями, и в результате необходимую емкость внешней памяти можно будет обеспечить меньшим числом подсистем. В SAN резервирование данных с дисковых подсистем на ленты происходит вне локальной сети и потому становится более производительным - одна ленточная библиотека может служить для резервирования данных с нескольких дисковых подсистем. Кроме того, при поддержке соответствующего ПО можно реализовать прямое резервирование в SAN без участия сервера, тем самым, разгружая процессор. Возможность разнесения серверов и памяти на большие расстояния отвечает потребностям повышения надежности корпоративных хранилищ данных. Консолидированное хранение данных в SAN лучше масштабируется, поскольку позволяет наращивать емкость хранения независимо от серверов и без прерывания их работы. Наконец, SAN дает возможность централизованного управления единым пулом внешней памяти, что упрощает администрирование.

Безусловно, сети хранения, недешевое и непростое решение и, несмотря на то, что все ведущие поставщики выпускают сегодня устройства для SAN на базе Fibre Channel, их совместимость не гарантируется, и выбор подходящего оборудования создает проблему для пользователей. Понадобятся дополнительные расходы на организацию выделенной сети и покупку управляющего ПО, и начальная стоимость SAN окажется выше организации хранения с помощью DAS, однако совокупная стоимость владения должна быть ниже.

NAS

В отличие от SAN, NAS (network attached storage) - не сеть, а сетевое устройство хранения, точнее, выделенный файловый сервер с подсоединенной к нему дисковой подсистемой. Иногда в конфигурацию NAS может входить оптическая или ленточная библиотека. NAS-устройство (NAS appliance) напрямую подключается в сеть и предоставляет хостам доступ к файлам на своей интегрированной подсистеме внешней памяти. Появление выделенных файловых серверов связано с разработкой в начале 90-х годов компанией Sun Microsystems сетевой файловой системы NFS, которая позволяла клиентским компьютерам в локальной сети использовать файлы на удаленном сервере. Затем у Microsoft появилась аналогичная система для среды Windows - Common Internet File System. Конфигурации NAS поддерживают обе эти системы, а также другие протоколы на базе IP, обеспечивая разделение файлов клиентскими приложениями.

NAS-устройство напоминает конфигурацию DAS, но принципиально отличается от нее тем, что обеспечивает доступ на уровне файлов, а не блоков данных, и позволяет всем приложениям в сети совместно использовать файлы на своих дисках. NAS специфицирует файл в файловой системе, сдвиг в этом файле (который представляется как последовательность байт) и число байт, которое необходимо прочитать или записать. Запрос к NAS-устройству не определяет том или сектор на диске, где находится файл. Задача операционной системы NAS-устройства транслировать обращение к конкретному файлу в запрос на уровне блоков данных. Файловый доступ и возможность разделения информации удобны для приложений, которые должны обслуживать множество пользователей одновременно, но не требуют загрузки очень больших объемов данных по каждому запросу. Поэтому обычной практикой становится использование NAS для Internet-приложений, Web-cлужб или CAПР, в которых над одним проектом работают сотни специалистов.

Вариант NAS прост в установке и управлении. В отличие от сети хранения, установка NAS-устройства не требует специального планирования и затрат на дополнительное управляющее ПО - достаточно просто подключить файловый сервер в локальную сеть. NAS освобождает серверы в сети от задач управления хранением, но не разгружает сетевой трафик, поскольку обмен данными между серверами общего назначения и NAS идет по той же локальной сети. На NAS-устройстве может быть сконфигурирована одна или несколько файловых систем, каждой из которых отводится определенный набор томов на диске. Всем пользователям одной и той же файловой системы по требованию выделяется некоторое дисковое пространство. Таким образом, NAS обеспечивает более эффективные по сравнению с DAS организацию и использование ресурсов памяти, поскольку подключенная напрямую подсистема хранения обслуживает только один вычислительный ресурс, и может случиться так, что у одного сервера в локальной сети будет слишком много внешней памяти, в то время как другой испытывает нехватку пространства на дисках. Но из нескольких NAS-устройств нельзя создать единый пул ресурсов хранения и потому увеличение числа NAS-узлов в сети усложнит задачу управления.

NAS + SAN = ?

Какую из форм инфраструктуры хранения выбрать: NAS или SAN? Ответ зависит от возможностей и потребностей организации, однако сравнивать или тем более противопоставлять их в принципе неверно, поскольку эти две конфигурации решают разные задачи. Файловый доступ и совместное использование информации для приложений на разнородных серверных платформах в локальной сети - это NAS. Высокопроизводительный блоковый доступ к базам данных, консолидация хранения, гарантирующая его надежность и эффективность - это SAN. В жизни, правда, все сложнее. NAS и SAN часто уже сосуществуют или должны быть одновременно реализованы в распределенной ИТ-инфраструктуре компании. Это неизбежно порождает проблемы управления и оптимального использования ресурсов хранения.

Сегодня производители ищут пути объединения обеих технологий в единую сетевую инфраструктуру хранения, которая обеспечит консолидацию данных, централизацию резервного копирования, упростит общее администрирование, масштабируемость и защиту данных. Конвергенция NAS и SAN - одна из самых важных тенденций последнего времени.

Сеть хранения позволяет создать единый пул ресурсов памяти и выделять на физическом уровне необходимую квоту дискового пространства каждому из хостов, подключенных к SAN. NAS-сервер обеспечивает разделение данных в файловой системе приложениями на разных операционных платформах, решая проблемы интерпретации структуры файловой системы, синхронизации и контроля доступа к одним и тем же данным. Поэтому, если мы хотим добавить в сеть хранения возможность разделения не только физических дисков, но и логической структуры файловых систем, нам необходим промежуточный управляющий сервер для реализации всех функций сетевых протоколов обработки запросов на уровне файлов. Отсюда общий подход к объединению SAN и NAS с помощью NAS-устройства без интегрированной дисковой подсистемы, но с возможностью подключения компонентов сети хранения. Такие устройства, которые у одних производителей называются NAS-шлюзами, у других головными NAS-устройствами, становятся своеобразным буфером между локальной сетью и SAN, обеспечивая доступ к данным в SAN на уровне файлов и разделение информации в сети хранения.

Резюме

Построение единых сетевых систем, объединяющих возможности SAN и NAS, - лишь один из шагов в направлении глобальной интеграции корпоративных систем хранения. Дисковые массивы, подключенные напрямую к отдельным серверам, перестали удовлетворять потребностям больших организаций с сложными распределенными ИТ-инфраструктурами. Сегодня просто сети хранения на основе высокопроизводительной, но специализированной технологии Fibre Channel рассматриваются не только как прорыв, но и как источник головной боли из-за сложности инсталляции, проблем с поддержкой оборудования и ПО от разных поставщиков. Однако то, что ресурсы хранения должны быть едиными и сетевыми, сомнения уже не вызывает. Ищутся пути оптимальной консолидации. Отсюда и активизация производителей решений, поддерживающих различные варианты переноса сетей хранения на IP-протокол]. Отсюда и большой интерес к различным реализациям концепции виртуализации хранения. Ведущие игроки рынка систем хранения не просто объединяют все свои продукты под общей «шапкой» (TotalStorage у IBM или SureStore у НР), но формулируют собственные стратегии создания консолидированных, сетевых инфраструктур хранения и защиты корпоративных данных. Ключевую роль в этих стратегиях будет играть идея виртуализации, поддержанная главным образом на уровне мощных программных решений централизованного управления распределенными хранилищами. В таких инициативах, как StorageTank от IBM, Federated Storage Area Management от НР, E-Infrostructure от ЕМС, программное обеспечение играет решающую роль.

Именно информация является движущей силой современного бизнеса и в настоящий момент считается наиболее ценным стратегическим активом любого предприятия. Объем информации растет в геометрической прогрессии вместе с ростом глобальных сетей и развитием электронной коммерции. Для достижения успеха в информационной войне необходимо обладать эффективной стратегией хранения, защиты, совместного доступа и управления самым важным цифровым имуществом - данными - как сегодня, так и в ближайшем будущем.

Управление ресурсами хранения данных стало одной из самых животрепещущих стратегических проблем, стоящих перед сотрудниками отделов информационных технологий. Вследствие развития Интернета и коренных изменений в процессах бизнеса информация накапливается с невиданной скоростью. Кроме насущной проблемы обеспечения возможности постоянного увеличения объема хранимой информации, не менее остро на повестке дня стоит и проблема обеспечения надежности хранения данных и постоянного доступа к информации. Для многих компаний формула доступа к данным «24 часа в сутки, 7 дней в неделю, 365 дней в году» стала нормой жизни.

В случае отдельного ПК под системой хранения данных (СХД) можно понимать отдельный внутренний жесткий диск или систему дисков. Если же речь заходит о корпоративной СХД, то традиционно можно выделить три технологии организации хранения данных: Direct Attached Storage (DAS), Network Attach Storage (NAS) и Storage Area Network (SAN).

Direct Attached Storage (DAS)

Технология DAS подразумевает прямое (непосредственное) подключение накопителей к серверу или к ПК. При этом накопители (жесткие диски, ленточные накопители) могут быть как внутренними, так и внешними. Простейший случай DAS-системы - это один диск внутри сервера или ПК. Кроме того, к DAS-системе можно отнести и организацию внутреннего RAID-массива дисков с использованием RAID-контроллера.

Стоит отметить, что, несмотря на формальную возможность использования термина DAS-системы по отношению к одиночному диску или к внутреннему массиву дисков, под DAS-системой принято понимать внешнюю стойку или корзину с дисками, которую можно рассматривать как автономную СХД (рис. 1). Кроме независимого питания, такие автономные DAS-системы имеют специализированный контроллер (процессор) для управления массивом накопителей. К примеру, в качестве такого контроллера может выступать RAID-контроллер с возможностью организации RAID-массивов различных уровней.

Рис. 1. Пример DAS-системы хранения данных

Следует отметить, что автономные DAS-системы могут иметь несколько внешних каналов ввода-вывода, что обеспечивает возможность подключения к DAS-системе нескольких компьютеров одновременно.

В качестве интерфейсов для подключения накопителей (внутренних или внешних) в технологии DAS могут выступать интерфейсы SCSI (Small Computer Systems Interface), SATA, PATA и Fibre Channel. Если интерфейсы SCSI, SATA и PATA используются преимущественно для подключения внутренних накопителей, то интерфейс Fibre Channel применяется исключительно для подключения внешних накопителей и автономных СХД. Преимущество интерфейса Fibre Channel заключается в данном случае в том, что он не имеет жесткого ограничения по длине и может использоваться в том случае, когда сервер или ПК, подключаемый к DAS-системе, находится на значительном расстоянии от нее. Интерфейсы SCSI и SATA также могут использоваться для подключения внешних СХД (в этом случае интерфейс SATA называют eSATA), однако данные интерфейсы имеют строгое ограничение по максимальной длине кабеля, соединяющего DAS-систему и подключаемый сервер.

К основным преимуществам DAS-систем можно отнести их низкую стоимость (в сравнении с другими решениями СХД), простоту развертывания и администрирования, а также высокую скорость обмена данными между системой хранения и сервером. Собственно, именно благодаря этому они завоевали большую популярность в сегменте малых офисов и небольших корпоративных сетей. В то же время DAS-системы имеют и свои недостатки, к которым можно отнести слабую управляемость и неоптимальную утилизацию ресурсов, поскольку каждая DAS-система требует подключения выделенного сервера.

В настоящее время DAS-системы занимают лидирующее положение, однако доля продаж этих систем постоянно уменьшается. На смену DAS-системам постепенно приходят либо универсальные решения с возможностью плавной миграции с NAS-системам, либо системы, предусматривающие возможность их использования как в качестве DAS-, так и NAS- и даже SAN-систем.

Системы DAS следует использовать при необходимости увеличения дискового пространства одного сервера и вынесения его за корпус. Также DAS-системы можно рекомендовать к применению для рабочих станций, обрабатывающих большие объемы информации (например, для станций нелинейного видеомонтажа).

Network Attached Storage (NAS)

NAS-системы - это сетевые системы хранения данных, непосредственно подключаемые к сети точно так же, как и сетевой принт-сервер, маршрутизатор или любое другое сетевое устройство (рис. 2). Фактически NAS-системы представляют собой эволюцию файл-серверов: разница между традиционным файл-сервером и NAS-устройством примерно такая же, как между аппаратным сетевым маршрутизатором и программным маршрутизатором на основе выделенного сервера.

Рис. 2. Пример NAS-системы хранения данных

Для того чтобы понять разницу между традиционным файл-сервером и NAS-устройством, давайте вспомним, что традиционный файл-сервер представляет собой выделенный компьютер (сервер), на котором хранится информация, доступная пользователям сети. Для хранения информации могут использоваться жесткие диски, устанавливаемые в сервер (как правило, они устанавливаются в специальные корзины), либо к серверу могут подключаться DAS-устройства. Администрирование файл-сервера производится с использованием серверной операционной системы. Такой подход к организации систем хранения данных в настоящее время является наиболее популярным в сегменте небольших локальных сетей, однако он имеет один существенный недостаток. Дело в том, что универсальный сервер (да еще в сочетании с серверной операционной системой) - это отнюдь не дешевое решение. В то же время большинство функциональных возможностей, присущих универсальному серверу, в файл-сервере просто не используется. Идея заключается в том, чтобы создать оптимизированный файл-сервер с оптимизированной операционной системой и сбалансированной конфигурацией. Именно эту концепцию и воплощает в себе NAS-устройство. В этом смысле NAS-устройства можно рассматривать как «тонкие» файл-серверы, или, как их иначе называют, файлеры (filers).

Кроме оптимизированной ОС, освобожденной от всех функций, не связанных с обслуживанием файловой системы и реализацией ввода-вывода данных, NAS-системы имеют оптимизированную по скорости доступа файловую систему. NAS-системы проектируются таким способом, что вся их вычислительная мощь фокусируется исключительно на операциях обслуживания и хранения файлов. Сама операционная система располагается во флэш-памяти и предустанавливается фирмой-производителем. Естественно, что с выходом новой версии ОС пользователь может самостоятельно «перепрошить» систему. Подсоединение NAS-устройств к сети и их конфигурирование представляет собой достаточно простую задачу и по силам любому опытному пользователю, не говоря уже о системном администраторе.

Таким образом, в сравнении с традиционными файловыми серверами NAS-устройства являются более производительными и менее дорогими. В настоящее время практически все NAS-устройства ориентированы на использование в сетях Ethernet (Fast Ethernet, Gigabit Ethernet) на основе протоколов TCP/IP. Доступ к устройствам NAS производится с помощью специальных протоколов доступа к файлам. Наиболее распространенными протоколами файлового доступа являются протоколы CIFS, NFS и DAFS.

CIFS (Common Internet File System System - общая файловая система Интернета) - это протокол, который обеспечивает доступ к файлам и сервисам на удаленных компьютерах (в том числе и в Интернет) и использует клиент-серверную модель взаимодействия. Клиент создает запрос к серверу на доступ к файлам, сервер выполняет запрос клиента и возвращает результат своей работы. Протокол CIFS традиционно используется в локальных сетях с ОС Windows для доступа к файлам. Для транспортировки данных CIFS использует TCP/IP-протокол. CIFS обеспечивает функциональность, похожую на FTP (File Transfer Protocol), но предоставляет клиентам улучшенный контроль над файлами. Он также позволяет разделять доступ к файлам между клиентами, используя блокирование и автоматическое восстановление связи с сервером в случае сбоя сети.

Протокол NFS (Network File System - сетевая файловая система) традиционно применяется на платформах UNIX и представляет собой совокупность распределенной файловой системы и сетевого протокола. В протоколе NFS также используется клиент-серверная модель взаимодействия. Протокол NFS обеспечивает доступ к файлам на удаленном хосте (сервере) так, как если бы они находились на компьютере пользователя. Для транспортировки данных NFS использует протокол TCP/IP. Для работы NFS в Интернeте был разработан протокол WebNFS.

Протокол DAFS (Direct Access File System - прямой доступ к файловой системе) - это стандартный протокол файлового доступа, который основан на NFS. Данный протокол позволяет прикладным задачам передавать данные в обход операционной системы и ее буферного пространства напрямую к транспортным ресурсам. Протокол DAFS обеспечивает высокие скорости файлового ввода-вывода и снижает загрузку процессора благодаря значительному уменьшению количества операций и прерываний, которые обычно необходимы при обработке сетевых протоколов.

DAFS проектировался с ориентацией на использование в кластерном и серверном окружении для баз данных и разнообразных Интернет-приложений, ориентированных на непрерывную работу. Он обеспечивает наименьшие задержки доступа к общим файловым ресурсам и данным, а также поддерживает интеллектуальные механизмы восстановления работоспособности системы и данных, что делает его привлекательным для использования в NAS-системах.

Резюмируя вышеизложенное, NAS-системы можно рекомендовать для использования в мультиплатформенных сетях в случае, когда требуется сетевой доступ к файлам и достаточно важными факторами являются простота установки администрирования системы хранения данных. Прекрасным примером является применение NAS в качестве файл-сервера в офисе небольшой компании.

Storage Area Network (SAN)

Собственно, SAN - это уже не отдельное устройство, а комплексное решение, представляющее собой специализированную сетевую инфраструктуру для хранения данных. Сети хранения данных интегрируются в виде отдельных специализированных подсетей в состав локальной (LAN) или глобальной (WAN) сети.

По сути, SAN-сети связывают один или несколько серверов (SAN-серверов) с одним или несколькими устройствами хранения данных. SAN-сети позволяют любому SAN-серверу получать доступ к любому устройству хранения данных, не загружая при этом ни другие серверы, ни локальную сеть. Кроме того, возможен обмен данными между устройствами хранения данных без участия серверов. Фактически SAN-сети позволяют очень большому числу пользователей хранить информацию в одном месте (с быстрым централизованным доступом) и совместно использовать ее. В качестве устройств хранения данных могут использоваться RAID-массивы, различные библиотеки (ленточные, магнитооптические и др.), а также JBOD-системы (массивы дисков, не объединенные в RAID).

Сети хранения данных начали интенсивно развиваться и внедряться лишь с 1999 года.

Подобно тому как локальные сети в принципе могут строиться на основе различных технологий и стандартов, для построения сетей SAN также могут применяться различные технологии. Но точно так же, как стандарт Ethernet (Fast Ethernet, Gigabit Ethernet) стал стандартом де-факто для локальный сетей, в сетях хранения данных доминирует стандарт Fibre Channel (FC). Собственно, именно развитие стандарта Fibre Channel привело к развитию самой концепции SAN. В то же время необходимо отметить, что все большую популярность приобретает стандарт iSCSI, на основе которого тоже возможно построение SAN-сетей.

Наряду со скоростными параметрами одним из важнейших преимуществ Fibre Channel является возможность работы на больших расстояниях и гибкость топологии. Концепция построения топологии сети хранения данных базируется на тех же принципах, что и традиционные локальные сети на основе коммутаторов и маршрутизаторов, что значительно упрощает построение многоузловых конфигураций систем.

Стоит отметить, что для передачи данных в стандарте Fibre Channel используются как оптоволоконные, так и медные кабели. При организации доступа к территориально удаленным узлам на расстоянии до 10 км используется стандартная аппаратура и одномодовое оптоволокно для передачи сигнала. Если же узлы разнесены на большее расстояние (десятки или даже сотни километров), применяются специальные усилители.

Топология SAN-сети

Типичный вариант SAN-сети на основе стандарта Fibre Channel показан на рис. 3. Инфраструктуру такой SAN-сети составляют устройства хранения данных с интерфейсом Fibre Channel, SAN-серверы (серверы, подключаемые как к локальной сети по интерфейсу Ethernet, так и к SAN-сети по интерфейсу Fiber Channel) и коммутационная фабрика (Fibre Channel Fabric), которая строится на основе Fibre Channel-коммутаторов (концентраторов) и оптимизирована для передачи больших блоков данных. Доступ сетевых пользователей к системе хранения данных реализуется через SAN-серверы. При этом важно, что трафик внутри SAN-сети отделен от IP-трафика локальной сети, что, безусловно, позволяет снизить загрузку локальной сети.

Рис. 3. Типичная схема SAN-сети

Преимущества SAN-сетей

К основным преимуществам технологии SAN можно отнести высокую производительность, высокий уровень доступности данных, отличную масштабируемость и управляемость, возможность консолидации и виртуализации данных.

Коммутационные фабрики Fiber Channel с неблокирующей архитектурой позволяют реализовать одновременный доступ множества SAN-серверов к устройствам хранения данных.

В архитектуре SAN данные могут легко перемещаться с одного устройства хранения данных на другое, что позволяет оптимизировать размещение данных. Это особенно важно в том случае, когда нескольким SAN-серверам требуется одновременный доступ к одним и тем же устройствам хранения данных. Отметим, что процесс консолидации данных невозможен в случае использования других технологий, как, например, при применении DAS-устройств, то есть устройств хранения данных, непосредственно подсоединяемых к серверам.

Другая возможность, предоставляемая архитектурой SAN, - это виртуализация данных. Идея виртуализации заключается в том, чтобы обеспечить SAN-серверам доступ не к отдельным устройствам хранения данных, а к ресурсам. То есть серверы должны «видеть» не устройства хранения данных, а виртуальные ресурсы. Для практической реализации виртуализации между SAN-серверами и дисковыми устройствами может размещаться специальное устройство виртуализации, к которому с одной стороны подключаются устройства хранения данных, а с другой - SAN-серверы. Кроме того, многие современные FC-коммутаторы и HBA-адаптеры предоставляют возможность реализации виртуализации.

Следующая возможность, предоставляемая SAN-сетями, - это реализация удаленного зеркалирования данных. Принцип зеркалирования данных заключается в дублировании информации на несколько носителей, что повышает надежность хранения информации. Примером простейшего случая зеркалирования данных может служить объединение двух дисков в RAID-массив уровня 1. В данном случае одна и та же информация записывается одновременно на два диска. Недостатком такого способа можно считать локальное расположение обоих дисков (как правило, диски находятся в одной и той же корзине или стойке). Сети хранения данных позволяют преодолеть этот недостаток и предоставляют возможность организации зеркалирования не просто отдельных устройств хранения данных, а самих SAN-сетей, которые могут быть удалены друг от друга на сотни километров.

Еще одно преимущество SAN-сетей заключается в простоте организации резервного копирования данных. Традиционная технология резервного копирования, которая используется в большинстве локальных сетей, требует выделенного Backup-сервера и, что особенно важно, выделенной полосы пропускания сети. Фактически во время операции резервного копирования сам сервер становится недоступным для пользователей локальной сети. Собственно, именно поэтому резервное копирование производится, как правило, в ночное время.

Архитектура сетей хранения данных позволяет принципиально по-иному подойти к проблеме резервного копирования. В этом случае Backup-сервер является составной частью SAN-сети и подключается непосредственно к коммутационной фабрике. В этом случае Backup-трафик оказывается изолированным от трафика локальной сети.

Оборудование, используемое для создания SAN-сетей

Как уже отмечалось, для развертывания SAN-сети требуются устройства хранения данных, SAN-серверы и оборудование для построения коммутационной фабрики. Коммутационные фабрики включают как устройства физического уровня (кабели, коннекторы), так и устройства подключения (Interconnect Device) для связи узлов SAN друг с другом, устройства трансляции (Translation devices), выполняющие функции преобразования протокола Fibre Channel (FC) в другие протоколы, например SCSI, FCP, FICON, Ethernet, ATM или SONET.

Кабели

Как уже отмечалось, для соединения SAN-устройств стандарт Fibre Channel допускает использование как волоконно-оптических, так и медных кабелей. При этом в одной SAN-сети могут применяться различные типы кабелей. Медный кабель используется для коротких расстояний (до 30 м), а волоконно-оптический - как для коротких, так и для расстояний до 10 км и больше. Применяют как многомодовый (Multimode), так и одномодовый (Singlemode) волоконно-оптические кабели, причем многомодовый используется для расстояний до 2 км, а одномодовый - для больших расстояний.

Сосуществование различных типов кабелей в пределах одной SAN-сети обеспечивается посредством специальных конверторов интерфейсов GBIC (Gigabit Interface Converter) и MIA (Media Interface Adapter).

В стандарте Fibre Channel предусмотрено несколько возможных скоростей передачи (см. таблицу). Отметим, что в настоящее время наиболее распространены FC-устройства стандартов 1, 2 и 4 GFC. При этом обеспечивается обратная совместимость более скоростных устройств с менее скоростными, то есть устройство стандарта 4 GFC автоматически поддерживает подключение устройств стандартов 1 и 2 GFC.

Устройства подключения (Interconnect Device)

В стандарте Fibre Channel допускается использование различных сетевых топологий подключения устройств, таких как «точка-точка» (Point-to-Point), кольцо с разделяемым доступом (Arbitrated Loop, FC-AL) и коммутируемая связная архитектура (switched fabric).

Топология «точка-точка» может применяться для подключения сервера к выделенной системе хранения данных. В этом случае данные не используются совместно с серверами SAN-сети. Фактически данная топология является вариантом DAS-системы.

Для реализации топологии «точка-точка», как минимум, необходим сервер, оснащенный адаптером Fibre Channel, и устройство хранения данных с интерфейсом Fibre Channel.

Топология кольца с разделенным доступом (FC-AL) подразумевает схему подключения устройств, при котором данные передаются по логически замкнутому контуру. При топологии кольца FC-AL в качестве устройств подключения могут выступать концентраторы или коммутаторы Fibre Channel. При использовании концентраторов полоса пропускания делится между всеми узлами кольца, в то время как каждый порт коммутатора предоставляет протокольную полосу пропускания для каждого узла.

На рис. 4 показан пример кольца Fibre Channel с разделением доступа.

Рис. 4. Пример кольца Fibre Channel с разделением доступа

Конфигурация аналогична физической звезде и логическому кольцу, используемым в локальных сетях на базе технологии Token Ring. Кроме того, как и в сетях Token Ring, данные перемещаются по кольцу в одном направлении, но, в отличие от сетей Token Ring, устройство может запросить право на передачу данных, а не ждать получения пустого маркера от коммутатора. Кольца Fibre Channel с разделением доступа могут адресовать до 127 портов, однако, как показывает практика, типичные кольца FC-AL содержат до 12 узлов, а после подключения 50 узлов производительность катастрофически снижается.

Топология коммутируемой связной архитектуры (Fibre Channel switched-fabric) реализуется на базе Fibre Channel-коммутаторов. В данной топологии каждое устройство имеет логическое подключение к любому другому устройству. Фактически Fibre Channel-коммутаторы связной архитектуры выполняют те же функции, что и традиционные Ethernet-коммутаторы. Напомним, что, в отличие от концентратора, коммутатор - это высокоскоростное устройство, которое обеспечивает подключение по схеме «каждый с каждым» и обрабатывает несколько одновременных подключений. Любой узел, подключенный к Fibre Channel-коммутатору, получает протокольную полосу пропускания.

В большинстве случаев при создании крупных SAN-сетей используется смешанная топология. На нижнем уровне применяются FC-AL-кольца, подключенные к малопроизводительным коммутаторам, которые, в свою очередь, подключаются к высокоскоростным коммутаторам, обеспечивающим максимально возможную пропускную способность. Несколько коммутаторов могут быть соединены друг с другом.

Устройства трансляции

Устройства трансляции являются промежуточными устройствами, выполняющими преобразование протокола Fibre Channel в протоколы более высоких уровней. Эти устройства предназначены для соединения Fibre Channel-сети с внешней WAN-сетью, локальной сетью, а также для присоединения к Fibre Channel-сети различных устройств и серверов. К таким устройствам относятся мосты (Bridge), Fibre Channel-адаптеры (Host Bus Adapters (HBA), маршрутизаторы, шлюзы и сетевые адаптеры. Классификация устройств трансляции показана на рис. 5.

Рис. 5. Классификация устройств трансляции

Наиболее распространенными устройствами трансляции являются HBA-адаптеры с интерфейсом PCI, которые применяются для подключения серверов к сети Fibre Channel. Сетевые адаптеры позволяют подключать локальные Ethernet-сети к сетям Fibre Channel. Мосты используются для подключения устройств хранения данных с SCSI интерфейсом к сети на базе Fibre Channel. Cледует отметить, что в последнее время практически все устройства хранения данных, которые предназначены для применения в SAN, имеют встроенный Fibre Channel и не требуют использования мостов.

Устройства хранения данных

В качестве устройств хранения данных в SAN-сетях могут использоваться как жесткие диски, так и ленточные накопители. Если говорить о возможных конфигурациях применения жестких дисков в качестве устройств хранения данных в SAN-сетях, то это могут быть как массивы JBOD, так и RAID-массивы дисков. Традиционно устройства хранения данных для SAN-сетей выпускаются в виде внешних стоек или корзин, оснащенных специализированным RAID-контроллером. В отличие от NAS- или DAS-устройств, устройства для SAN-систем оснащаются Fibre Channel-интерфейсом. При этом сами диски могут иметь как SCSI-, так и SATA-интерфейс.

Кроме устройств хранения на основе жестких дисков, в SAN-сетях широкое применение находят ленточные накопители и библиотеки.

SAN-серверы

Серверы для сетей SAN отличаются от обычных серверов приложений только одной деталью. Кроме сетевого Ethernet-адаптера, для взаимодействия сервера с локальной сетью они оснащаются HBA-адаптером, что позволяет подключать их к SAN-сетям на основе Fibre Channel.

Системы хранения данных компании Intel

Далее мы рассмотрим несколько конкретных примеров устройств хранения данных компании Intel. Строго говоря, компания Intel не выпускает законченных решений и занимается разработкой и производством платформ и отдельных компонентов для построения систем хранения данных. На основе данных платформ многие компании (в том числе и целый ряд российских компаний) производят уже законченные решения и продают их под своими логотипами.

Intel Entry Storage System SS4000-E

Система хранения данных Intel Entry Storage System SS4000-E представляет собой NAS-устройство, предназначенное для применения в небольших и средних офисах и многоплатформенных локальных сетях. При использовании системы Intel Entry Storage System SS4000-E разделяемый сетевой доступ к данным получают клиенты на основе Windows-, Linux- и Macintosh-платформ. Кроме того, Intel Entry Storage System SS4000-E может выступать как в роли DHCP-сервера, так и DHCP-клиента.

Система хранения данных Intel Entry Storage System SS4000-E представляет собой компактную внешнюю стойку с возможностью установки до четырех дисков с интерфейсом SATA (рис. 6). Таким образом, максимальная емкость системы может составлять 2 Тбайт при использовании дисков емкостью 500 Гбайт.

Рис. 6. Система хранения данных Intel Entry Storage System SS4000-E

В системе Intel Entry Storage System SS4000-E применяется SATA RAID-контроллер с поддержкой уровней RAID-массивов 1, 5 и 10. Поскольку данная система является NAS-устройством, то есть фактически «тонким» файл-сервером, система хранения данных должна иметь специализированный процессор, память и прошитую операционную систему. В качестве процессора в системе Intel Entry Storage System SS4000-E применяется Intel 80219 с тактовой частотой 400 МГц. Кроме того, система оснащена 256 Мбайт памяти DDR и 32 Мбайт флэш-памяти для хранения операционной системы. В качестве операционной системы используется Linux Kernel 2.6.

Для подключения к локальной сети в системе предусмотрен двухканальный гигабитный сетевой контроллер. Кроме того, имеются также два порта USB.

Устройство хранения данных Intel Entry Storage System SS4000-E поддерживает протоколы CIFS/SMB, NFS и FTP, а настройка устройства реализуется с использованием web-интерфейса.

В случае применения Windows-клиентов (поддерживаются ОС Windows 2000/2003/XP) дополнительно имеется возможность реализации резервного копирования и восстановления данных.

Intel Storage System SSR212CC

Система Intel Storage System SSR212CC представляет собой универсальную платформу для создания систем хранения данных типа DAS, NAS и SAN. Эта система выполнена в корпусе высотой 2 U и предназначена для монтажа в стандартную 19-дюймовую стойку (рис. 7). Система Intel Storage System SSR212CC поддерживает установку до 12 дисков с интерфейсом SATA или SATA II (поддерживается функция горячей замены), что позволяет наращивать емкость системы до 6 Тбайт при использовании дисков емкостью по 550 Гбайт.

Рис. 7. Система хранения данных Intel Storage System SSR212CC

Фактически система Intel Storage System SSR212CC представляет собой полноценный высокопроизводительный сервер, функционирующий под управлением операционных систем Red Hat Enterprise Linux 4.0, Microsoft Windows Storage Server 2003, Microsoft Windows Server 2003 Enterprise Edition и Microsoft Windows Server 2003 Standard Edition.

Основу сервера составляет процессор Intel Xeon с тактовой частотой 2,8 ГГц (частота FSB 800 МГц, размер L2-кэша 1 Мбайт). Система поддерживает использование памяти SDRAM DDR2-400 с ECC максимальным объемом до 12 Гбайт (для установки модулей памяти предусмотрено шесть DIMM-слотов).

Система Intel Storage System SSR212CC оснащена двумя RAID-контроллерами Intel RAID Controller SRCS28Xs с возможностью создания RAID-массивов уровней 0, 1, 10, 5 и 50. Кроме того, система Intel Storage System SSR212CC имеет двухканальный гигабитный сетевой контроллер.

Intel Storage System SSR212MA

Система Intel Storage System SSR212MA представляет собой платформу для создания систем хранения данных в IP SAN-сетях на основе iSCSI.

Данная система выполнена в корпусе высотой 2 U и предназначена для монтажа в стандартную 19-дюймовую стойку. Система Intel Storage System SSR212MA поддерживает установку до 12 дисков с интерфейсом SATA (поддерживается функция горячей замены), что позволяет наращивать емкость системы до 6 Тбайт при использовании дисков емкостью по 550 Гбайт.

По своей аппаратной конфигурации система Intel Storage System SSR212MA не отличается от системы Intel Storage System SSR212CC.

Еще никогда проблема хранения файлов не стояла так остро, как сегодня.

Появление жестких дисков объемом в 3 и даже 4ТБ, Blu-Ray дисков емкостью от 25 до 50ГБ, облачных хранилищ - не решает проблему. Вокруг нас становится все больше устройств, порождающих тяжеловесный контент вокруг: фото и видео-камеры, смартфоны, HD-телевидение и видео, игровые консоли и т.п. Мы генерируем и потребляем (в основном из интернета) сотни и тысячи гигабайт.

Это приводит к тому, что на компьютере среднестатистического пользователя хранится огромное количество файлов, на сотни гигабайт: фотоархив, коллекция любимых фильмов, игр, программ, рабочие документы и т.д.

Это все нужно не просто хранить, но и уберечь от сбоев и прочих угроз.

Псевдо-решения проблемы

Можно оснастить свой компьютер емким жестким диском. Но в этом случае встает вопрос: как и куда архивировать, скажем, данные с 3-терабайтного диска?!

Можно поставить два диска и использовать их в режиме RAID «зеркало» или просто регулярно выполнять резервное копирование с одного на другой. Это тоже не лучший вариант. Предположим, компьютер атакован вирусами: скорее всего, они заразят данные на обеих дисках.

Можно хранить важные данные на оптических дисках, организовав домашний Blu-Ray архив. Но пользоваться им будет крайне неудобно.

Сетевое хранилище - решение проблемы! Отчасти…

Network attached storage (NAS) - сетевое файловое хранилище. Но можно объяснить еще проще:

Предположим, у вас дома два или три компьютера. Скорее всего, они подключены к локальной сети (проводной или беспроводной) и к интернету. Сетевое хранилище - это специализированный компьютер, который встраивается в вашу домашнюю сеть и подключается к интернету.

В результате этого - NAS может хранить какие-либо Ваши данные, а вы можете получать к нему доступ с любого домашнего ПК или ноутбука. Забегая вперед, стоит сказать, что локальная сеть должна быть достаточно современной для того, чтобы вы могли быстро и без проблем «прокачивать» по ней десятки и сотни гигабайт между сервером и компьютерами. Но об этом - позже.

Где взять NAS?

Способ первый: покупка. Более-менее приличный NAS на 2 или 4 жестких диска можно купить за 500-800 долларов. Такой сервер будет упакован в небольшой корпус и готов к работе, что называется, «из коробки».

Однако, ПЛЮС к этим 500-800 долларов добавляется еще стоимость жестких дисков! Так как обычно NAS продаются без них.

Плюсы: вы получаете готовое устройство и тратите минимум времени.

Минусы такого решения: NAS стоит как настольный компьютер, но при этом обладает несравнимо меньшими возможностями. Фактически это просто сетевой внешний диск за большие деньги. За довольно большие деньги вы получаете ограниченный, невыгодный набор возможностей.

Мое решение: самостоятельная сборка!

Это намного дешевле покупки отдельного NAS, хоть и чуть дольше ведь вы собираете машину самостоятельно). Однако, вы получаете полноценный домашний сервер, который при желании можно использовать во всем спектре его возможностей.

ВНИМАНИЕ! Я настоятельно не рекомендую собирать домашний сервер, используя старый компьютер или старые, отработавшие свое комплектующие. Не забывайте, что файловый сервер - это хранилище ваших данных. Не поскупитесь сделать его максимально надежным, чтобы в один прекрасный день все ваши файлы не «сгорели» вместе с жесткими дисками, например, из-за сбоя в цепи питания системной платы…

Итак, мы решили собрать домашний файловый сервер. Компьютер, жесткие диски которого доступны в домашней локальной сети для использования. Соответственно, нам нужно чтобы такой компьютер был экономичным в плане энергопотребления, тихим, компактным, не выделял много тепла и обладал достаточной производительностью.

Идеальным решением исходя из этого является системная плата со встроенным в нее процессором и пассивным охлаждением, компактных размеров.

Я выбрал системную плату ASUS С-60M1-I . Она была куплена в интернет-магазине dostavka.ru:

В комплекте поставки качественное руководство пользователя, диск с драйверами, наклейка на корпус, 2 кабеля SATA и задняя панель для корпуса:

ASUS, как впрочем и всегда, укомплектовал плату очень щедро. Полные спецификации платы вы можете узнать здесь: http://www.asus.com/Motherboard/C60M1I/#specifications . Я скажу лишь о некоторых важных моментах.

При стоимости всего в 3300 рублей - она обеспечивает 80% всего того, что нам нужно для сервера.

На борту платы находится двухъядерный процессор AMD C-60 со встроенным графическим чипом. Процессор имеет частоту 1 ГГц (автоматически может увеличиваться до 1,3 ГГц). На сегодня он устанавливается в некоторые нетбуки и даже ноутбуки. Процессор класса Intel Atom D2700. Но всем известно, что Atom имеет проблемы с параллельными вычислениями, что часто сводит его производительность на «нет». А вот C-60 - лишен этого недостатка, и в добавок оснащен довольно мощной для этого класса графикой.

В наличии два слота для памяти DDR3-1066 , с возможностью установки до 8 ГБ памяти.

Плата содержит на борту 6 портов SATA 6 Гбит . Что позволяет подключить к системе целых 6 дисков(!), а не только 4, как в обычном NAS для дома.

Что САМОЕ важное - плата построена на базе UEFI , а не привычного нам BIOS. Это значит, что система сможет нормально работать с жесткими дисками более 2,2 ТБ. Она «увидит» весь их объем. Системные платы на BIOS не могут работать с жесткими дисками более 2,2 ГБ без специальных «утилит-костылей». Разумеется, использование такого рода утилит недопустимо, если мы ведем речь о надежности хранения данных и о серверах.

С-60 довольно холодный процессор, поэтому он охлаждается с помощью одного только алюминиевого радиатора. Этого достаточно, чтобы даже в момент полной загрузки температура процессора не повышалась более 50-55 градусов. Что является нормой.

Набор портов вполне стандартный, огорчает только отсутствие нового USB 3.0. А особо хочется ответить наличие полноценного гигабитного сетевого порта:

На эту плату я установил 2 модуля по 2 ГБ DDR3-1333 от Patriot:

Система Windows 7 Ultimate устанавливалась на жесткий диск WD 500GB Green, а для данных я приобрел HDD Hitachi-Toshiba на 3 ТБ:

Все это оборудование у меня питается от БП FSP на 400 Ватт, что, разумеется - с запасом.

Финальным этапом была сборка всего этого оборудования в корпус mini-ATX.

Сразу после сборки я установил на компьютер Windows 7 Ultimate (установка заняла порядка 2 часов, что нормально, учитывая низкое быстродействие процессора).

После всего этого я отключил от компьютера клавиатуру, мышь и монитор. Фактически, остался один системный блок подключенный к локальной сети по кабелю.

Достаточно запомнить локальный IP этого ПК в сети, чтобы подключатся к нему с любой машины через стандартную Windows-утилиту «Подключение к удаленному рабочему столу»:

Я намеренно не стал устанавливать специализированные операционные системы для организации файлового хранилища, типа FreeNAS. Ведь в таком случае, не было бы особого смысла собирать отдельный ПК под эти нужды. Можно было бы просто купить NAS.

А вот отдельный домашний сервер, который можно загрузить работой на ночь и оставить - это интереснее. К тому же, привычным интерфейсом Windows 7 удобно управлять.

Итого общая стоимость домашнего сервера БЕЗ жестких дисков составила 6 000 рублей.

Важное дополнение

При использовании любого сетевого хранилища очень важна пропускная способность сети. Причем, даже обычная 100 Мегабитная кабельная сеть не приводит в восторг, когда вы, скажем, выполняете архивацию со своего компьютера на домашний сервер. Передать 100 ГБ по 100 Мегабитной сети - это уже несколько часов.

Что уж говорить о Wi-Fi. Хорошо, если вы используете Wi-Fi 802.11n - в этом случае скорость сети держится в районе 100 Мегабит. А если стандарт 802.11g, где скорость редко бывает больше 30 Мегабит? Это очень, очень мало.

Идеальный вариант, когда взаимодействие с сервером происходит по кабельной сети Gigabit Ethernet . В этом случае - это действительно быстро.

Но о том, как создать такую сеть быстро и с минимальными затратами - я расскажу в отдельной статье.

И прочего, среды передачи данных и подключенных к ней серверов. Обычно используется достаточно крупными компаниями, имеющими развитую IT инфраструктуру, для надежного хранения данных и скоростного доступа к ним.
Упрощенно, СХД — это система, позволяющая раздавать серверам надежные быстрые диски изменяемой емкости с разных устройств хранения данных.

Немного теории.
Сервер к хранилищу данных можно подключить несколькими способами.
Первый и самый простой — DAS, Direct Attached Storage (прямое подключение), без затей ставим диски в сервер, или массив в адаптер сервера — и получаем много гигабайт дискового пространства со сравнительно быстрым доступом, и при использовании RAID-массива — достаточную надежность, хотя копья на тему надежности ломают уже давно.
Однако такое использование дискового пространства не оптимально — на одном сервере место кончается, на другом его еще много. Решение этой проблемы — NAS, Network Attached Storage (хранилище, подключенное по сети). Однако при всех преимуществах этого решения — гибкости и централизованного управления — есть один существенный недостаток — скорость доступа, еще не во всех организациях внедрена сеть 10 гигабит. И мы подходим к сети хранения данных.

Главное отличие SAN от NAS (помимо порядка букв в аббревиатурах) — это то, каким образом видятся подключаемые ресурсы на сервере. Если в NAS ресурсы подключаются протоколам NFS или SMB , в SAN мы получаем подключение к диску, с которым можем работать на уровне операций блочного ввода-вывода, что гораздо быстрее сетевого подключения (плюс контроллер массива с большим кэшем добавляет скорости на многих операциях).

Используя SAN, мы сочетаем преимущества DAS — скорость и простоту, и NAS — гибкость и управляемость. Плюс получаем возможность масштабирования систем хранения до тех пор, пока хватает денег, параллельно убивая одним выстрелом еще несколько зайцев, которых сразу не видно:

* снимаем ограничения на дальность подключения SCSI -устройств, которые обычно ограничены проводом в 12 метров,
* уменьшаем время резервного копирования,
* можем грузиться с SAN,
* в случае отказа от NAS разгружаем сеть,
* получаем большую скорость ввода-вывода за счет оптимизации на стороне системы хранения,
* получаем возможность подключать несколько серверов к одному ресурсу, это нам дает следующих двух зайцев:
- на полную используем возможности VMWare — например VMotion (миграцию виртуальной машины между физическими) и иже с ними,
- можем строить отказоустойчивые кластеры и организовывать территориально распределенные сети.

Что это дает?
Помимо освоения бюджета оптимизации системы хранения данных, мы получаем, вдобавок к тому что я написал выше:

* увеличение производительности, балансировку нагрузки и высокую доступность систем хранения за счет нескольких путей доступа к массивам;
* экономию на дисках за счет оптимизации расположения информации;
* ускоренное восстановление после сбоев — можно создать временные ресурсы, развернуть на них backup и подключить к ним сервера, а самим без спешки восстанавливать информацию, или перекинуть ресурсы на другие сервера и спокойно разбираться с умершим железом;
* уменьшение время резервного копирования — благодаря высокой скорости передачи можно бэкапиться на ленточную библиотеку быстрее, или вообще сделать snapshot (мгновенный снимок) с файловой системы и спокойно архивировать его;
* дисковое место по требованию — когда нам нужно — всегда можно добавить пару полок в систему хранения данных.
* уменьшаем стоимость хранения мегабайта информации — естественно, есть определенный порог, с которого эти системы рентабельны.
* надежное место для хранения mission critical и business critical данных (без которых организация не может существовать и нормально работать).
* отдельно хочу упомянуть VMWare — полностью все фишки вроде миграции виртуальных машин с сервера на сервер и прочих вкусностей доступны только на SAN.

Из чего это состоит?
Как я писал выше — СХД состоит из устройств хранения, среды передачи и подключенных серверов. Рассмотрим по порядку:

Системы хранения данных обычно состоят из жестких дисков и контроллеров, в уважающей себя системе как правило всего по 2 — по 2 контроллера, по 2 пути к каждому диску, по 2 интерфейса, по 2 блока питания, по 2 администратора. Из наиболее уважаемых производителей систем следует упомянуть HP, IBM, EMC и Hitachi. Тут процитирую одного представителя EMC на семинаре — «Компания HP делает отличные принтеры. Вот пусть она их и делает!» Подозреваю, что в HP тоже очень любят EMC. Конкуренция между производителями нешуточная, впрочем, как и везде. Последствия конкуренции — иногда вменяемые цены за мегабайт системы хранения и проблемы с совместимостью и поддержкой стандартов конкурентов, особенно у старого оборудования.

Среда передачи данных .

Обычно SAN строят на оптике, это дает на текущий момент скорость в 4, местами в 8 гигабит на канал. При построении раньше использовались специализированные хабы, сейчас больше свитчи, в основном от Qlogic, Brocade, McData и Cisco (последние два на площадках не видел ни разу). Кабели используются традиционные для оптических сетей — одномодовые и многомодовые , одномодовые более дальнобойные.
Внутри используется FCP — Fibre Channel Protocol , транспортный протокол. Как правило внутри него бегает классический SCSI, а FCP обеспечивает адресацию и доставку. Есть вариант с подключением по обычной сети и iSCSI , но он обычно использует (и сильно грузит) локальную, а не выделенную под передачу данных сеть, и требует адаптеров с поддержкой iSCSI, ну и скорость помедленнее, чем по оптике.

Есть еще умное слово топология, которое встречается во всех учебниках по SAN. Топологий несколько, простейший вариант — точка-точка (point to point), соединяем между собой 2 системы. Это не DAS, а сферический конь в вакууме простейший вариант SAN. Дальше идет управляемая петля (FC-AL), она работает по принципу «передай дальше» — передатчик каждого устройства соединен с приемником последующего, устройства замкнуты в кольцо. Длинные цепочки имеют свойство долго инициализироваться.

Ну и заключительный вариант — коммутируемая структура (Fabric), она создается с помощью свитчей. Структура подключений строится в зависимости от количества подключаемых портов, как и при построении локальной сети. Основной принцип построения — все пути и связи дублируются. Это значит, что до каждого устройства в сети есть минимум 2 разных пути. Здесь тоже употребимо слово топология , в смысле организации схемы подключений устройств и соединения свитчей. При этом как правило свитчи настраиваются так, что сервера не видят ничего, кроме предназначенных им ресурсов. Это достигается за счет создания виртуальных сетей и называется зонированием, ближайшая аналогия — VLAN . Каждому устройству в сети присваивается аналог MAC -адреса в сети Ethernet, он называется WWN — World Wide Name . Он присваивается каждому интерфейсу и каждому ресурсу (LUN) систем хранения данных. Массивы и свитчи умеют разграничивать доступ по WWN для серверов.

Сервера подключают к СХД через HBA - Host Bus Adapter -ы. По аналогии с сетевыми картами существуют одно-, двух-, четырехпортовые адаптеры. Лучшие "собаководы" рекомендуют ставить по 2 адаптера на сервер, это позволяет как осуществлять балансировку нагрузки, так и обеспечивает надежность.

А дальше на системах хранения нарезаются ресурсы, они же диски (LUN) для каждого сервера и оставляется место в запас, все включается, установщики системы прописывают топологию, ловят глюки в настройке свитчей и доступа, все запускается и все живут долго и счастливо*.
Я специально не касаюсь разных типов портов в оптической сети, кому надо — тот и так знает или прочитает, кому не надо — только голову забивать. Но как обычно, при неверно установленном типе порта ничего работать не будет.

Из опыта.
Обычно при создании SAN заказывают массивы с несколькими типами дисков: FC для скоростных приложений, и SATA или SAS для не очень быстрых. Таким образом получаются 2 дисковые группы с различной стоимостью мегабайта — дорогая и быстрая, и медленная и печальная дешевая. На быструю вешаются обычно все базы данных и прочие приложения с активным и быстрым вводом-выводом, на медленную — файловые ресурсы и все остальное.

Если SAN создается с нуля — имеет смысл строить ее на основе решений от одного производителя. Дело в том, что, несмотря на заявленное соответствие стандартам, существуют подводные грабли проблемы совместимости оборудования, и не факт, что часть оборудования будет работать друг с другом без плясок с бубном и консультаций с производителями. Обычно для утряски таких проблем проще позвать интегратора и дать ему денег, чем общаться с переводящими друг на друга стрелки производителями.

Если SAN создается на базе существующей инфраструктуры — все может быть сложно, особенно если есть старые SCSI массивы и зоопарк старой техники от разных производителей. В этом случае имеет смысл звать на помощь страшного зверя интегратора, который будет распутывать проблемы совместимости и наживать третью виллу на Канарах.

Часто при создании СХД фирмы не заказывают поддержку системы производителем. Обычно это оправдано, если у фирмы есть штат грамотных компетентных админов (которые уже 100 раз назвали меня чайником) и изрядный капитал, позволяющий закупить запасные комплектующие в потребных количествах. Однако компетентных админов обычно переманивают интеграторы (сам видел), а денег на закупку не выделяют, и после сбоев начинается цирк с криками «Всех уволю!» вместо звонка в саппорт и приезда инженера с запасной деталью.

Поддержка обычно сводится к замене умерших дисков и контроллеров, ну и к добавлению в систему полок с дисками и новых серверов. Много хлопот бывает после внезапной профилактики системы силами местных специалистов, особенно после полного останова и разборки-сборки системы (и такое бывает).

Про VMWare. Насколько я знаю (спецы по виртуализации поправьте меня), только у VMWare и Hyper-V есть функционал, позволяющий «на лету» перекидывать виртуальные машины между физическими серверами. И для его реализации требуется, чтобы все сервера, между которыми перемещается виртуальная машина, были подсоединены к одному диску.

Про кластеры. Аналогично случаю с VMWare, известные мне системы построения отказоустойчивых кластеров (Sun Cluster, Veritas Cluster Server) — требуют подключенного ко всем системам хранилища.

Пока писал статью — у меня спросили — в какие RAIDы обычно объединяют диски?
В моей практике обычно делали или по RAID 1+0 на каждую дисковую полку с FC дисками, оставляя 1 запасной диск (Hot Spare) и нарезали из этого куска LUN-ы под задачи, или делали RAID5 из медленных дисков, опять же оставляя 1 диск на замену. Но тут вопрос сложный, и обычно способ организации дисков в массиве выбирается под каждую ситуацию и обосновывается. Та же EMC например идет еще дальше, и у них есть дополнительная настройка массива под приложения, работающие с ним (например под OLTP, OLAP). С остальными вендорами я так глубоко не копал, но догадываюсь, что тонкая настройка есть у каждого.

* до первого серьезного сбоя, после него обычно покупается поддержка у производителя или поставщика системы.

Что такое системы хранения данных (СХД) и для чего они нужны? В чём разница между iSCSI и FibreChannel? Почему данное словосочетание только в последние годы стало известно широкому кругу IT-специалистов и почему вопросы систем хранения данных всё больше и больше тревожат вдумчивые умы?

Думаю, многие заметили тенденции развития в окружающем нас компьютерном мире – переход от экстенсивной модели развития к интенсивной. Наращивание мегагерц процессоров уже не даёт видимого результата, а развитие накопителей не поспевает за объёмом информации. Если в случае процессоров всё более или менее понятно – достаточно собирать многопроцессорные системы и/или использовать несколько ядер в одном процессоре, то в случае вопросов хранения и обработки информации так просто от проблем не избавиться. Существующая на данный момент панацея от информационной эпидемии – СХД. Название расшифровывается как Сеть Хранения Данных (Storage Area Network) или Система Хранения Данных. В любом случае – это спе

Основные проблемы, решаемые СХД

Итак, какие же задачи призвана решить СХД? Рассмотрим типичные проблемы, связанные с растущими объёмами информации в любой организации. Предположим, что это хотя бы несколько десятков компьютеров и несколько разнесённых территориально офисов.

1. Децентрализация информации – если раньше все данные могли храниться буквально на одном жёстком диске, то сейчас любая функциональная система требует отдельного хранилища – к примеру, серверов электронной почты, СУБД, домена и так далее. Ситуация усложняется в случае распределённых офисов (филиалов).

2. Лавинообразный рост информации – зачастую количество жёстких дисков, которые вы можете установить в конкретный сервер, не может покрыть необходимую системе ёмкость. Как следствие:
Невозможность полноценно защитить хранимые данные – действительно, ведь довольно трудно произвести даже backup данных, которые находятся не только на разных серверах, но и разнесены территориально.
Недостаточная скорость обработки информации – каналы связи между удалёнными площадками пока оставляют желать лучшего, но даже при достаточно «толстом» канале не всегда возможно полноценное использование существующих сетей, например, IP, для работы.
Сложность резервного копирования – если данные читаются и записываются небольшими блоками, то произвести полное архивирование информации с удалённого сервера по существующим каналам может быть нереально – необходима передача всего объёма данных. Архивирование на местах зачастую нецелесообразно по финансовым соображениям – необходимы системы для резервного копирования (ленточные накопители, например), специальное ПО (которое может стоить немалых денег), обученный и квалифицированный персонал.

3. Сложно или невозможно предугадать требуемый объём дискового пространства при развертывании компьютерной системы. Как следствие:
Возникают проблемы расширения дисковых ёмкостей – довольно сложно получить в сервере ёмкости порядков терабайт, особенно если система уже работает на существующих дисках небольшой ёмкости – как минимум, требуется остановка системы и неэффективные финансовые вложения.
Неэффективная утилизация ресурсов – порой не угадать, в каком сервере данные будут расти быстрее. В сервере электронной почты может быть свободен критически малый объём дискового пространства, в то время как другое подразделение будет использовать всего лишь 20% объёма недешёвой дисковой подсистемы (например, SCSI).

4. Низкая степень конфиденциальности распределённых данных – невозможно проконтролировать и ограничить доступ в соответствии с политикой безопасности предприятия. Это касается как доступа к данным по существующим для этого каналам (локальная сеть), так и физического доступа к носителям – к примеру, не исключены хищения жёстких дисков, их разрушение (с целью затруднить бизнес организации). Неквалифицированные действия пользователей и обслуживающего персонала могут нанести ещё больший вред. Когда компания в каждом офисе вынуждена решать мелкие локальные проблемы безопасности, это не даёт желаемого результата.

5. Сложность управления распределёнными потоками информации – любые действия, которые направлены на изменения данных в каждом филиале, содержащем часть распределённых данных, создает определённые проблемы, начиная от сложности синхронизации различных баз данных, версий файлов разработчиков и заканчивая ненужным дублированием информации.

6. Низкий экономический эффект внедрения «классических» решений – по мере роста информационной сети, больших объёмов данных и всё более распределённой структуры предприятия финансовые вложения оказываются не столь эффективны и зачастую не могут решить возникающих проблем.

7. Высокие затраты используемых ресурсов для поддержания работоспособности всей информационной системы предприятия – начиная от необходимости содержать большой штат квалифицированного персонала и заканчивая многочисленными недешёвыми аппаратными решениями, которые призваны решить проблему объёмов и скоростей доступа к информации вкупе с надёжностью хранения и защитой от сбоев.

В свете вышеперечисленных проблем, которые рано или поздно, полностью или частично настигают любую динамично развивающуюся компанию, попробуем обрисовать системы хранения данных – такими, какими они должны быть. Рассмотрим типовые схемы подключения и виды систем хранения данных.

Мегабайты/транзакции?

Если раньше жёсткие диски находились внутри компьютера (сервера), то теперь им там стало тесно и не очень надёжно. Самое простое решение (разработанное достаточно давно и применяемое повсеместно) – технология RAID .

images\RAID\01.jpg

При организации RAID в любых системах хранения данных дополнительно к защите информации мы получаем несколько неоспоримых преимуществ, одно из которых – скорость доступа к информации.

С точки зрения пользователя или ПО, скорость определяется не только пропускной способностью системы (Мбайт/с), но и числом транзакций – то есть числом операций ввода-вывода в единицу времени (IOPS). Увеличению IOPS способствует, что вполне логично, большее число дисков и те методики повышения производительности, которые предоставляет контроллер RAID (к примеру, кэширование).

Если для просмотра потокового видео или организации файл-сервера больше важна общая пропускная способность, то для СУБД, любых OLTP (online transaction processing) приложений критично именно число транзакций, которые способна обрабатывать система. А с этим параметром у современных жёстких дисков всё не так радужно, как с растущими объёмами и, частично, скоростями. Все эти проблемы призвана решить сама система хранения данных.

Уровни защиты

Нужно понимать, что в основе всех систем хранения данных лежит практика защиты информации на базе технологии RAID – без этого любая технически продвинутая СХД будет бесполезна, потому что жёсткие диски в этой системе являются самым ненадёжным компонентом. Организация дисков в RAID – это «нижнее звено», первый эшелон защиты информации и повышения скорости обработки.

Однако, кроме схем RAID, существует и более низкоуровневая защита данных, реализованная «поверх» технологий и решений, внедрённых в сам жёсткий диск его производителем. К примеру, у одного из ведущих производителей СХД – компании EMC – существует методика дополнительного анализа целостности данных на уровне секторов накопителя.

Разобравшись с RAID, перейдём к структуре самих СХД. Прежде всего, СХД разделяются по типу используемых интерфейсов подключения хостов (серверов). Внешние интерфейсы подключения – это, в основном SCSI или FibreChannel, а также довольно молодой стандарт iSCSI. Также не стоит сбрасывать со счетов небольшие интеллектуальные хранилища, которые могут подключаться даже по USB или FireWire. Мы не станем рассматривать более редкие (порой просто неудачные в том или ином плане) интерфейсы, как SSA от IBM или интерфейсы, разработанные для мейнфреймов – к примеру, FICON/ESCON. Особняком стоят хранилища NAS, подключаемые в сеть Ethernet. Под словом «интерфейс» в основном понимается внешний разъём, но не стоит забывать, что разъём не определяет протокол связи двух устройств. На этих особенностях мы остановимся чуть ниже.

images\RAID\02.gif

Расшифровывается как Small Computer System Interface (читается «скази») – полудуплексный параллельный интерфейс. В современных системах хранения данных чаще всего представлен разъёмом SCSI:

images\RAID\03.gif

images\RAID\04.gif

И группой протоколов SCSI, а конкретнее – SCSI-3 Parallel Interface. Отличие SCSI от знакомого нам IDE – бОльшее число устройств на канал, бОльшая длина кабеля, бОльшая скорость передачи данных, а также «эксклюзивные» особенности типа high voltage differential signaling, command quequing и некоторые другие – углубляться в этот вопрос мы не станем.
Если говорить об основных производителях компонент SCSI, например SCSI-адаптеров, RAID-контроллеров с интерфейсом SCSI, то любой специалист сразу вспомнит два названия – Аdaptec и LSI Logic . Думаю, этого достаточно, революций на этом рынке не было уже давно и, вероятно, не предвидится.

Интерфейс FibreChannel

Полнодуплексный последовательный интерфейс. Чаще всего в современном оборудовании представлен внешними оптическими разъёмами типа LC или SC (LC – меньше по размерам):

images\RAID\05.jpg

images\RAID\06.jpg

…и протоколами FibreChannel Protocols (FCP). Существует несколько схем коммутации устройств FibreChannel:

Point-to-Point – точка-точка, прямое соединение устройств между собой:

images\RAID\07.gif

Crosspoint Switched – подключение устройств в коммутатор FibreChannel (аналогичное реализации сети Ethernet на коммутаторах):

images\RAID\08.gif

Arbitrated loop – FC-AL, петля с арбитражным доступом – все устройства связаны друг с другом в кольцо, схема чем-то напоминает Token Ring. Также может использоваться коммутатор – тогда физическая топология будет реализована по схеме «звезда», а логическая – по схеме «петля» (или «кольцо»):

images\RAID\09.gif

Подключение по схеме FibreChannel Switched является самой распространённой схемой, в терминах FibreChannel такое подключение называется Fabric – в русском языке существует калька с него – «фабрика». Следует учесть, что коммутаторы FibreChannel – это довольно продвинутые устройства, по сложности наполнения близкие к IP-коммутаторам уровня 3. Если коммутаторы соединены между собой, то они функционируют в единой фабрике, имея пул настроек, действующих для всей фабрики сразу. Изменение каких-то опций на одном из коммутаторов может приводить к перекоммутации всей фабрики, не говоря уже о настройках авторизации доступа, к примеру. С другой стороны, существуют схемы SAN, которые подразумевают несколько фабрик внутри единой сети SAN. Таким образом, фабрикой можно называть только группу объединённых между собой коммутаторов – два или более не объединённых между собой устройства, введённые в SAN для повышения отказоустойчивости, образуют две или более различные фабрики.

Компоненты, позволяющие объединять хосты и системы хранения данных в единую сеть, принято обозначать термином «connectivity». Connectivity – это, конечно же, дуплексные соединительные кабели (обычно с интерфейсом LC), коммутаторы (switches) и адаптеры FibreChannel (HBA, Host Base Adapters) – то есть те платы расширения, которые, будучи установленными в хосты, позволяют подключить хост в сеть SAN. HBA обычно реализованы в виде плат стандарта PCI-X или PCI-Express.

images\RAID\10.jpg

Не стоит путать fibre и fiber – среда распространения сигнала может быть различной. FibreChannel может работать по «меди». Например, все жёсткие диски FibreChannel имеют металлические контакты, да и обычная коммутация устройств по «меди» – не редкость, просто постепенно все переходят на оптические каналы как наиболее перспективную технологию и функциональную замену «меди».

Интерфейс iSCSI

Обычно представлен внешним разъёмом RJ-45 для подключения в сеть Ethernet и собственно самим протоколом iSCSI (Internet Small Computer System Interface). По определению SNIA: «iSCSI - это протокол, который базируется на TCP/IP и разработан для установления взаимодействия и управления системами хранения данных, серверами и клиентами». На этом интерфейсе остановимся немножко подробней, хотя бы в силу того, что каждый пользователь способен использовать iSCSI даже в обычной «домашней» сети.

Необходимо знать, что протокол iSCSI определяет, как минимум, транспортный протокол для SCSI, который работает поверх TCP, и технологию инкапсуляции SCSI-команд в сеть на базе IP. Проще говоря, iSCSI – это протокол, позволяющий получить блочный доступ к данным с помощью команд SCSI, пересылаемых через сеть со стеком TCP/IP. iSCSI появился как замена FibreChannel и в современных СХД имеет перед ним несколько преимуществ – способность объединять устройства на огромных расстояниях (используя существующие сети IP), возможность обеспечивать заданный уровень QoS (Quality of Service, качество обслуживания), более низкую стоимость connectivity. Однако основная проблема использования iSCSI как замены FibreChannel – большое время задержек, возникающих в сети из-за особенностей реализации стека TCP/IP, что сводит на нет одно из важных преимуществ использования СХД – скорость доступа к информации и низкую латентность. Это серьёзный минус.

Маленькое замечание по поводу хостов – они могут использовать как обычные сетевые карты (тогда обработка стека iSCSI и инкапсуляция команд будет осуществляться программными средствами), так и специализированные карты с поддержкой технологий аналогичных TOE (TCP/IP Offload Engines). Такая технология обеспечивает аппаратную обработку соответствующей части стека протокола iSCSI. Программный метод дешевле, однако больше загружает центральный процессор сервера и в теории может приводить к бОльшим задержкам, чем аппаратный обработчик. При современной скорости сетей Ethernet в 1 Гбит/с можно предположить, что iSCSI будет работать ровно в два раза медленнее FibreChannel со скоростью 2 Гбит, однако в реальном применении разница будет ещё заметнее.

Помимо уже рассмотренных, кратко упомянем ещё пару протоколов, которые встречаются более редко и предназначены для предоставления дополнительных сервисов уже существующим сетям хранения данных (SAN):

FCIP (Fibre Channel over IP) – туннельный протокол, построенный на TCP/IP и предназначенный для соединения географически разнесённых сетей SAN через стандартную среду IP. Например, можно объединить две сети SAN в одну через Интернет. Достигается это использованием FCIP-шлюза, который прозрачен для всех устройств в SAN.
iFCP (Internet Fibre Channel Protocol) – протокол, позволяющий объединять устройства с интерфейсами FC через IP-сети. Важное отличие от FCIP в том, что возможно объединять именно FC-устройства через IP-сеть, что позволяет для разной пары соединений иметь разный уровень QoS, что невозможно при туннелировании через FCIP.

Мы кратко рассмотрели физические интерфейсы, протоколы и типы коммутации для систем хранения данных, не останавливаясь на перечислении всех возможных вариантов. Теперь попытаемся представить какие же параметры характеризуют системы хранения данных?

Основные аппаратные параметры СХД

Некоторые из них были перечислены выше – это тип внешних интерфейсов подключения и типы внутренних накопителей (жёстких дисков). Следующий параметр, который есть смысл рассматривать после двух вышеперечисленных при выборе дисковой системы хранения, – её надёжность. Надёжность можно оценить не по банальному времени наработки на отказ каких-то отдельных компонент (факт, что это время примерно равно у всех производителей), а по внутренней архитектуре. «Обычная» система хранения часто «внешне» представляет собой дисковую полку (для монтажа в 19-дюймовый шкаф) с жёсткими дисками, внешними интерфейсами для подключения хостов, несколькими блоками питания. Внутри обычно установлено всё то, что обеспечивает работу системы хранения – процессорные блоки, контроллеры дисков, портов ввода-вывода, кэш-память и так далее. Обычно управление стойкой осуществляется из командной строки или по web-интерфейсу, начальная конфигурация часто требует подключения по последовательному интерфейсу. Пользователь может «разбить» имеющиеся в системе диски на группы и объединить их в RAID (различных уровней), получившееся дисковое пространство разделяется на один или несколько логических блоков (LUN), к которым и имеют доступ хосты (серверы) и «видят» их как локальные жёсткие диски. Количество RAID-групп, LUN-ов, логика работы кэша, доступность LUN-ов конкретным серверам и всё остальное настраивается администратором системы. Обычно СХД предназначены для подключения к ним не одного, а нескольких (вплоть до сотен, в теории) серверов – посему такая система должна обладать высокой производительностью, гибкой системой управления и мониторинга, продуманными средствами защиты данных. Защита данных обеспечивается многими способами, самый простой из которых вы уже знаете – объединение дисков в RAID. Однако данные должны быть ещё и постоянно доступны – ведь остановка одной системы хранения данных, центральной на предприятии, способна нанести ощутимые убытки. Чем больше систем хранит данные на СХД, тем более надёжный доступ к системе должен быть обеспечен – потому что при аварии СХД останавливается работа сразу всех серверов, хранящих там данные. Высокая доступность стойки обеспечивается полным внутренним дублированием всех компонент системы – путей доступа к стойке (портов FibreChannel), процессорных модулей, кэш-памяти, блоков питания и т.д. Попытаемся принцип 100%-го резервирования (дублирования) объяснить следующим рисунком:

images\RAID\11.gif

1. Контроллер (процессорный модуль) СХД, включающий в себя:
*центральный процессор (или процессоры) – обычно на системе работает специальное ПО, выполняющее роль «операционной системы»;
*интерфейсы для коммутации с жёсткими дисками – в нашем случае это платы, обеспечивающие подключение дисков FibreChannel по схеме петли с арбитражным доступом (FC-AL);
*кэш-память;
*контроллеры внешних портов FibreChannel
2. Внешний интерфейс FC; как мы видим, тут их по 2 штуки на каждый процессорный модуль;
3. Жёсткие диски – ёмкость расширяется дополнительными дисковыми полками;
4. Кэш-память в такой схеме обычно зеркалируется, чтобы не потерять сохранённые там данные при выходе любого модуля из строя.

Касательно аппаратной части – дисковые стойки могут иметь различные интерфейсы для подключения хостов, различные интерфейсы жёстких дисков, различные схемы подключения дополнительных полок, служащих для увеличения числа дисков в системе, а также другие чисто «железные параметры».

Программное обеспечение СХД

Естественно, аппаратная мощь систем хранения должна как-то управляться, а сами СХД просто обязаны предоставлять уровень сервиса и функциональность, недоступную в обычных схемах «сервер-клиент». Если рассмотреть рисунок «Структурная схема системы хранения данных», становится понятно, что при прямом подключении сервера к стойке двумя путями они должны быть подключены к FC-портам различных процессорных модулей, для того чтобы сервер продолжал работать при выходе из строя сразу всего процессорного модуля. Естественно, для использования multipathing должна быть обеспечена поддержка этой функциональности аппаратными и программными средствами всех уровней, участвующих в передаче данных. Конечно же, полное резервирование без средств мониторинга и оповещения не имеет смысла – поэтому все серьёзные системы хранения имеют такие возможности. К примеру, оповещение о каких-либо критических событиях может происходить различными средствами – это оповещение по e-mail, автоматический модемный звонок в центр техподдержки, сообщение на пейджер (сейчас актуальнее SMS), SNMP-механизмы и прочее.

Ну и как мы уже упоминали, существуют мощные средства управления всем этим великолепием. Обычно это web-интерфейс, консоль, возможность писать скрипты и встраивать управление во внешние программные пакеты. Про механизмы, обеспечивающие высокую производительность СХД, упомянем лишь вкратце – неблокируемая архитектура с несколькими внутренними шинами и большим количеством жёстких дисков, мощные центральные процессоры, специализированная система управления (ОС), большой объём кэш-памяти, множество внешних интерфейсов ввода-вывода.

Сервисы, предоставляемые системами хранения, обычно определяются программным обеспечением, функционирующим на самой дисковой стойке. Практически всегда это сложные программные пакеты, приобретаемые по отдельным лицензиям, не входящим в стоимость самой СХД. Сразу упомянем уже знакомое вам ПО для обеспечения multipathing – вот оно как раз функционирует на хостах, а не на самой стойке.

Следующее по популярности решение – ПО для создания мгновенных и полных копий данных. Различные производители по-разному называют свои программные продукты и механизмы создания этих копий. Мы для обобщения можем манипулировать словами снапшот (snapshot) и клон (clone). Клон делается средствами дисковой стойки внутри самой стойки – это полная внутренняя копия данных. Сфера применения довольно широка – от бэкапа (backup) до создания «тестовой версии» исходных данных, к примеру, для рискованных модернизаций, в которых нет уверенности и применять которые на актуальных данных небезопасно. Тот, кто внимательно следил за всеми прелестями СХД, которые мы тут разбирали, спросит – для чего же нужен бэкап данных внутри стойки, если она обладает такой высокой надёжностью? Ответ на этот вопрос на поверхности – никто не застрахован от человеческих ошибок. Данные сохранены надёжно, но если сам оператор сделал что-то не так, к примеру, удалил нужную таблицу в базе данных, от этого не спасут никакие аппаратные ухищрения. Клонирование данных обычно выполняется на уровне LUN. Более интересная функциональность обеспечивается механизмом снапшотов. В какой-то мере мы получаем все прелести полной внутренней копии данных (клона), при этом не занимая 100% объёма копируемых данных внутри самой стойки, ведь такой объём нам не всегда доступен. По сути снапшот – мгновенный «снимок» данных, который не занимает времени и процессорных ресурсов СХД.

Конечно нельзя не упомянуть ПО для репликации (replication) данных, которое часто называют зеркалированием (mirroring). Это механизм синхронного или асинхронного реплицирования (дублирования) информации с одной системы хранения на одну или несколько удалённых систем хранения. Репликация возможна по различных каналам – к примеру, стойки с интерфейсами FibreChannel могут асинхронно, через Интернет и на большие расстояния, реплицироваться на другую СХД. Такое решение обеспечивает надёжность хранения информации и защиту от катастроф.

Кроме всех перечисленных, существует большое число других программных мехонизмов манипуляций данными...

DAS & NAS & SAN

После знакомства с самими системами хранения данных, принципами их построения, предоставляемыми ими возможностями и протоколами функционирования самое время попробовать объединить полученные знания в работающую схему. Попробуем рассмотреть типы систем хранения и топологии их подключения в единую работающую инфраструктуру.

Устройства DAS (Direct Attached Storage) – системы хранения, подключаемые напрямую к серверу. Сюда относятся как самые простые SCSI-системы, подключаемые к SCSI/RAID-контроллеру сервера, так и устройства FibreChannel, подключенные прямо к серверу, хотя и предназначены они для сетей SAN. В этом случае топология DAS является вырожденной SAN (сетью хранения данных):

images\RAID\12.gif

В этой схеме один из серверов имеет доступ к данным, хранящимся на СХД. Клиенты получают доступ к данным, обращаясь к этому серверу через сеть. То есть сервер имеет блочный доступ к данным на СХД, а уже клиенты пользуются файловым доступом – эта концепция очень важна для понимания. Минусы такой топологии очевидны:
*Низкая надежность – при проблемах сети или аварии сервера данные становятся недоступны всем сразу.
*Высокая латентность, обусловленная обработкой всех запросов одним сервером и использующимся транспортом (чаще всего – IP).
*Высокая загрузка сети, часто определяющая пределы масштабируемости путём добавления клиентов.
*Плохая управляемость – вся ёмкость доступна одному серверу, что снижает гибкость распределения данных.
*Низкая утилизация ресурсов – трудно предсказать требуемые объёмы данных, у одних устройств DAS в организации может быть избыток ёмкости (дисков), у других её может не хватать – перераспределение часто невозможно или трудоёмко.

Устройства NAS (Network Attached Storage) – устройства хранения, подключённые напрямую в сеть. В отличие от других систем NAS обеспечивает файловый доступ к данным и никак иначе. NAS-устройства представляют из себя комбинацию системы хранения данных и сервера, к которому она подключена. В простейшем варианте обычный сетевой сервер, предоставляющий файловые ресурсы, является устройством NAS:

images\RAID\13.gif

Все минусы такой схемы аналогичны DAS-топологии, за некоторым исключением. Из добавившихся минусов отметим возросшую, и часто значительно, стоимость – правда, стоимость пропорциональна функциональности, а тут уже часто «есть за что платить». NAS-устройства могут быть простейшими «коробочками» с одним портом ethernet и двумя жёсткими дисками в RAID1, позволяющими доступ к файлам по лишь одному протоколу CIFS (Common Internet File System) до огромных систем в которых могут быть установлены сотни жёстких дисков, а файловый доступ обеспечивается десятком специализированных серверов внутри NAS-системы. Число внешних Ethernet-портов может достигать многих десятков, а ёмкость хранимых данных – несколько сотен терабайт (например EMC Celerra CNS). Такие модели по надёжности и производительности могут далеко обходить многие midrange-устройства SAN. Что интересно, NAS-устройства могут быть частью SAN-сети и не иметь собственных накопителей, а лишь предоставлять файловый доступ к данным, находящимся на блочных устройствах хранения. В таком случае NAS берёт на себя функцию мощного специализированного сервера, а SAN – устройства хранения данных, то есть мы получаем топологию DAS, скомпонованную из NAS- и SAN-компонентов.

NAS-устройства очень хороши в гетерогенной среде, где необходим быстрый файловый доступ к данным для многих клиентов одновременно. Также обеспечивается отличная надёжность хранения и гибкость управления системой вкупе с простотой обслуживания. На надёжности особо останавливаться не будем – этот аспект СХД рассмотрен выше. Что касается гетерогенной среды, доступ к файлам в рамках единой NAS-системы может быть получен по протоколам TCP/IP, CIFS, NFS, FTP, TFTP и другим, включая возможность работы NAS, как iSCSI-target, что обеспечивает функционирование с различным ОС, установленными на хостах. Что касается лёгкости обслуживания и гибкости управления, то эти возможности обеспечиваются специализированной ОС, которую трудно вывести из строя и не нужно обслуживать, а также простотой разграничения прав доступа к файлам. К примеру, возможна работа в среде Windows Active Directory с поддержкой требуемой функциональности – это может быть LDAP, Kerberos Authentication, Dynamic DNS, ACLs, назначение квот (quotas), Group Policy Objects и SID-истории. Так как доступ обеспечивается к файлам, а их имена могут содержать символы различных языков, многие NAS обеспечивают поддержку кодировок UTF-8, Unicode. К выбору NAS стоит подходить даже тщательнее, чем к DAS-устройствам, ведь такое оборудование может не поддерживать необходимые вам сервисы, например, Encrypting File Systems (EFS) от Microsoft и IPSec. К слову можно заметить, что NAS распространены намного меньше, чем устройства SAN, но процент таких систем всё же постоянно, хотя и медленно, растёт – в основном за счёт вытеснения DAS.

Устройства для подключения в SAN (Storage Area Network) – устройства для подключения в сеть хранения данных. Сеть хранения данных (SAN) не стОит путать с локальной сетью – это различные сети. Чаще всего SAN основывается на стеке протоколов FibreChannel и в простейшем случае состоит из СХД, коммутаторов и серверов, объединённых оптическими каналами связи. На рисунке мы видим высоконадёжную инфраструктуру, в которой серверы включены одновременно в локальную сеть (слева) и в сеть хранения данных (справа):

images\RAID\14.gif

После довольно детального рассмотрения устройств и принципов их функционирования нам будет довольно легко понять топологию SAN. На рисунке мы видим единую для всей инфраструктуры СХД, к которой подключены два сервера. Серверы имеют резервированные пути доступа – в каждом установлено по два HBA (или один двухпортовый, что снижает отказоустойчивость). Устройство хранения имеет 4 порта, которыми оно подключено в 2 коммутатора. Предполагая, что внутри имеется два резервируемых процессорных модуля, легко догадаться, что лучшая схема подключения – когда каждый коммутатор подключён и в первый, и во второй процессорный модуль. Такая схема обеспечивает доступ к любым данным, находящимся на СХД, при выходе из строя любого процессорного модуля, коммутатора или пути доступа. Надёжность СХД нами уже изучена, два коммутатора и две фабрики ещё более увеличивают доступность топологии, так что если из-за сбоя или ошибки администратора один из коммутационных блоков вдруг отказал, второй будет функционировать нормально, ведь эти два устройства не связаны между собой.

Показанное подключение серверов называется подключением с высокой доступностью (high availability), хотя в сервере при необходимости может быть установлено ещё большее число HBA. Физически каждый сервер имеет только два подключения в SAN, однако логически система хранения доступна через четыре пути – каждая HBA предоставляет доступ к двум точкам подключения на СХД, к каждому процессорному модулю раздельно (эту возможность обеспечивает двойное подключение коммутатора к СХД). На данной схеме самое ненадежной устройство – это сервер. Два коммутатора обеспечивают надежность порядка 99,99%, а вот сервер может отказать по разным причинам. Если необходима высоконадёжная работа всей системы, серверы объединяются в кластер, приведённая схема не требует никакого аппаратного дополнения для организации такой работы и считается эталонной схемой организации SAN. Простейший же случай – серверы, подключённые единственным путем через один свитч к системе хранения. Однако система хранения при наличии двух процессорных модулей должна подключаться в коммутатор как минимум одним каналом на каждый модуль – остальные порты могут быть использованы для прямого подключения серверов к СХД, что иногда необходимо. И не стоит забывать, что SAN возможно построить не только на базе FibreChannel, но и на базе протокола iSCSI – при этом можно использовать только стандартные ethernet-устройства для коммутации, что удешевляет систему, но имеет ряд дополнительных минусов (оговоренных в разделе, рассматривающем iSCSI). Также интересна возможность загрузки серверов с системы хранения – не обязательно даже наличие внутренних жёстких дисков в сервере. Таким образом, с серверов окончательно снимается задача хранения каких-либо данных. В теории специализированный сервер может быть превращён в обычную числодробилку без каких-либо накопителей, определяющими блоками которого являются центральные процессоры, память, а так же интерфейсы взаимодействия с внешним миром, например порты Ethernet и FibreChannel. Какое-то подобие таких устройств являют собой современные blade-серверы.

Хочется отметить, что устройства, которые возможно подключить в SAN, не ограничены только дисковыми СХД – это могут быть дисковые библиотеки, ленточные библиотеки (стримеры), устройства для хранения данных на оптических дисках (CD/DVD и прочие) и многие другие.
Из минусов SAN отметим лишь высокую стоимость её компонент, однако плюсы неоспоримы:
* Высокая надёжность доступа к данным, находящимся на внешних системах хранения. Независимость топологии SAN от используемых СХД и серверов.
* Централизованное хранение данных (надёжность, безопасность).
* Удобное централизованное управление коммутацией и данными.
* Перенос интенсивного трафика ввода-вывода в отдельную сеть, разгружая LAN.
* Высокое быстродействие и низкая латентность.
* Масштабируемость и гибкость логической структуры SAN
* Географически размеры SAN, в отличие от классических DAS, практически не ограничены.
* Возможность оперативно распределять ресурсы между серверами.
* Возможность строить отказоустойчивые кластерные решения без дополнительных затрат на базе имеющейся SAN.
* Простая схема резервного копирования – все данные находятся в одном месте.
* Наличие дополнительных возможностей и сервисов (снапшоты, удаленная репликация).
* Высокая степень безопасности SAN.

В заключение
Думаю, мы достаточно полно осветили основной круг вопросов, связанных с современными системами хранения. Будем надеяться, что такие устройства будут ещё стремительнее развиваться функционально, а число механизмов управления данными будет только расти.

В заключение можно сказать, что NAS и SAN-решения в данный момент переживают настоящий бум. Число производителей и разнообразие решений увеличивается, техническая грамотность потребителей растёт. Смело можно предполагать, что в ближайшем будущем практически в каждой вычислительной среде появятся те или иные системы хранения данных.

Любые данные предстают перед нами в виде информации. Смысл работы любых вычислительных устройств – обработка информации. В последнее время объёмы её роста порой пугают, поэтому системы хранения данных и специализированное программное обеспечение, несомненно, будут самым востребованными продуктами IT-рыка в ближайшие годы.