Базовые технологии в системах хранения данных (стр. 1 из 4)

Информация становится одним из наиболее важных активов предприятия и определяет его конкурентоспособность. Одна из наиболее сложных проблем, которые встают перед менеджерами по информационным технологиям, — огромный объем распределенных данных, циркулирующих в информационной системе. Невозможность эффективно управлять ими может негативно влиять на прибыльность предприятия и ограничивать его способность к росту. Поэтому передача, хранение, защита и управление данными в условиях постоянного роста их объема и усложнения структуры стали сегодня основными проблемами для бизнеса.

Для многих система хранения данных ассоциируется с устройствами хранения и в первую очередь с дисковыми массивами. Действительно, дисковые массивы сейчас — основные устройства хранения данных, однако не стоит забывать, что обработка информации, формирование логической структуры ее хранения (дисковых томов и файловых систем) выполняется на сервере. В процедуры доступа к данным (помимо процессоров и памяти сервера) вовлечены установленные в нем адаптеры, работающие по определенному протоколу, драйверы, обеспечивающие взаимодействие» этих адаптеров с операционной системой, менеджер дисковых томов, файловая система и менеджер памяти ОС и т. д.

Как правило, система хранения данных содержит следующие подсистемы и компоненты: непосредственно устройства хранения (дисковые массивы, ленточные библиотеки), инфраструктуру доступа к устройствам хранения, подсистему резервного копирования и архивирования данных, ПО управления хранением, систему управления и мониторинга.

Традиционный подход к хранилищам данных состоит в непосредственном подключении серверов к системе хранения DAS (Direct Attached Storage). Помимо DAS, существуют устройства хранения данных, подключаемые к сети, — NAS (Network Attached Storage), a также компоненты сетей хранения данных — SAN (Storage Area Networks). И NAS-, и SAN-системы появились в качестве альтернативы архитектуре DAS. Причем каждое решение разрабатывалось как ответ на растущие требования к системам хранения данных и основывалось на использовании доступных в то время технологиях. Чтобы лучше понять преимущества сетевых моделей, начнем с традиционной.

Системы хранения прямого подключения

Устройства хранения DAS, также известные как SAS (Server Attached Storage), т. е. системы, подключаемые непосредственно к серверу, были разработаны много лет назад для расширения емкости хранения существующих серверов. В те времена при необходимости увеличения числа томов, связанных с приложениями, к серверу добавлялись новые диски либо приобретался новый сервер. Принимая во внимание технологические ограничения того времени (узкая полоса пропускания, медленные сети, дорогостоящие микропроцессоры) и относительно низкие требования к емкости и времени доступа, системы DAS были вполне адекватным решением.

Один из недостатков технологии DAS в сегодняшней ИТ-инфраструктуре — доступность дисковой системы, ассоциированной с данным сервером, только через это устройство, что приводит к созданию отдельных «островов» данных. Кроме того, файлы не могут совместно использоваться несколькими серверами, а для добавления дисковых накопителей к сети серверы должны быть переведены в автономный режим. Чтобы разрешить эти проблемы и обеспечить избыточность и высокую готовность данных, компаниям приходилось копировать данные на несколько серверов и использовать различные RAID-конфигурации. В настоящее время, невзирая на значительные изменения в объемах хранения и характере информационных систем, решения DAS остаются в основе своей неизменными. Поскольку с течением времени росли требования к системам хранения, компании просто добавляли диски к своим серверам и серверы к своим сетям. То, что когда-то было практичным решением, теперь привело к тому, что у компаний образовалась сложная инфраструктура систем хранения данных и огромные серверные фермы, которыми все труднее управлять.

Сетевое хранение данных

Архитектуры сетевых систем хранения были разработаны в 1990-х гг., и их задачей было устранение основных недостатков систем DAS. В общем случае сетевые решения в области систем хранения должны были реализовать три задачи: снизить затраты и сложность управления данными, уменьшить трафик локальных сетей, повысить степень готовности данных и общую производительность. При этом архитектуры NAS и SAN решают различные аспекты общей проблемы. Результатом стало одновременное сосуществование двух сетевых архитектур, каждая из которых имеет свои преимущества и функциональные возможности.

Устройства хранения данных, подключаемые к сети NAS

Основная задача систем NAS — упростить совместное использование файлов. На базовом уровне устройства NAS — это оборудование, которое подключается непосредственно к локальной сети. В этом состоит их основное отличие от систем с индивидуальными серверами с прямым подключением изолированных накопителей. Устройства NAS, часто называемые файлерами, состоят из единого головного устройства, выполняющего обработку данных и осуществляющего сетевое соединение цепочки дисков. Устройства NAS позволяют использовать системы хранения в сетях Ethernet, в них для организации совместного доступа к файлам применяется протокол TCP/IP. Эти устройства позволяют клиентам совместно использовать файлы, даже если клиентские системы работают под управлением различных ОС. В отличие от архитектуры DAS, в системах NAS не требуется переводить серверы в автономный режим для увеличения общей емкости; диски можно добавлять в структуру NAS простым подключением устройства в сеть.

NAS-устройства не могут совместно использовать носители других NAS-устройств в сети, при этом каждое добавляемое в сеть устройство хранения должно управляться как отдельный том. То, что NAS-устройства оперируют только в файловом формате и не способны разделять свою емкость хранения между несколькими узлами, — еще один ограничивающий фактор их применения.

Сети хранения данных (SAN)

Эти решения стали ответом не только на недостатки систем DAS и NAS, но, что более важно, на проблемы перегрузки каналов связи и задержки в локальных IP-сетях (10/100-Мбит/с). Впервые концепция SAN была предложена в 1998 г. Как и многие другие современные компьютерные технологии, она была заимствована из мира мэйнфреймов, где применялась, например, в центрах обработки данных для подключения компьютеров к системам хранения и распределенным сетям. Основное различие между SAN и NAS состоит в способе организации обмена данными между устройствами хранения и серверами. Вообще говоря, архитектура SAN нацелена на разрешение проблем, вызываемых интенсивными процедурами резервного копирования и обмена данными путем перенесения всей системы в выделенную подсеть. Основанные на протоколе Fibre Channel системы SAN позволяют в широких пределах изменять емкость системы хранения данных и гарантировать более высокую пропускную способность в пределах выделенной подсети (дисковые массивы и ленточные библиотеки, не оборудованные интерфейсами Fibre Channel, можно подключить к SAN, используя маршрутизаторы Fibre Channel-SCSI).

Оптимизация архитектуры SAN для протокола передачи данных на уровне блоков сделала естественным ее применение для работы с большими базами данных. Она стала рассматриваться как надежное решение, особенно для динамичного структурированного контента. В отличие от архитектуры NAS, сеть хранения не использует существующую локальную сеть для передачи данных между серверами и устройствами хранения; данные перемещаются по самой сети хранения, не вызывая в локальной сети избыточного трафика. Однако использование блочных команд ввода-вывода означает, что, несмотря на возможность совместного использования накопителей различными серверами, совместное использование файлов различными пользователями в общем случае невозможно, что вместе с высокой стоимостью и необходимостью привлечения значительных ресурсов для управления этими сложными решениями может ограничивать сферы применения данной технологии.

Таким образом, пользователи традиционно обращаются к устройствам DAS и SAN для передачи данных на уровне блоков. При этом можно более точно определить, где и как эти данные будут храниться. Однако в типичных клиент-серверных архитектурах предпочтительнее использовать серверы NAS для передачи данных на уровне файлов. Следует отметить, что в настоящее время созданы устройства, в которых обеспечивается совместимость как с блочными, так и с файловыми протоколами, т. е. работающие и как SAN, и как NAS.

Управление жизненным циклом информации

Вместе с увеличивающимся объемом данных растут и системы хранения. Однако, используя старые методы, управлять такими системами становится все труднее, а стоимость их резко возрастает. И при этом трудно реализовывать высокую доступность, достаточную производительность, адекватную темпам развития бизнеса, надежность хранения информации, которая соответствует требованиям бизнеса и государственных регулирующих органов по долгосрочному хранению информации.

Одно из решений этой проблемы — разделение данных по критерию их ценности для бизнеса и управление информацией с учетом изменения ее ценности во времени. Такой подход стали называть управлением жизненным циклом информации ILM (Information Life-cycle Management). Согласно этой концепции, наиболее важная на текущий момент информация должна автоматически перемещаться на самую быструю, надежную и защищенную систему хранения данных. В свою очередь менее важная перемещается на более дешевую и менее скоростную систему. Архивные данные, например, должны записываться на магнитные ленты и удаляться с рабочей системы, чтобы не снижать скорость доступа к самой критичной в данный момент информации. Уже ненужная информация будет автоматически удаляться из системы. Процесс этот должен быть цикличным.

Один из методов для разрешения противоречия между объемами хранимых данных и временем доступа к ним - это так называемое управление иерархическим хранением HSM (Hierarchical Storage Management). В HSM реализуется политика архивирования редко используемых данных; с дисков они переписываются на ленты с компрессией. Концепция ILM — шаг вперед по отношению к идеологии HSM. Большинство экспертов полагают, что ILM как бы «интеллектуализирует» традиционное понятие HSM, так как новый подход не просто оперирует блоками данных, а направлен на управление реальным содержанием данных на всем протяжении их жизненного цикла. Дело в том, что ILM — это стратегия проактивного управления информацией, она не сводится к какому-то определенному ПО или аппаратуре.