Статья

Внедрение Ceph позволяет отказаться от закупки дорогого оборудования

Экспертиза RedSys
, Текст: Наталья Рудычева

Объектные хранилища на open source платформе Ceph повышают скорость записи и чтения данных, одновременно позволяя сэкономить на закупке оборудования и лицензий за счет использования стандартных серверов, работающих под Linux. Таковы результаты экспертизы, проведенной специалистами компании RedSys.

Два подхода к хранению: реляционные и объектные хранилища

На программном уровне существует два базовых подхода к хранению данных. Классический вариант представляет собой реляционное хранение, при котором записи данных структурируются в виде таблиц, а поиск информации осуществляется по атрибутам, с помощью которых выстраиваются отношения между «ячейками» записей. Это наиболее распространенная модель, которая эффективна при анализе структурированных данных.

Однако в последние годы значительно возросло количество неструктурированных данных, которые генерируют растущий «зоопарк» информационных систем и цифровых устройств. Потенциально эти данные могут быть полезны, но прежде чем извлечь ценную информацию, огромный массив данных необходимо записать и сохранить. Эту задачу решают объектные хранилища.

По принципу своей организации они напоминают файловые системы – существует множество объектов, к каждому из которых приписывается идентификатор. Такой подход выгоден, когда необходимая высока скорость для поиска и записи, так как сама организация хранения объектного хранилища дает преимущество в этой области.

Быстродействие при записи достигается за счет того, что у объектов нет изменяемых атрибутов и нет необходимости выстраивать между объектами отношения, как в реляционной модели. Скорость записи на дисках SATA HDD при использовании объектного хранения на основе Ceph будет в несколько раз выше, чем при использовании системы управления реляционными базами данных DB2 производства IBM .

В случае с поиском информации объектные хранилища также оказываются «быстрее», так как поиск данных осуществляется напрямую по его идентификатору, в то время как при реляционном хранении вначале необходимо обратиться к системе управления базой данных (СУБД).

Дополнительным преимуществом объектных хранилищ являются более высокая надежность. При реляционном хранении в случае частичной потери записи нарушается структура всей таблицы, и доступ теряется ко всем данным. В случае с объектным хранением, при частичной потере данных, объекты, не содержавшие пропавшие данные, остаются доступными для операций.

Программно-определяемое хранение

Важным дополнением инфраструктуры хранения больших данных являются программно-определяемые технологии (Software-Defined-Storage, SDS), которые позволяют решить проблемы масштабируемости. У вендоров «железа» существуют предел масштабировании решений – в рамках одной СХД можно объединить ограниченное число типовых шкафов с оборудованием. Если потребности заказчика превышают данный объем, то рядом приходится строить новую СХД, которая логически представляет собой независимый комплекс хранения. Решения SDS позволяют рассматривать различное оборудование в качестве типовых виртуальных «сущностей», что снимает лимит масштабируемости.

В чем преимущества Open Source?

Программное обеспечение с открытым кодом для построения объектных хранилищ обладает рядом преимуществ. Во-первых, такие системы не привязаны к железу определенного вендора, они способны работать с разными типами оборудования от различных производителей. Во-вторых, в решениях open source используется software-defined подход, который позволяет снять проблемы масштабируемости. В-третьих, у ПО с открытым кодом нет ограничений по времени тестирования. Для проприетраных решений эти сроки лимитированы, и если заказчик не укладывается в заданные временные рамки, то далее необходимо приобретать лицензию. Кроме того, наличие исходных кодов позволяет решать проблемы силами собственных разработчиков при низком качестве технической поддержки.

Почему Ceph?

Платформа Ceph обладает несколькими конкурентными преимуществами по сравнению с другими решения Open Source.

Во-первых, кластеры Ceph могут использоваться не только для объектного хранения, но и в качестве виртуализационной платформы. Объектное хранилище предстает как файловая система блочных устройств (block device – вид файла устройств в UNIX/Linux-системах, обеспечивающий интерфейс к реальному или виртуальному диску). Использование Ceph совместно с VMware или другим поставщиком платформы виртуализации позволяет экономить на лицензиях.

Во-вторых, в решениях Ceph все узлы равноправны, что позволяет сохранять производительность на высоком уровне. Например, в OpenStack Swift выделяются ключевые узлы, которые превращаются в узкое горлышко данной системы и ограничивает масштабирование.

Экономика объектного хранения на Ceph

Тестирование показывает, что использование объектного хранилища на Ceph позволяет отказаться от закупки дорогостоящего оборудования, так как после внедрения сопоставимая производительность достигается даже на старом «железе». Если СХД не справляется с записью большого объема данных, то перед предприятием встает дилемма: либо заменить реляционную базу данных на более эффективное объектное хранение, либо купить более производительное железо. Очевидно, что первый вариант намного дешевле.

Например, для эксплуатации реляционной базы данных под управлением DB2 потребуется закупить мейнфреймы IBM с RISC-процессорами и проприетарной операционной системой IBM zOS. Объектное хранилище на Ceph сможет работать на обычных стоечных серверах x86 под управлением операционной системы Linux. В случае с мейнфреймами IBM речь идет о крупных внедрениях, в которых стоимость конфигурации железа составит миллионы долларов, в то время как с помощью Ceph можно реализовать небольшие кластеры, где бюджет на закупку серверов составит всего несколько десятков тысяч долларов.

Объектное хранилище для госорганов

Проект по строительству объектного хранилища на Ceph был реализован компанией RedSys для крупного федерального ведомства. Целью проекта было повышение производительности, так как системы управления реляционными базами данных IBM не справлялась с входящим потоком. Закупка оборудования для хранилища была рассчитана на объем в 500TB (терабайт). Запуск в опытную эксплуатацию состоялся в этом году, по его результатам руководство ведомства приняло решение о расширении проекта и переводе на объектное хранение архивов, использующих ленточные носители.

Павел Лебедев

Видео