Сравнение подходов к крупномасштабному анализу данных

       

Загрузка и размещение данных


В параллельных СУБД имеется возможность реорганизации входных данных во время загрузки. Это позволяет производить некоторые оптимизации, такие как хранение каждого атрибута таблиц по отдельности (как это делается в поколоночных системах типа Vertica). Для запросов на выборку данных, которые затрагивают только часть атрибутов таблицы, эта оптимизация может существенно повысить производительность, позволяя не читать с диска значения атрибутов, которые не требуются для выполнения данного запроса. Аналогично описанной выше оптимизации сжатия данных, это позволяет более рационально использовать пропускную способность ввода-вывода. Системы MR по умолчанию не преобразуют данные при их загрузке в распределенную файловую систему, и поэтому они не способны изменить схему хранения входных данных, что препятствует выполнению оптимизаций отмеченного класса. Кроме того, для Hadoop всегда требовалось больше ресурсов ЦП, чем для параллельных СУБД, при пропуске эквивалентных задач, поскольку этой системе приходится разбирать и десериализовывать записи входных данных во время выполнения, в то время как параллельные системы баз данных производят разбор во время загрузки данных и могут быстро извлекать значения атрибутов кортежей практически без накладных расходов.

Но упрощенный процесс загрузки в MR гораздо проще и быстрее загрузки данных в СУБД. Результаты п. 4.2.1 и 4.3.1 показывают, что загрузка данных в Hadoop происходит более чем в три раза быстрее, чем в Vertica, и почти в 20 раз быстрее, чем в СУБД-X. Это говорит о том, что для данных, которые загружаются только для решения некоторых типов аналитических задач, может оказаться нецелесообразно тратить дополнительные расходы на их индексацию и реорганизацию, свойственные СУБД. Это также говорит о том, что СУБД могут выиграть от поддержки режима обработки данных «на месте», позволяющего пользователям непосредственно обращаться и направлять запросы к файлам, сохраняемым в локальной файловой системе.



Содержание раздела