МОГучие способности новые приемы анализа больших данных

       

Новые требования


Как люди, искушенные в данных, аналитики предъявляют новый набор требований к среде базы данных. У них имеется глубокое понимание корпоративных данных, и они стремятся быть первопроходцами новых источников данных. Аналогично тому, как системные инженеры всегда склонны к работе с новейшей и мощнейшей аппаратурой, аналитики всегда жаждут новых источников данных. Когда появляются новые бизнес-процессы, производящие данные, аналитики немедленно требуют новых данных.

Эти требования к скорости поступления и широте охвата новых данных создают напряженность в отношениях с ортодоксами хранилищ данных. Инмон описывает традиционную точку зрения следующим образом:

Невозможно занести данные ... в среду хранилища данных без их предварительной интеграции. Если в хранилище данных поступают не интегрированные данные, их невозможно использовать для поддержки единого представления данных. А единое представление данных во многом является сутью планируемой среды.

К сожалению, проблема полной интеграции нового источника данных в "планируемое" хранилище данных часто является весьма существенной, и ее решение может задержать возможность доступа к данным на месяца, а во многих случаях и навсегда. Архитектурная точка зрения приводит к разногласиям в аналитике, отталкиванию источников данных от хранилища данных, и в результате получается поверхностное, неполное хранилище данных. Эта точка зрения противоречит идеалам MAD.

В условиях возрастающей сложности аналитических методов и увеличивающейся значимости аналитики мы принимаем ту точку зрения, что намного более важно обеспечить аналитикам гибкость, чем стремиться к иллюзорному идеалу полной интеграции. В действительности, в любой организации именно аналитики притягивают, отыскивают интересные данные, которые должны стать частью единой большой картины. Они могут также действовать как система раннего обнаружения касательно проблем качества данных. Ради возможности познакомиться с данными первыми они готовы смириться с наличием "грязных" данных, и они будут сами следить за тем, чтобы операционные данные выверялись до их поступления в хранилище данных.
У аналитиков обычно имеются более высокие стандарты качества данных, чем у типичного бизнес-подразделения, работающего с инструментами BI. Они не боятся больших плоских таблиц, хранящих полные наборы данных, пренебрегая образцами и агрегатами, которые могут маскировать ошибки и приводить к потере важных характеристик на хвостах распределений.

По нашему опыту, хорошие отношения с группой аналитики является отличной профилактической мерой для избежания будущих проблем с управлением данными. Удовлетворение их потребностей и отзывчивость к их заботам способствуют улучшению жизнеспособности всего хранилища данных.

В конечном счете, аналитика производит новые продукты данных, обладающие высокой значимостью для предприятия. Аналитики – это не только потребители, но и производители корпоративных данных. Для этого требуется подготовить хранилище данных к преобразованию данных, генерируемых аналитиками, в продукты данных, пригодные для использования в стандартных средствах бизнес-отчетности.

Полезно также при возможности использовать единую параллельную платформу и нагрузить ее как можно большей функциональностью. Это снижает стоимость операций и упрощает эволюцию программного обеспечения от экспериментальных программ аналитиков к производственному коду, влияющему на рабочие характеристики. Например, жизненный цикл некоторого алгоритма размещения рекламы мог бы начаться с отвлеченной аналитической задачи, а закончиться программным средством, обращенным к заказчикам. Если этот средство работает под управлением данными, лучше всего, чтобы весь его жизненный цикл происходил в единой среде разработки над полным набором данных предприятия. В этом отношении мы согласны с центральным догматом ортодоксов хранилищ данных: заметным преимуществом является размещение всех данных организации в одном репозитории. Мы расходится во мнениях по поводу того, как следует достигать этой цели.

Короче говоря, в разумном бизнесе следует использовать не планируемое хранилище данных, а, скорее, некоторую развивающуюся структуру, над которой повторяется непрерывный цикл изменений:



  1. В данном бизнесе производится анализ для определения областей потенциального совершенствования.


  2. Бизнес либо реагирует на результаты этого анализа, либо их игнорирует.
  3. Реагирование приводит к появлению новых или изменению существующих методов ведения бизнеса (возможно, новых процессов или систем взаимодействия подразделений), которые обычно генерируют новые наборы данных.


  4. Аналитики включают новые наборы данных в свои модели.


  5. Бизнес опять задается вопросом "Как можно еще усовершенствоваться?"


В разумном, конкурентноспособном бизнесе будут изыскиваться способы ускорить прохождение этого цикла. Описываемый далее подход MAD является конструктивным шаблоном, призванным поддерживать эту возрастающую скорость.


Содержание раздела