Основні концепції сховищ даних

Основні положення концепції ХД

В основі концепції ХД лежать такі положення:

  • інтеграція та узгодження даних із різних джерел, таких як звичайні системи оперативної обробки, бази даних, облікові системи, офісні документи, електронні архіви, розташовані як усередині підприємства, так і у зовнішньому оточенні;
  • поділ наборів даних, що використовуються системами виконання транзакцій та СППР.

Інмон дав таке визначення ХД: предметно-орієнтований, інтегрований, незмінний та підтримуючий хронологію набір даних, призначений для забезпечення прийняття управлінських рішень.

Під предметною орієнтованістю у разі мається на увазі, що ХД має розроблятися з урахуванням специфіки конкретної предметної області, а чи не аналітичних додатків, із якими його передбачається використовувати. Структура ХД має відображати уявлення аналітика про інформацію, з якою йому доводиться працювати.

Інтегрованість означає, що має бути забезпечена можливість завантаження в ХД інформації з джерел, які підтримують різні формати даних і створені в різних додатках - облікових системах, базах даних, електронних таблицях та інших офісних додатках, що підтримують структурованість даних (наприклад, текстові файли з роздільниками). При цьому дані, що допускають різний формат (наприклад, числа, дата та час), у процесі завантаження мають бути перетворені на єдине уявлення. Крім того, дуже важливо перевірити дані, що завантажуються на цілісність і несуперечність, забезпечити необхідний рівень їх узагальнення (агрегування). Обсяг даних у сховищі має бути достатнім для ефективного вирішення аналітичних завдань, тому в ХД може накопичуватись інформація за кілька роківі навіть десятиліть.

Принцип незмінності передбачає, що, на відміну від звичайних систем оперативної обробки даних, в ХД дані після завантаження не повинні зазнавати будь-яких змін, за винятком додавання нових даних.

І нарешті, підтримка хронології означає дотримання порядку записів, для чого в структуру ХД вводяться ключові атрибути Дата і Час. Крім того, якщо фізично впорядкувати записи у хронологічному порядку, наприклад, у порядку зростання атрибута Дата, можна зменшити час виконання аналітичних запитів.

Використання концепції ХД у СППР та аналізі даних сприяє досягненню таких цілей, як:

  • своєчасне забезпечення аналітиків та керівників всією інформацією, необхідною для вироблення обґрунтованих та якісних управлінських рішень;
  • створення єдиної моделі представлення даних у організації;
  • створення інтегрованого джерела даних, що надає зручний доступ до різноманітної інформації та гарантує отримання однакових відповідей на однакові запити з різних аналітичних додатків.

Завдання, які вирішуються ХД

Процес розробки ХД дуже трудомісткий, деякі організації витрачають нього кілька місяців і навіть років, і навіть вкладають значні кошти. Основними завданнями, які потрібно вирішити у процесі розробки ХД, є:

  • вибір структури зберігання даних, що забезпечує високу швидкість виконання запитів та мінімізацію обсягу оперативної пам'яті;
  • первісне заповнення та подальше поповнення сховища;
  • забезпечення єдиної методики роботи з різнорідними даними та створення зручного інтерфейсу користувача.

Коло завдань інтелектуального аналізу даних дуже широке, а саміЗавдання суттєво різняться за рівнем складності. Тому залежно від специфіки розв'язуваних завдань та рівня їх складності архітектура ХД та моделі даних, що використовуються для їх побудови, можуть відрізнятися. Узагальнена концептуальна схема ХД представлена ​​на рис. 4.

даних
Мал. 4. Концептуальна схема ХД

Згідно зі схемою дані вилучаються з різних джерел і завантажуються в ХД, яке містить як дані, представлені відповідно до деякої моделі, так і метадані.

Деталізовані та агреговані дані

Дані у ХД зберігаються як у деталізованому, так і в агрегованому вигляді. Дані в деталізованому вигляді надходять безпосередньо з джерел даних та відповідають елементарним подіям, що реєструються OLTP-системами. Такими даними можуть бути щоденні продажі, кількість виробів і т.д. Це неподільні значення, спроба додатково деталізувати які позбавляє їхнього логічного сенсу.

Багато завдань аналізу (наприклад, прогнозування) вимагають використання даних певного ступеня узагальнення. Наприклад, суми продажів, взяті щодня, можуть дати дуже нерівномірний ряд даних, що ускладнить виявлення характерних періодів, закономірностей чи тенденцій. Однак, якщо узагальнити ці дані в межах тижня або місяця та взяти суму, середнє, максимальне та мінімальне значення за відповідний період, то отриманий ряд може виявитися більш інформативним. Процес узагальнення деталізованих даних називається агрегуванням, а самі узагальнені дані агрегованими (іноді агрегатами). Зазвичай агрегування піддаються числові дані (факти), вони обчислюються і містяться в ХД разом з деталізованими даними.

Оскільки один і той же набір деталізованих даних можепородити кілька наборів агрегованих даних з різним ступенем узагальнення, обсяг ХД зростає, іноді суттєво. Наприклад, набір, що містить дані про продажі щодня протягом року, окрім своїх 360 значень, породжує 52 значення з узагальненням по тижнях та 12 — по місяцях. Якщо при цьому обчислюються всі види агрегації - сума, середнє, максимальне та мінімальне значення за відповідний період, - то кількість агрегованих значень, що зберігаються, складе вже (52 + 12) • 4 = 256. Іноді це призводить до «вибухового», неконтрольованого зростання ХД і викликає серйозні технічні проблеми: сховище «розпухає» через те, що безперервний потік вхідних даних автоматично агрегується відповідно до налаштувань ХД. Однак із цим доводиться миритися: якби агреговані дані не містилися в ХД, а обчислювалися у процесі виконання запитів, час виконання запиту збільшився б у кілька разів.

Метадані

Слово «метадані» (від грецьк. meta та лат. data) буквально перекладається як «дані про дані». Метадані у сенсі необхідні опису значення і властивостей інформації з кращого її розуміння, використання та управління нею. Будь-яка людина, яка читала книги або користувалася бібліотекою, тією чи іншою мірою мала справу з метаданими.

З погляду IT-технологій метадані - будь-яка інформація, необхідна для аналізу, проектування, побудови, впровадження та застосування комп'ютерної інформаційної системи. Одне з основних призначень метаданих – підвищення ефективності пошуку. Пошукові запити, що використовують метадані, уможливлюють виконання складних операцій з фільтрації та відбору даних.

Якщо розглядати поняття «метадані» у контексті технології ХД, то його можна визначити в такий спосіб.

Метадані - високорівневі засоби відображення інформаційної моделі та опис структури даних, що використовується в ХД. Метадані повинні містити опис структури даних сховища та структури даних джерел, що імпортуються. Метадані зберігаються окремо від даних у так званому репозитарії метаданих.

Метадані є ключовим фактором успіху при розробці та впровадженні ХД. Вони містять всю інформацію, необхідну для вилучення, перетворення та завантаження даних з різних джерел, а також для подальшого використання та інтерпретації даних, що містяться у ХД.

Можна виділити два рівні метаданих – технічний (адміністративний) та бізнес-рівень. Технічний рівень містить метадані, необхідні для забезпечення функціонування сховища (статистика завантаження даних та їх використання, опис моделі даних тощо). Бізнес-метадані забезпечують користувачеві можливість концентруватися на процесі аналізу, а не на технічних аспектах роботи зі сховищем; вони включають бізнес-терміни та визначення, якими звик оперувати користувач.

Фактично бізнес-метадані є описом предметної області, до роботи у якій створюється аналітична система чи ХД. До формування бізнес-метаданих мають активно залучатися експерти та аналітики, які згодом і будуть використовувати систему для отримання аналітичних звітів.

Бізнес-метадані описують об'єкти предметної області, інформація про які міститься в ХД, атрибути об'єктів та їх можливі значення, відповідні поля в таблицях і т.д. Бізнес-метадані утворюють так званий семантичний прошарок. Користувач оперує близькими йому термінами предметної області: товар, клієнт, продажу, покупки і т.д., а семантичний шар транслює бізнес-терміни у низькорівневі запити до даних у сховищі.

Способи використання ХД

За допомогою аналітичної програми, що використовується спільно з ХД, можна формувати запити і отримувати дані зі сховища. Дані можуть візуалізуватися безпосередньо або оброблятися засобами аналітичного додатку, тоді візуалізуються результати цієї обробки.

Спектр аналітичних завдань дуже широкий. Відповідно, і методики застосування ХД на вирішення тих чи інших завдань дуже різноманітні. Проте можна виділити три основні підходи до використання ХД:

  • регулярні звіти - підготовка звітів стандартних форм, що одержуються багаторазово з певною періодичністю;
  • нерегламентовані запити – можливість отримувати відповіді на нестандартні, сформовані «на вимогу» питання;
  • інтелектуальний аналіз даних - підтримка процесу інтелектуального аналізу великих масивів даних з метою виявлення прихованих закономірностей, структур та об'єктів, побудови моделей, прогнозів тощо.

Короткий огляд архітектур ХД

Розробка та побудова корпоративного ХД – це дороге та трудомістке завдання. Успішність впровадження ХД багато в чому залежить від рівня інформатизації бізнес-процесів у компанії, що встановилися інформаційних потоків, обсягу і структури даних, що використовуються, вимог до швидкості виконання запитів і частоти оновлення сховища, характеру розв'язуваних аналітичних завдань і т.д. Щоб наблизити ХД до умов та специфіки конкретної організації, наразі розроблено кілька архітектур сховищ – реляційні, багатовимірні, гібридні та віртуальні.

Реляційні ХД використовують класичну реляційну модель, характерну для оперативних реєструючих OLTP-систем. Данізберігаються в реляційних таблицях, але утворюють спеціальні структури, що емулюють багатовимірне представлення даних. Така технологія позначається абревіатурою ROLAP – Relational OLAP.

Багатовимірні ХД реалізують багатовимірне подання даних фізично у вигляді багатовимірних кубів. Ця технологія отримала назву MOLAP - Multidimensional OLAP.

Гібридні ХД поєднують у собі властивості як реляційної, і багатовимірної моделі даних. У гібридних ХД деталізовані дані зберігаються у реляційних таблицях, а агрегати – у багатовимірних кубах. Така технологія побудови ХД називається HOLAP – Hybrid OLAP.

Віртуальні ХД є сховищами даних у звичному розумінні. У таких системах робота ведеться з окремими джерелами даних, але при цьому емулює роботу звичайного ХД. Інакше висловлюючись, дані не консолідуються фізично, а збираються у процесі виконання запиту.

Крім того, всі ХД можна розділити на одноплатформні та крос-платформні. Одноплатформні ХД будуються з урахуванням лише однієї СУБД, а крос-платформні можуть будуватися з урахуванням кількох СУБД.