Методи дискретизації (Інтелектуальний аналіз даних), Microsoft Docs

Деякі алгоритми, які використовуються для створення моделей інтелектуального аналізу даних у службах SQL Server Analysis Services, для своєї роботи потребують спеціальних типів вмісту. Наприклад, спрощений алгоритм Байєса (Майкрософт) не може використовувати безперервні стовпці на вході та прогнозувати безперервні значення. Крім того, деякі стовпці можуть містити так багато значень, що алгоритм буде не в змозі легко виявити змістовні закономірності даних, з яких створюється модель.

У таких випадках можна дискретизувати дані в стовпцях, щоб скористатися алгоритмами розробки моделі інтелектуального аналізу даних. Дискретизація - це процес поділу значень на сегменти, результатом якого є обмежена кількість допустимих станів. З самими сегментами поводяться як із впорядкованими дискретними значеннями. Можна дискретизувати як чисельні, і рядкові стовпці.

Існує кілька способів дискретизації даних. Якщо у вирішенні інтелектуального аналізу даних використовуються реляційні дані, можна обмежити кількість сегментів, що використовуються для групування даних, задавши властивість DiscretizationBucketCount. Кількість сегментів за замовчуванням дорівнює 5.

Якщо у рішенні інтелектуального аналізу даних використовуються дані з куба оперативної аналітичної обробки (OLAP), то алгоритм інтелектуального аналізу даних автоматично обчислить кількість створюваних сегментів за такою формулою, де n - число унікальних значень даних у стовпці:

Номер букетів = sqrt(n)

Якщо не потрібно, щоб Analysis Services обчислювали кількість сегментів, можна скористатися властивістю DiscretizationBucketCount, щоб вручну вказатикількість сегментів.

Наступна таблиця описує методи, які можна використовувати для дискретизації даних у службах Analysis Services.

Служби Analysis Services визначають, який метод дискретизації використовувати.

Алгоритм поділяє дані на групи шляхом створення вибірки навчальних даних, ініціалізації ряду випадкових точок і подальшого запуску кілька ітерацій алгоритму кластеризації (Майкрософт) за допомогою методу кластеризації з максимізацією очікування (EM). Метод CLUSTERS корисний, тому що він працює з будь-якою кривою розподілу. Однак він потребує більшого часу на обробку, ніж інші методи дискретизації.

Цей метод можна використовувати лише для числових стовпців.

Алгоритм поділяє дані на групи, що містять однакову кількість значень. Цей метод краще використовувати для кривих нормального розподілу, але він не працює, якщо розподіл містить велику кількість значень, що зустрічаються у вузькій групі безперервних даних. Наприклад, якщо половина елементів має значення ціни 0, половина даних опиниться в одній точці кривої. При такому розподілі цей метод зруйнує дані в спробі встановити рівномірну дискретизацію по кількох областях. Це спричинить неточне представлення даних.

Примітки

Можна використовувати метод EQUAL_AREAS для дискретизації рядків.

Метод CLUSTERS використовує випадкову вибірку із 1 000 записів для дискретизації даних. Використовуйте метод EQUAL_AREAS, якщо не потрібно, щоб алгоритм відбирав дані.

У підручнику по моделі інтелектуального аналізу даних нейронної мережі наводиться приклад налаштування користувача дискретизації. Додаткові відомості див. у розділі Заняття 5. Побудова моделей нейронної мережі та логістичної регресії (підручник з інтелектуального аналізуданих – середній рівень).