Як когнітивні обчислення та хмари вирішують проблеми аналізу великих даних

Щодня у світі генерується понад 500 млн твітів та 55 млн записів у Facebook. В одному тільки Нью-Йорку датчики та камери спостереження за добу створюють понад 520 ТБ даних. Кожне сучасне родовище нафтогазової промисловості із числом сенсорів близько 80 тис. генерує протягом терміну свого існування у середньому 15 ПБ даних. І це – лише крапля у сучасному інформаційному цунамі.

Люди поступово вчаться зберігати та розподіляти всі ці дані. Певний прогрес намітився завдяки успіхам у розвитку хмарних технологій. Менш помітні досягнення у сфері корисного використання величезних масивів даних, їхнього ефективного аналізу. Складність полягає в тому, що у порядку 80% усієї інформації, що генерується сьогодні, відсутня структура. Більше того: згідно з прогнозами, кількість неструктурованих даних у загальному потоці нової інформації досягне позначки понад 93% до 2020 року.

За даними IBM Research, близько 2,5 квінтильйонів (мільйон трильйонів, число з 18 розрядами) нової інформації з'являється щодня. Близько 90% усієї інформації у світі з'явилися в останні два роки. За загальної чисельності населення Землі в 7,3 млрд, на кожну людину припадає приблизно 1,7 МБт даних, створюваних кожну хвилину.

Астрофізики часто використовують у своїх теоріях визначення так званої темної матерії. Цю матерію неможливо побачити чи визначити її справжні межі, але водночас вона доводить своє існування та присутність гравітаційним впливом. Така сама ситуація сьогодні складається з величезними масивами накопичених даних. Більшість інформації, зібраної сьогодні людством, повністю підпадає під визначення «темних даних». Число рішень, що генерують дані, пристроїв та систем, що зберігають ці дані, перевищують усімислимі межі. Різноманітність форматів запису і уявлення призводять до втрати змісту цих даних, до того що, що величезні масиви цінної інформації насправді перетворюються на накопичення марного цифрового шуму.

Штучний інтелект

Будь-які спроби побудувати систему аналізу даних за принципом футуристичного «Мегарозуму», де штучний інтелект є масштабованим у кілька разів людським інтелектом, свідомо приречені на провал. Ефективна робота з величезними масивами неструктурованої інформації можлива лише із залученням штучного інтелекту з урахуванням когнітивних обчислень.

Когнітивні обчислення лише частково повторюють особливості роботи людського мозку – головним чином у галузі обробки та структуризації інформації, що надходить. Крім цього, когнітивні технології використовують принципи глибокого машинного навчання, зіставлення різних даних і правил, застосування власного та стороннього досвіду, розробки нових правил та алгоритмів роботи з даними безпосередньо в процесі проведення обчислень.

Людський інтелект має низку переваг, досі не перевершених машиною, таких як інтуїція, почуття смаку, оцінне судження, здоровий глузд. У свою чергу, машини мають «ідеальну пам'ять», здатні швидко проводити зіставлення та перевірку фактів, програмуються на глибоке навчання, до того ж миттєво виробляють великомасштабні математичні обчислення.

Технічна реалізація

Системи когнітивних обчислень розробляються задля протиставлення машинного і людського інтелекту і заміни людини, але більш тісного взаємодії людини і машини. Штучний інтелект, здатний ефективно оброблятиНеструктуровані дані повинні навчитися розпізнавати візуальні образи і розуміти людську мову.

За визначенням, когнітивна обчислювальна система повинна мати надзвичайно високу продуктивність. Щоб такі обчислення мали дійсну практичну цінність, результати мають з'являтися блискавично. Саме тому всі компоненти когнітивної ІТ-інфраструктури, включаючи модулі штучного інтелекту, системи зберігання, API, програмне забезпечення, сервіси та багато іншого, повинні бути максимально швидкими і гарантувати мінімальні затримки при передачі даних між собою.

ІТ-інфраструктура для когнітивних обчислень, що гарантує результати обробки неструктурованих даних за лічені мілісекунди, будується на серверах транзакційної аналітики, із залученням апаратних прискорювачів та найсучасніших систем зберігання даних на флеш-технологіях.

Використання відкритих архітектур та відкритих екосистем для когнітивних обчислень забезпечує можливість швидкого оновлення при постійному рівні конкурентоспроможності. Список прийнятних відкритих екосистем, залежно від потреб підприємства, може містити Blockchain, Docker, Linux, OpenPower та інші.

Оптимально обрана ІТ-інфраструктура підприємства для високоефективних когнітивних обчислень останнім часом все частіше асоціюється із гібридними хмарними платформами. Відхід від традиційного представлення ІТ як набору серверів та систем зберігання до розподілених, програмно-визначуваних та хмарних технологій з когнітивними робочими навантаженнями значною мірою визначає правильний вектор для інвестицій у майбутнє підприємства.

Когнітивні технології у дії

Прикладом успішного розвитку універсальноїКогнітивна система є IBM Watson. Ця система спочатку розроблена для масштабування під будь-який формат та розмір сучасного бізнесу, адаптована до хмарних технологій, успішно інтегрується з відкритими екосистемами та флеш-системами зберігання даних IBMFlashSystem. Розробники IBM створили пакет сервісів, що дозволяють швидко створювати з нуля власну когнітивну хмарно-орієнтовану систему Watson на підприємствах, що працюють у різних областях.

Подібні системи можуть застосовуватися в охороні здоров'я, де, за попередніми оцінками, незабаром кожен пацієнт протягом свого життя генеруватиме понад 1 млн ГБ інформації про своє здоров'я. Для обробки всієї цієї інформації щодо постановки коректного діагнозу чи профілактичного лікування знадобляться такі когнітивні технології, як аналітика і розпізнавання образів (МРТ, рентген та інших.) і машинне навчання. Система Watson вже сьогодні може аналізувати неструктуровані медичні дані за період спостереження пацієнта, надаючи рекомендації за лічені хвилини.

Заглядаючи у майбутнє

Очікується, що вже до 2020 р. близько 75% усіх транспортних засобів у світі буде підключено до інтернету, і кожен з них зможе генерувати до 350 МБ даних що секунди. Тут також не обійтися без когнітивних обчислень, що дозволяють приймати миттєві рішення в реальному часі з урахуванням багатопланової інформації про дорожню обстановку та особливості поведінки водіїв, що отримується одночасно з багатьох джерел.

Сейсмологія майбутнього буде повністю зав'язана на обробку великих масивів неструктурованої інформації. Завдяки аналізу цих даних з'явиться можливість прогнозувати потенційні збитки від буріння чергових свердловин або передбачатиземлетрусу з великою точністю.

Когнітивні системи можуть стати чудовим рішенням для індивідуального навчання. У дошкільному віці системи класу IBM Watson можна буде пристосувати для швидкого розширення світогляду, розмовних навичок, словникового діапазону. У середній школі когнітивні системи допоможуть швидше засвоювати різноманітний навчальний матеріал. Вища школа може отримати чудову допомогу у справі поглибленого навчання різних дисциплін з урахуванням індивідуальності студента.

Свого часу машини дозволили людству позбутися рутинної фізичної праці. Потім комп'ютери позбавили людей рутинних обчислень. Наступний етап розвитку – повсюдне використання когнітивних обчислень – певною мірою можна як порятунок людства від рутинних «чорнових» розумових процесів.