Знайомство з технологією самодіагностики дисків S

Незважаючи на важливість таких критеріїв як швидкість роботи або шумність диска, найголовнішою якістю HDD залишається надійність. І, природно, вона теж повинна якось вимірюватися та оцінюватися. Вже майже 20 років як основний діагностичний стандарт використовується технологія S.M.A.R.T. Як пишуть у Вікіпедії, S.M.A.R.T. (від англ. self-monitoring, analysis and reporting technology - технологія самоконтролю, аналізу та звітності) -технологія оцінки стану жорсткого диска вбудованою апаратурою самодіагностики, а також механізм передбачення часу виходу його з ладу>.

Історія S.M.A.R.T.

Поява технології моніторингу стану накопичувачів на жорстких магнітних дисках стала природною відповіддю на зростаючі вимоги до їхньої надійності. Перша розробка в цій галузі була випущена компанією IBM у 1992 році, і називалася PFA (Predictive Failure Analysis).

В 1994 компаніями Compaq, Seagate, Quantum і Conner була розроблена технологія IntelliSafe, а вже в 1995 на її основі з'явився стандарт технології S.M.A.R.T.: Self-Monitoring, Analysis and Reporting Technology - "Технологія самодіагностики, аналізу та звіту".

Після цього їх підтримали такі компанії як IBM, Maxtor і Samsung. Hitachi взяла участь у розвитку технології S.M.A.R.T. вже на стадії розробки SMART II, ​​першими запропонувавши методику повної самодіагностики накопичувача (extended self-test). Сутність технології описана в стандарті, що називається «Information Technology – AT Attachment … – ATA/ATAPI Command Set» (Інформаційна технологія – у додатку… – набір команд ATA/ATAPI). Замість крапки ставиться номер стандарту. Найбільш нова ревізія стандарту-8, є тількипродовженням та доповненням стандартів 2, 4, 6 та 7. Розділ про S.M.A.R.T. є у кожному їх.

Цей стандарт описує принципи, на яких спілкуються між собою HDD та комп'ютер. У стандарті описані лише загальні правила функціонування S.M.A.R.T., необхідні сумісності всіх жорстких дисків з усіма комп'ютерами - інші функції в загальнодоступної документації не представлені, є розробками компаній-виробників HDD (вендорів) і охороняються як комерційна таємниця.

Стандарти S.M.A.R.T.

Розберемо, як трактує технологію S.M.A.R.T. стандарт АТА-АТАРI (далі курсивом виділено цитати зі стандарту ATA-ATAPI-8):

Призначенням технології S.M.A.R.T. є захист даних користувача та мінімізація ймовірності їх втрати за допомогою передбачення деградації та/або виходу з ладу пристрою. Контролюючи та зберігаючи критичні робочі та калібрувальні параметри, SMART встановлює пристрою можливість передбачення найближчого часу деградації або відмови пристрою.

Таким чином, S.M.A.R.T. забезпечує комп'ютеру (хосту) можливість дізнатися про низьку надійність пристрою, і попереджає користувача про це, щоб зменшити ризик втрати даних.

Підтримка технології S.M.A.R.T. вказується у відповіді пристрою на команду, що подається BIOS під час опитування підключених HDD.

Однак пристрої, які підтримують пакетні команди (наприклад, DVD-ROM) не підтримують S.M.A.R.T. так, як це роблять HDD (пакетні пристрої спілкуються з хостом за допомогою АТА команд, але як би «обгорнутих» в оболонку з команд SCSI).

Пристрої, що підтримують пакетні команди, підтримують S.M.A.R.T. у вигляді, визначеному для таких пристроїв, за допомогою пакетних команд.

Таку команду може подавати BIOS (якщо включеноопція відстеження SMART у BIOS) при зчитуванні інформації про стан HDD із структури SMART під час запуску комп'ютера. Слід зазначити, що насправді атрибутів SMART дуже багато, і вони різні у різних вендорів. Користувачеві доступна лише відносно невелика частина зібраної HDD інформації, якої цілком достатньо.

Режими збору даних у S.M.A.R.T.

Збір даних S.M.A.R.T. (on-line-режим): Збір поточних даних S.M.A.R.T. не повинен заважати нормальній роботі пристрою. Дані S.M.A.R.T., які зараз збираються, або методи, якими користується технологія для збору даних, можуть відрізнятися від методів, що використовуються для зберігання даних S.M.A.R.T. (Типи таблиць і т.п.), і можуть також відрізнятися від пристрою до пристрою.

On-line режим означає, що HDD здійснює збір інформації про параметри читання/запису під час обробки запитів операційної системи, дискретно записуючи отриману статистику в таблиці S.M.A.R.T. Це не позначається на швидкості обробки команд накопичувачем.

Збір даних у режимі off-line (накопичувач активний, але не виконує жодних дій за інтерфейсом) Пристрій може використовувати режим off-line для збору даних та проведення самотестування. Такий режим роботи S.M.A.R.T. може змінюватись від пристрою до пристрою. Зібрані дані або методики збору даних у цьому режимі можуть відрізнятися від методик, що використовуються при зборі поточних даних (режим on-line) для будь-якого пристрою та можуть варіювати від пристрою до пристрою.

Off-line режим є самотестування HDD, при якому пристрій проводить сканування певних областей магнітних пластин, оцінює роботу механічних частин, тестує оперативну пам'ять та канал читання/запису. Якщо ви чуєте, як вашжорсткий диск активно дзижчить, у момент, коли в операційної системи немає активних завдань - швидше за все, це означає сканування, що йде off-line.

Атрибути S.M.A.R.T.

Атрибути S.M.A.R.T. - це характеристики, які використовуються при аналізі стану та запасу «живучості» накопичувача.

Атрибути вводяться виробником накопичувача виходячи з власного досвіду виробництва та експлуатації HDD. Передбачається, що за допомогою цих атрибутів можна прогнозувати погіршення робочих характеристик накопичувача або визначити його дефектність. Кожен виробник має свій характерний набір атрибутів, і вносить зміни до цього набору відповідно до своїх власних міркувань, нікого про це не повідомляючи. Кінцевому користувачеві залишається лише довіряти думці виробника. Значення атрибутів (value) використовуються для подання надійності окремого показника щодо його еталонного значення. Кожен атрибут має власне порогове значення (threshold), воно необхідне порівняння зі значенням атрибута і свідчить про погіршення робочих характеристик чи дефектність накопичувача. Допустиме значення атрибута - відносне, і судити про його величину можна лише порівнюючи його з трьомагрошима. Високе значення атрибуту говорить про те, що параметр у порядку і має низьку ймовірність погіршення та виходу накопичувача з ладу. Відповідно, низьке значення атрибуту свідчить, що результат аналізу параметра свідчить про високу ймовірність його погіршення чи виходу накопичувача з ладу.

Виробник визначає числове значення порогового атрибуту, аналізуючи результати випробувань на надійність. Порогове значення кожного атрибуту вказує на нижню допустиму межу значення атрибута, до якої накопичувач можна вважати надійним.

Атрибут Worst – найгірше значення атрибуту за всю історію роботи HDD – читається з логів S.M.A.R.T. і допомагає зрозуміти, за яких умов працював накопичувач.

Атрибут Raw є поточним значенням параметра, що вимірюється. Його розмірність, залежно від типу параметра, може бути в «разах» (наприклад, кількість паркувань), градусах, годинах та інших величинах (частота помилок читання тощо.).

Просунутий читач може помітити, що ми навели не так багато прикладів атрибутів у статті. Це так. Багато програм відображають більше атрибутів, але хочемо запевнити вас, якщо зміниться значення атрибута, наприклад, «Disk Shift» (зміщення пакета дисків щодо осі шпинделя), то ваш диск – труп, і його потрібно нести в сервіс відновлення даних або викидати. Усі атрибути використовують лише у спеціальних підрозділах компаній-виробників HDD, так званих Failure Analysis, де фахівці досліджують причини відмов дисків. А представленого в цій статті набору атрибутів цілком достатньо для оцінки стану жорсткого диска.

Дізнатися про проблеми з диском можна під час завантаження комп'ютера. Функція контролю стану S.M.A.R.T. вбудована у всі сучасні BIOS – адже саме для цього й створювалась технологія.

При включенні комп'ютера, BIOS неодмінно сповістить про поганий стан HDD відповідним повідомленням. Перевірити чи не вимкнена ця опція випадково і включити її можна також через BIOS в рядку enable/disable SMART.

Проте BIOS лише пише bad чи good. З'ясувати, що саме проблема можна лише з допомогою спеціальної програми аналізу атрибутів.

Наведемо приклад лога S.M.A.R.T. типового, цілком справного, HDD WD3200AAKS-00L9A0, відкритого у програмі Smart Vision від Ace Lab:

знайомство

Як бачимо, тутнаведено найбільш критичні для надійності HDD атрибути. Це приклад S.M.A.R.T. диска, що вже «бачив життя». Його надійність на задовільному рівні (не перевищено атрибутів «1» і «5»), але подумати про повільну заміну варто.

Розглянемо кожний атрибут докладніше.

  • Частота помилок читання: наскільки часто виникають помилки під час читання секторів. Погіршення значення цього атрибуту може свідчити про руйнування магнітного шару, знос механічних складових диска, про суттєве перевищення температури.
  • Час розкручування шпинделя: якщо двигун повільно розкручує пакет з магнітними пластинами, це може означати втрату потужності двигуна (отже, загрозу обриву дроту в обмотці) або збільшення опору в гідродинамічному підшипнику (виникнення задирка всередині корпусу підшипника) .
  • Кількість включень шпиндельного двигуна: лічильник, по ньому можна опосередковано визначити час та режим роботи диска.
  • Кількість перепризначених секторів: критично важливий атрибут. Якщо помилка читання часто оборотна, і може бути обумовлена ​​умовами роботи диска, то погіршення атрибуту «кількість перепризначених секторів» явно свідчить про пошкодження поверхні дисків. Переповнення таблиць дефектів – одна з несправностей HDD, що найчастіше зустрічаються.
  • Частота помилок позиціонування: погіршення цього атрибуту може вказувати на перевищення температури або зношування механічних частин.
  • Час увімкненого стану: час роботи диска.
  • Кількість повторних спроб запуску шпинделя: погіршення атрибуту може свідчити про погіршення стану двигуна, механіки або поверхні магнітних дисків.

Важливо.Однією з можливих причин збоїв під час запуску можуть бути проблеми при зчитуванні сервометок. Електроніка HDD управляє швидкістю обертання магнітних пластин, зчитуючи спеціальні магнітні мітки (сервомітки) з поверхні. Якщо вони зчитуються з перебоями, HDD не може підтримувати необхідну швидкість обертання пластин і зупиняє двигун. Також за допомогою сервометок HDD визначає, де знаходяться головки читання-запису. Отже, сервометки мають фундаментальне значення в роботі HDD.

  • Кількість спроб рекалібрування: погіршення цього атрибуту, найчастіше, говорить про те, що головки погано зчитують інформацію з магнітних пластин.
  • Кількість парковок БМГ: ще один лічильник, чим ближче значення до порога – тим старший диск.
  • Температура: в атрибуті відображено температурний режим HDD.
  • Кількість операцій перепризначення секторів: критичний для роботи параметр, проте в ньому є свій нюанс – HDD має список «підозрілих» секторів, інформацію про які він поміщає в спеціальну таблицю до того, як система S.M.A.R.T. проведе їхню перевірку. Сектори можуть бути визнані придатними. Але дані про цю операцію відображаються у параметрі.
  • Поточна кількість нестабільних секторів: кількість «підозрілих» секторів.
  • Атрибути 198,199 і 200: їхнє погіршення однозначно свідчить про зовнішні проблеми, тобто. про несправність кабелів, роз'ємів та ін.
  • Функції S.M.A.R.T. - відомі та передбачувані

    Оскільки виробники ретельно приховують інформацію про структуру програм, що становлять систему S.M.A.R.T., відомої інформації про роботу цієї підсистеми не так багато, як хотілося б.

    Перелік функцій, про які можна сказати, що вониприсутні у всіх HDD всіх фірм, виглядає так:

    • Збір інформації про стан диска, ведення журналів помилок.
    • Ведення лічильників подій (кількості включень, паркувань, повторних запусків, спрацьовувань датчика удару та ін.)
    • Тестування систем накопичувача та поверхні магнітних пластин.