Как исправить ошибку S.M.A.R.T. 0xE9: Media Wearout Indicator
S.M.A.R.T. ошибка «0xE9 Media Wearout Indicator» появляется на жестком диске или твердотельном накопителе при загрузке компьютера/ноутбука? После этой ошибки производительность вашего компьютера ухудшилась, и вы беспокоитесь о сохранности своих данных? Допустимые значения атрибута «Media Wearout Indicator» могут различаться в зависимости от производителя жесткого диска — WD (Western Digital), Samsung, Seagate, HGST (Hitachi) или Toshiba.
Что делать с «0xE9 Media Wearout Indicator»?
- Прекратите использование сбойного HDD
- Восстановите удаленные данные диска
- Просканируйте диск на наличие «битых» секторов
- Снизьте температуру диска
- Произведите дефрагментацию жесткого диска
- Ошибка «Media Wearout Indicator» для SSD диска
- Сбросьте ошибку «0xE9 Media Wearout Indicator»
- Приобретите новый жесткий диск
- Целесообразен ли ремонт HDD?
- Как выбрать новый накопитель?
Узнайте как исправить «0xE9 Media Wearout Indicator» в Windows 11, Windows 10, Windows 8.1, Windows Server 2012, Windows 8, Windows Home Server 2011, Windows 7 (Seven), Windows Small Business Server, Windows Server 2008, Windows Home Server, Windows Vista, Windows XP, Windows 2000, Windows NT.
Прекратите использование сбойного HDD
Получение от системы сообщения о диагностике ошибки не означает, что диск уже вышел из строя. Но в случае наличия S.M.A.R.T. ошибки, нужно понимать, что диск уже в процессе выхода из строя. Полный отказ может наступить как в течении нескольких минут, так и через месяц или год. Но в любом случае, это означает, что вы больше не можете доверить свои данные такому диску.
Необходимо побеспокоится о сохранности ваших данных, создать резервную копию или перенести файлы на другой носитель информации. Одновременно с сохранностью ваших данных, необходимо предпринять действия по замене жесткого диска. Жесткий диск, на котором были определены S.M.A.R.T. ошибки нельзя использовать – даже если он полностью не выйдет из строя он может частично повредить ваши данные.
Конечно же, жесткий диск может выйти из строя и без предупреждений S.M.A.R.T. Но данная технология даёт вам преимущество предупреждая о скором выходе диска из строя.
Восстановите удаленные данные диска
В случае возникновения SMART ошибки не всегда требуется восстановление данных с диска. В случае ошибки рекомендуется незамедлительно создать копию важных данных, так как диск может выйти из строя в любой момент. Но бывают ошибки при которых скопировать данные уже не представляется возможным. В таком случае можно использовать программу для восстановления данных жесткого диска — Hetman Partition Recovery.
Media wearout indicator ssd что это
Сообщения: 558
Благодарности: 117Конфигурация компьютера
Процессор: Intel Core i5-3570К Материнская плата: Gigabyte GA-Z77X-UD3H Память: Kingston HyperX Genesis PnP, KHX1600C9D3P1K2/8G; KHX16C9T3K2_16X итого: 24 gb, двухканальный режим. HDD: WD1002FAEX Caviar Black, WD10EZEX, SSD WDS500G1B0A Видеокарта: GTX1070 aero MSI Звук: Sound Blaster Audigy 5/RX Блок питания: Chieftec 850W Retail APS-850C 2013 год. CD/DVD: Samsung SH-224BB/BEBE Монитор: 23,5 Samsung Sync Master BX2340 1920×1080 ОС: Windows10 x64 Прочее: Охлаждение CPU Scuthe Mugen 3 Rev. B, Корпус ZALMAN Z9 PLUS, картридер Ginzzu GR-166UB Автор: 2503
Дата: 22-07-2021Полтора месяца назад установил на старый ПК SSD диск WD Blue WDS500G2BOA. ОС перенёс со старого диска сторонним софтом. Проверил S.M.A.R.T., всё было в норме, проверил скорость записи и чтения утилитой Crysta lDisk Mark. Скорость записи и чтения составили 260 Мб\с., заявленная производителем скорость чтения 560 Мб\с, записи 530 мб\с. У ПК интерфейс SATA2 с пропускной способностью 300 Мб\с, решил, что скорость у накопителя режется из-за SATA2. Тут вроде всё норме, ПК стал запускаться быстро, приложения так же быстро запускались. В диспетчере устройств установлен «Стандартный контроллер SATA AHCI». На днях решил глянуть S.M.A.R.T., и атрибут 230 (Media Wearout indicator – Индикатор износа диска) при пороге 0 опустился до 1. На новом диске значение было 100. С чем это связано и насколько это опасно для самого накопителя? Установил фирменную утилиту Dashboard 3.1.2.5., она совсем не определила SSD. Команду TRIM утилита тоже не может выполнить. Запустил утилиту trimcheck-0.5 для проверки выполнения команды TRIM. Утилита показала, что TRIM не выполняется. В самом биосе отсутствует переключение режима контроллера диска. Подключил SSD к современному ПК, фирменная утилита определила и выполнила TRIM на этом SSD. Вероятно на старом ПК все эти непонятности происходят из-за старой мат. Платы. Вопрос, как можно решить проблему с определением SSD диска и выполнением команды TRIM. ПК покупался в готовом виде: HP Compaq 505B microtower pc. Название мат. платы M2N68-LA rev.6.01. В AIDA64 определяется как Asus 2A99h. Версия биоса 5.14. Процессор AMD Phenom II X4 910, оперативки 4 гб. ОС Windows10 x64
Как сократить время на диагностику дисков c помощью Telegram-бота
Рассказываем, как запустили бота для диагностики дисков. Описали проблемы, которые могут возникнуть при ручной сверке показателей S.M.A.R.T., и их решение с помощью бота.
Эта инструкция — часть курса «Как создавать Telegram-ботов».
Смотреть весь курс

Меня зовут Дмитрий, я старший системный инженер в дата-центре Selectel, работаю с серверами и клиентским оборудованием.
Каждый день я обрабатываю десятки клиентских обращений. Часть из них связана с физическим участием, когда нужно ногами пойти к серверу и руками заменить комплектующие. Такие задачи роботу не поручить. Но я нашел способ экономить себе и коллегам несколько часов в месяц с помощью бота, способного быстро диагностировать состояние дисков. Также он снижает влияние «человеческого фактора» на задачи, которые надо решать с высокой скоростью и вниманием к деталям.
Проблемы инженера при замене дисков
Выделю три основных проблемы, из-за которых может снизиться эффективность работы системного инженера.
Ручная сверка атрибутов
У каждого вида накопителя, будь то HDD, SSD или NVME, есть атрибуты S.M.A.R.T., по которым мы анализируем их состояние. Есть базовые параметры дисков от разных вендоров и параметры конкретных моделей.
Когда клиент обращается с подозрениями на некорректную работу диска, мы выполняем первичную проверку и сравниваем значения атрибутов с пороговыми значениями. На это уходит довольно много времени, при этом инженеру продолжают поступать параллельные задачи.
Приведу пример атрибутов:
- Атрибут Media Wearout Indicator (233) содержит процент износа SSD-диска. При значении VALUE больше 10 диск модели Intel является исправным.
- На моделях Micron данный атрибут отсутствует. Здесь будет проверяться атрибут Percent_Lifetime_Remain (202) также по значению VALUE.
- На моделях Kingston выполняется проверка по атрибуту Life Left (SSDs) or Temperature (231).
В Selectel достаточно много моделей дисков. Трудно удержать в голове уникальные атрибуты для разных моделей, пороговые значения и тип, по которому необходимо сравнить. Ручная сверка неизбежно приводит к ошибкам, которые влияют на качество сервиса и ведут к затратам рабочего времени коллег из смежных отделов.
Неактуальный источник информации
Аренда выделенных серверов в Selectel и отказ от них — автоматизированные процессы. Когда клиент сдает ресурсы, платформа переходит в процесс очистки, тестирования и предоставления машины другому клиенту. На этапе очистки выполняются скрипты затирки накопителей с обращением в базу для проверки по показателям S.M.A.R.T.
Сотрудник клиентского сервиса, который проверяет показатели S.M.A.R.T., сверяет их с информацией в базе знаний в Confluence компании. Она дублирует данные, которые заносятся в GitLab сотрудниками из отдела выделенных серверов. Внутренняя база знаний обновляется не всегда синхронно, после того как вносятся изменения в GitLab. Это приводит к дополнительным затратам времени на диагностику диска.
Необходимость своевременного выявления гарантийных случаев замены
При обнаружении неисправности мы обращаемся к производителю для выполнения гарантийных обязательств. Чем раньше и точнее мы зафиксируем неисправность или заводской брак, тем выше вероятность, что успеем заменить комплектующие по гарантии. Поэтому скорость диагностики бывает для нас критически важным показателем.
Идея создания бота в Telegram
Все описанные проблема хотелось решить — так появилась идея создать бота на базе API Telegram. Я захотел написать бота, который будет выдавать вердикт по накопителю на основе показателей S.M.A.R.T. и ссылаться на то же место, что и скрипты затирки при автоматизированном процессе.
Как работает бот
Итак, сотрудник клиентского сервиса получает обращение от клиента. Например, о падении производительности, ошибках или выходе из строя накопителя. При первичной диагностике специалист запрашивает показатели S.M.A.R.T., копирует полный вывод или модель накопителя (если клиент прислал не текст, а скриншот) и отправляет в Telegram-бот.
Далее реализуется один из трех сценариев:
- Если загружен полный вывод S.M.A.R.T., бот выдает отчет в виде параметров, по которым произведена проверка, и вердикт: «Диск исправен!» либо «Неисправен!».
- Если отправлена только модель, бот сообщает параметры, по которым необходимо проверить диск.
- Если диска нет в базе, выводится сообщение о том, что запрашиваемая модель не найдена. В таком случае проверка проводится по базовым параметрам накопителей. Так сотрудник может понять, требуется ли замена накопителя в рамках пороговых значений.
Как пользоваться ботом

Вот пример вывода S.M.A.R.T. SSD-диска, по которому бот сканирует модель и значения атрибутов.
=== START OF INFORMATION SECTION === Model Family: Intel S4510/S4610/S4500/S4600 Series SSDs Device Model: INTEL SSDSC2KB960G7 Serial Number: PHYXXXXXXXXX960CGN LU WWN Device Id: 5 5cd2e4 14f05fa72 Firmware Version: SCV10150 User Capacity: 960,197,124,096 bytes [960 GB] Sector Sizes: 512 bytes logical, 4096 bytes physical Rotation Rate: Solid State Device Form Factor: 2.5 inches TRIM Command: Available, deterministic, zeroed Device is: In smartctl database 7.3/5319 ATA Version is: ACS-3 T13/2161-D revision 5 SATA Version is: SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s) Local Time is: Sat Jan 28 11:01:34 2023 UTC SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART Attributes Data Structure revision number: 1 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 5 Reallocated_Sector_Ct 0x0032 099 099 000 Old_age Always - 4 9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 38712 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 26 170 Available_Reservd_Space 0x0033 099 099 010 Pre-fail Always - 0 171 Program_Fail_Count 0x0032 100 100 000 Old_age Always - 1 172 Erase_Fail_Count 0x0032 100 100 000 Old_age Always - 0 174 Unsafe_Shutdown_Count 0x0032 100 100 000 Old_age Always - 19 175 Power_Loss_Cap_Test 0x0033 100 100 010 Pre-fail Always - 2790 (253 3591) 183 SATA_Downshift_Count 0x0032 100 100 000 Old_age Always - 0 184 End-to-End_Error_Count 0x0033 100 100 090 Pre-fail Always - 0 187 Uncorrectable_Error_Cnt 0x0032 100 100 000 Old_age Always - 0 190 Drive_Temperature 0x0022 080 080 000 Old_age Always - 20 (Min/Max 14/20) 192 Unsafe_Shutdown_Count 0x0032 100 100 000 Old_age Always - 19 194 Temperature_Celsius 0x0022 100 100 000 Old_age Always - 20 197 Pending_Sector_Count 0x0012 100 100 000 Old_age Always - 0 199 CRC_Error_Count 0x003e 100 100 000 Old_age Always - 0 225 Host_Writes_32MiB 0x0032 100 100 000 Old_age Always - 6455641 226 Workld_Media_Wear_Indic 0x0032 100 100 000 Old_age Always - 6675 227 Workld_Host_Reads_Perc 0x0032 100 100 000 Old_age Always - 44 228 Workload_Minutes 0x0032 100 100 000 Old_age Always - 2322510 232 Available_Reservd_Space 0x0033 099 099 010 Pre-fail Always - 0 233 Media_Wearout_Indicator 0x0032 094 094 000 Old_age Always - 0 234 Thermal_Throttle_Status 0x0032 100 100 000 Old_age Always - 0/0 241 Host_Writes_32MiB 0x0032 100 100 000 Old_age Always - 6455641 242 Host_Reads_32MiB 0x0032 100 100 000 Old_age Always - 5091949 243 NAND_Writes_32MiB 0x0032 100 100 000 Old_age Always - 12194491В ответном сообщении бот отправляет вердикт в виде отчета:

Техническая реализация бота
Инфраструктура
Для внутренних проектов мы, как и наши клиенты, используем облачную платформу. Для маленького проекта с ботом я выбрал облачный сервер с 2 ядрами vCPU, 4 ГБ ОЗУ и 10 ГБ сетевого диска SSD. Этого вполне достаточно для развертывания мини-приложения.

Также я подготовил проброс VLAN для внутренней инфраструктуры. Выделять публичный IP-адрес не потребовалось.
Серверная часть приложения
Для развертывания приложения с окружением использовал docker-контейнер. Приложение написал на node.js, а для взаимодействия с Telegram API взял node-telegram-bot-api.
Логика обработки сообщений
На основании данных S.M.A.R.T. бот выделяет модель накопителя, id атрибута и значения VALUE, RAW_VALUE. По модели накопителя бот находит в базе и сравнивает пороговые значения атрибутов, а после выносит вердикт диску.
Облачные серверы с гибкой производительностью ядра vCPU
Результаты внедрение бота
Главное в создании бота — не процесс, а то, к каким результатам приводит его реализация. В нашем случае это рост эффективности работы инженера. Telegram-бот – не панацея от всех проблем с обработкой данных S.M.A.R.T., но он позволяет быстро выявлять основные дефекты накопителей.
Изменилось ли время обработки обращений?
Да, время ответа значительно сократилось. Коллеги положительно отзываются о боте и рассказывают, как он упростил их жизнь. Раньше им приходилось тратить время на поиск актуальной информации в базе знаний и на сайте производителя. Теперь им гораздо реже приходится самостоятельно обрабатывать S.M.A.R.T.-данные накопителей, а значит, клиент быстрее получает ответ на обращение.
Как работа с ботом повлияла на выявление неисправных комплектующих в рамках гарантийного обслуживания?
Теперь при замене комплектующих инженер быстрее и точнее фиксирует параметры неисправности диска. Для гарантийных случаев это позволяет избежать дополнительной работы при выявлении причины неисправности перед отправкой комплектующих производителю.
На что еще повлиял бот?
Бот упростил обучение новых коллег, а это — один из главных процессов в Selectel. Новые сотрудники техподдержки могут с первого дня использовать бот в работе. У них появляется единый источник информации пороговых значений атрибутов. Благодаря экономии времени они концентрируют усилия на более внимательной работе с клиентами.
Что нужно доделать в боте
Так как я системный инженер, а не разработчик, мой бот несовершенен. Спасибо коллегам, которые пользуются ботом, за быстрые сообщения об ошибках и советы по развитию инструмента. Выделю некоторые из них.
Сбор фидбэка через бот
В базе бывает неактуальная информация по пороговым значениям той или иной модели. Так случается, когда поступают новые комплектующие, которые мы не проанализировали на пороговые значения. Анализ таких ситуаций требует дополнительного времени на внесение правок. В будущем хочу добавить команду для баг-репортов в сам бот.
Расшифровка информации со скриншотов
Иногда клиенты отправляют параметры S.M.A.R.T. скриншотом, или же они представлены в KVM-консоли без доступа по SSH. В таком случае приходится обрабатывать информацию в ручном режиме. Для скриншотов хочу добавить автоматическое считывание текста и расшифровку сообщений.
Автоматизированная диагностика как сервис
Также такое решение по обработке вывода S.M.A.R.T. кажется полезным и для клиентов компании. Рассмотрим возможность его интеграции в виде сервиса в панели управления.
В рамках этой статьи я не заострял внимание на описании работы кода. В следующем тексте я более подробно раскрою эту тему.
Как автоматизировать подготовку к собеседованиям с помощью Telegram-бота
Как генерировать истории с помощью ChatGPT и Telegram
Зарегистрируйтесь в панели управления
И уже через пару минут сможете арендовать сервер, развернуть базы данных или обеспечить быструю доставку контента.
Как выявить аппаратную проблему с сервером?
В данной статье мы рассмотрим выявление и диагностирование сбойных винчестеров, возможности для проверки оперативной памяти, так же рассмотрим подачу заявки в службу технической поддержки. Анализируя запросы в службу поддержки, связанные с аппаратными проблемами на выделенных серверах, можно резюмировать следующее: большинство клиентов просто не умеют правильно идентифицировать проблему, возникшую на сервере, а так же составить четкий запрос специалистам компании. Помочь клиентам в этом вопросе и будет являться целью данной статьи. Во множестве заявок клиент не указывает всей необходимой информации о сервере, выяснение которой затягивает решение вопросов. Сервер, являясь электронным прибором, может рано или поздно выйти из строя. Любой современный электронный прибор, и сервер в частности, построен на модульном принципе, что имеет множество преимуществ: взаимозаменяемость, быстрая замена и диагностика без применения специального оборудования. При выходе сервера из эксплуатации, эти преимущества играют огромную роль.
Сервер не отвечает на запросы
Наиболее типичной является ситуация, когда сервер перестает отвечать на запросы. Перед тем, как написать запрос в службу технической поддержки, следует провести следующие диагностические мероприятия: Для начала необходимо перезагрузить сервер, используя панель управления DCImanager, «Перезагрузить». Если сервер не загрузился, по прошествии некоторого времени, следует запросить IP-KVM для того, чтобы иметь доступ к консоли сервера и видеть вывод ошибок. Возможно, идет проверка файловой системы, при худшем раскладе – на консоли ошибки “kernel panic”, ошибки “disk boot failure, insert system disk and press enter”, темный экран. В первом случае вам просто следует подождать, сервер «поднимется». Во втором случае желательно обратиться к техническим специалистам компании. После загрузки сервера, необходимо проверить состояние винчестеров.
Проверка состояния жестких дисков
В этом поможет технология SMART, встроенная в современные диски. Она позволяет оценить состояние и предсказать выход диска из стоя. Доступ к данным, предоставляемым технологией SMART, осуществляется различными утилитами. В ОС семейства FreeBSD и Linux это – smartctl входящая в пакет утилит smartmontools, адрес официального сайта: http://sourceforge.net/apps/trac/smartmontools/. Чтобы установить пакет воспользуйтесь командой для вашего дистрибутива ОС:
* для Centos/Redhat: yum install -y smartmontools * для Debian/Ubuntu: apt-get install -y smartmontools * для FreeBSD: make -C /usr/ports/sysutils/smartmontools/ install clean
Проверяем диск так:
# smartctl -a /dev/sda
- /dev/ada0
- /dev/sda
- /dev/sdb
Виртуальный сервер на виртуализации KVM имеет диски /dev/vda
smartctl -a /dev/УСТРОЙСТВО
Например, для FreeBSD команда может выглядеть так:
smartctl -a /dev/ad1
а для Linux так:
smartctl -a /dev/sda
Детальное описание можно посмотреть на официальном сайте проекта smartmontools , описание атрибутов на русском языке на Википедии.
Получив данные SMART с диска, следует обратить внимание на следующие показатели:
SATA/SAS
Reallocated Sectors Count — Показывает количество переназначенных секторов (remaping). Большое число свидетельствует о проблемах с поверхностью дисков. Можно считать ключевым параметром при оценке состояния диска, особенно при постоянном увеличении данного параметра.
Current Pending Sector Count — Текущее количество нестабильных секторов. Поле raw value этого атрибута показывает общее количество секторов, которые накопитель в данный момент считает претендентами на переназначение в резервную область (remap). Если в дальнейшем какой-то из этих секторов будет прочитан успешно, то он исключается из списка претендентов. Если же чтение сектора будет сопровождаться ошибками, то накопитель попытается восстановить данные и перенести их в резервную область, а сам сектор пометить как переназначенный (remapped). Постоянно ненулевое значение raw value этого атрибута говорит о низком качестве (отдельной зоны) поверхности диска.
Uncorrectable Sector Count — Количество нескорректированных ошибок. Атрибут показывает общее количество ошибок, возникших при чтении/записи сектора и которые не удалось скорректировать. Рост значения в поле raw value этого атрибута указывает на явные дефекты поверхности и/или проблемы в работе механики накопителя.
Рассмотрение остальных параметров имеет менее важное значение и не входит в рамки данной статьи. Более детальное описание есть на ресурсе, указанном выше.
В качестве примера рассмотрим вывод утилиты smartctl
В данном случае наблюдается большое значение параметра “Reallocated Sectors Count” указывающее на возможное наличие сбойных секторов(bad blocks) и “Seek_Error_Rate” – ошибки позиционирования считывающих головок диска. В данном примере диск можно считать сбойным и в ближайшее время, возможен выход его из строя.
Как показывает наш опыт в случае если значения Uncorrectable Sector Count, Current Pending Sector Count, UDMA_CRC_Error_Count больше нуля, то жесткий диск требует срочной замены.
Так же будет полезно провести тест диска:
smartctl --test=short /dev/sda
Следить за процессом и посмотреть результат можно командой:
smartctl -a /dev/sda | grep -A1 "Test_Description"
Если нужной информации не отобразилось, то просмотрите полный вывод команды:
smartctl -a /dev/sda
Основной показатель здоровья диска:
233 Media_Wearout_Indicator
Media Wearout Indicator — эта переменная напрямую указывает на износ диска. Счётчик имеет ненулевое значение в начале (100), и уменьшается со временем. При достижении некоего определённого производителем порогового значения, диск признается изношенным и переходит в read-only режим.
Если его значение упало ниже 10, значит пора диск менять.
Так же стоит обращать внимание на:
5 Reallocated_Sector_Ct
При оценке состояния жестких дисков очень важно делать проверку не при возникновении проблем, а с достаточной для оперативной реакции периодичностью. Поможет в этом демон мониторинга жестких дисков smatrd. Его настройка не составит больших трудностей, т.к. он очень хорошо документирован на официальном сайте проекта (см. http://smartmontools.sourceforge.net/man/smartd.8.html и http://smartmontools.sourceforge.net/man/smartd.conf.5.html). Процедура не займет много времени, но при этом позволит всегда знать в каком состоянии находятся жесткие диски ваших серверов, а при появлении ошибок позволит вовремя принять меры и предотвратить потерю данных.
Получив и проанализировав показатели SMART, необходимо написать запрос в службу технической поддержки. Правильно составленный запрос облегчает работу специалистов и уменьшает время реакции.
Правила подачи запроса в службу поддержки
Информация, необходимая для подачи запроса:
- Идентификационные данные сбойного диска, при невозможности извлечения, данные о целом диске. Информация будет передана техническим сотрудникам в ДЦ, которые будут заниматься заменой сбойного диска.
- Результат выполнения команды smartctl -a на проблемном жестком диске.
- Данные доступа на сервер, для подтверждения состояния дисков сотрудниками компании.
Сообщения, не содержащие данной информации не могут быть приняты к рассмотрению.
Работа утилиты smartctl. Для определения данных о сбойном диске необходим следующий блок информации:
=== START OF INFORMATION SECTION === Model Family: Seagate Momentus 5400.3 series Device Model: ST9120822AS Serial Number: 5LZ71TKQ Firmware Version: 3.ALC User Capacity: 120 034 123 776 bytes Device is: In smartctl database [for details use: -P show] ATA Version is: 7 ATA Standard is: Exact ATA specification draft version not indicated Local Time is: Mon Oct 15 06:52:24 2012 IRKT SMART support is: Available - device has SMART capability. SMART support is: Enabled
Пример запроса
Рассмотрим небольшой пример переписки воображаемого клиента К с сотрудником технической поддержки С:
К: У меня вышел из строя диск.В приложении файл с результатом работы команды smartctl -a. Можете произвести замену? С: Да, мы можем заменить ваш диск. Для этого нам необходимы данные целого диска(серийный номер) или доступ на сервер. К: Вот номер целого – 000000000, доступ к серверу — root:PASSWORD С: Работы выполнены, диск заменен.
Данный диалог можно сократить до запроса о замене диска и ответа о выполнении работ:
Прошу заменить сбойный диск Serial Number: 5LZ71TKQ, Device Model: ST9120822AS. В приложении файл с результатом работы команды smartctl -a Доступ к серверу — root:PASSWORD
Такой запрос будет выполнен сотрудниками технической поддержки без дополнительных уточняющих вопросов, что сокращает время выполнения заявки и экономит рабочее время сотрудников технической поддержки.
Возможности по диагностированию оперативной памяти
Данная проблема может проявляться неявно и решение проблемы затянется. Примером могут быть случаи с выходом из строя отдельных ячеек памяти. Сбои в работе сервера будут происходить не часто или проявляться как ошибки чтения/записи по адресу памяти без выхода из строя сервера.
Диагностика данной проблемы проводится тестом Memtest, официальный сайт проекта — http://www.memtest.org/. Идея данного теста проста — проверка ячеек памяти чтением/записью значений, от простого к сложному. Запуск теста можно сделать, заказав IP-KVM и подключение образа с Memtes’ом в техподдержке (нужно будет загрузиться с этого образа). При наличии проблем с памятью, вероятнее всего, тест пройден не будет, что будет отображено на экране (в какой ячейке и при записи какого значения произошел сбой).
Примечание: Тестирование идет в цикле и его завершение производится вручную. Нужно, чтобы было проведено минимум 3-4 круга тестирования (определяется значением параметра Pass - между Test и Errors).
После выявления проблемы с памятью пишем запрос в службу технической поддержки. В запросе необходимо приложить снимок экрана с ошибкой. Сообщения, не содержащие данной информации не могут быть приняты к рассмотрению. Если ваш провайдер не предоставляет доступ в панель DCImanager, то вам следует сразу написать обращение в службу поддержки с просьбой провести данный тест. При подтверждении ошибки, память будет заменена.
Заключение
Вместо заключения хотелось бы сказать следующее: проблемы выхода винчестеров из строя — явление прогнозируемое и в этом может помочь сервис мониторинга состояния диска smartd, так же включенный в пакет smartmontools . Его настройка и использование неоднократно рассматривались в интернете и не входит в рамки данной статьи. Использование клиентами этого средства мониторинга может спасти от нежелательной потери данных.
Проблемы оперативной памяти — явление непредсказуемое и спонтанное. Выход её из строя не грозит потерей информации, однако вызывает простои в эксплуатации.
И последнее — желаем вам, чтобы ваши сервера не ломались, а обращений в службу технической поддержки по данной тематике было меньше.