it-swarm.asia

Arızalı sabit sürücüyü fiziksel olarak tanımlayın

Diyelim ki sunucunuzda 6 sağlıklı sabit disk var. Bir sürücü arızalanır (bağlanmaz/algılanmaz, hatalarla baskından düşer) veya arızalanır (SMART kötüleşir, vb.). Kötü sürücüyü değiştirmelisin. Kasayı açtığınızda, altı özdeş sabit sürücü görürsünüz.

Hangisinin artık sağlıklı/montaj/çalışmadığını nasıl anlarsınız?

Sistem linux, büyük olasılıkla ubuntu sunucusu, en basit yazılım RAID'i kullanacaktır. Sabit sürücüler SATA olacak ve doğrudan anakarta bağlanacak. (baskın denetleyicisi yok)

Doğru olanı seçene kadar sürücülerin rastgele bağlantısını kesmek istemiyorum. Sürücülerin hepsi bana benziyor; Hangi sürücünün farkında olmadığımı tanımlamanın bazı ortak yolları olduğunu hayal ediyorum. Herhangi bir işaretçi/ipucu/en iyi uygulama var mı? Teşekkürler!

EDIT: Bunun elle dalgalı bir şekilde 'genelleştirilmesini' istemiştim, ama sadece 'eksik' ve 'korkunç' olarak çıktı. Benim hatam!

27
privatehuff

Tam olarak açıkladığınız gibi bir (kule) sunucuda bu problemi yaşadım ve kolaydı:

smartctl sürücünün seri numarasını verir

Satıcılar bazen hdparm gibi kendi araçlarını da gönderir.

Bu yüzden bozuk sürücünün seri çıkışını yapın ve ardından sürücüyü bulmak için bir dişçi aynası ve bir el feneri kullanın.

Bir rafta genellikle diğer insanların söylediği gibi gösterge ışıklarına sahip olursunuz, ancak aynı şeyin geçerli olacağına eminim.

27
Tom Ritter

Sürücülerin üzerine etiketlerin yapıştırılması (tepsinin tasarımına bağlı olarak) uygun olmayabilir. Sürücü öldüğü zaman, etiketler kurutulabilir ve düşebilir.

ledctl (ledmon paketinden) gerçekten bununla gitmek için bir yoldur.

ledctl locate=/dev/disk/by-id/[drive-id]

veya

ledctl locate=/dev/sda

belirtilen sürücü için kasanızdaki sürücü arızası ışığını yakacaktır. Sürücüyü NASIL tanımladığınızın önemli olmadığını göstermek için iki örnek verdim. Seri, isim vb. Kullanabilirsiniz ... Kullanabileceğiniz her türlü bilgi kullanılabilir. Sürücülere/dev/ve/dev/disk/yol altında birden çok yolla başvurulur.

Işığı geri kapatmak için locate_off öğesini aşağıdaki gibi değiştirerek tekrar çalıştırın:

ledctl locate_off=/dev/sda
17
UCS75

Genellikle bağlantıların bir şekilde etiketlendiğini ve daha sonra başarısız cihazın kimliğinden çalıştığını ummanız gerekir. Örneğin ... ve birinin beni düzeltmesi için yorum yapması gerekir ... İki IDE kanalınız varsa, her birinde en fazla 2 sürücünüz varsa, sda, sdb, sdc olabilir sdd başarısız olursa, ikinci IDE kanalının kablosundaki ikinci sürücü olacaktır.

SATA ise ve arka odada sahip olduğum sistem gibi, bağlantı noktaları sata sürücülerinin her biri için etiketlenir. Yine, sürücü yazısı, SATA konektörlerinin 0 bağlantı noktasından başlayıp yukarı doğru hareket ederek, sürücülerin gittiği her şeyden geçer.

Herhangi bir imalat farkı varsa, dmesg | grep sd veya dmesg | grep hd bazı ipuçları vermelidir.

Seri numaralarınız varsa, hdparm komutunun yazılımda size verebileceğini düşünüyorum, böylece bu şekilde takip edebilirsiniz. Bu durumda sürücüleri bir yerde etiketlemek isteyebilirsiniz, bu nedenle bir sorun olduğunu fark ettiğinizde endişelenmenize gerek kalmaz.

... RAID yazılımına göre donanım RAID'i tercih etmemin başka bir nedeni olduğunu biliyordum. Gerçekten de göz kamaştırıcı ışıklar gibi.

EDIT: smartctl, hdparm değil, seri numarasını verir. Benim hatam.

6
Bart Silverstrim

Kısa cevap için - "lsscsi" Ayrıntılı cevap için - "lshw -c disk" size bağlı olan HDD ve SATA bağlantı noktalarını gösterir.

3
Sarath kumar S

Bazı sürücüler /sys içine yerleştirme gösterge ışığını açmak için 1'i veya kapatmak için 0'ı yankılayabilirsiniz.

$ for light in $( find /sys -name "locate" ) ; do echo 1 > $light ; sleep 10 ; echo 0 > $light; done
3
crh

En azından arızalı sürücüden bahseden RAID yazılımı/denetleyicisi hangi sürücünün arızalı olduğunu (kimlik numarası) söylemelidir. 0 genellikle sol üstte, aşağı, sonra sağa hareket eder (iki veya daha fazla sütundaysa). Bağlantı noktaları muhtemelen etiketlidir.

2
mrdenny

Yerleştirme ışığı yoksa ve sürücülerin dışındaki seri numaralarını kolayca bulamazsanız, bazen bu sevimsiz teknik yardımcı olabilir: söz konusu sürücüde LOT etkinliği yaratın ve ardından katı LED'de etkinlik LED'i olan sürücüyü arayın . Seri numarasını daha ayrıntılı bir şekilde kontrol etmek en iyisidir, ancak bu aramayı daraltmaya yardımcı olabilir.

Örneğin.:

# while true; do dd if=/dev/disk/by-id/scsi-drive-that-is-dying of=/dev/null; sleep 1; done

(While döngüsü teknik olarak gerekli değildir, ancak veri merkezine giderken işleri hareket ettirir. "Uyku 1", "dd" nedeniyle başarısız olursa hızlı bir döngü tarafından oluşturulan yüksek CPU kullanımından kaçınmaya yardımcı olur .. sürücünün bağlantısı kesiliyor.)

2
Steve Bonds

Altı dahili HDDS? Harici, çalışırken değiştirilebilir sürücüler ise, çalışırken değiştirilebilir taşıyıcı muhtemelen bozuk sürücüyü tanımanıza yardımcı olacak bir hata ışığına sahiptir. Ayrıca birçok Raid yönetim programı, hangisinin hangisi olduğunu belirlemek için belirli bir sürücüdeki ışığı yanıp sönme seçeneğine sahiptir. Hepsi ışıksız dahili ise, RAID yazılımınıza hangi kimliklerin iyi olduğunu söyleyen ve bunu anlamak için SCSI kimliklerine vb. Bakıyorsunuz. Otomatik olarak ayarlandıysa, RAID denetleyici belgeniz, SCSI zincirinde kimliklerin hangi sırayla atandığını size bildirmelidir. İyi şanslar. İşler devam ederken şimdi bir yedek alın!

2
BillN

Her şey başarısız olduğunda, başarısız olmayan sürücüleri belirleyebilir ve geriye doğru çalışabilirsiniz.

find / -type f -exec cat {} \; >> /dev/null

Hangi sürücü etkinlik ışıkları yanmıyorsa, muhtemelen kötüdür (ve umarım sadece bir tanesidir.) Yapılandırılmış etkin yedekleriniz varsa bunların da yanmayacağını unutmayın.

1
toppledwagon

Kasa üzerinde etiketlenmeli ve RAID Yazılımına uygun olmalıdır.

Dells'da, sizin düşündüğünüz gibi değil. Bizimkilerde 0: 0 sol altta, 0: 1 sol üstte, 0: 2 alt ortada vb. Kullandığım tüm sunucularda (ev yapımı işler hariç), RAID yazılımı bağlantı noktasını gösterecek ve etiketli.

0
dubRun

scsirastools , SCSI disklerde çeşitli tanılama testleri yapmanızı sağlayan bir dizi araç içerir. Yazılım kontrolü altında bir diski kapatmak için sgmon'u da kullanabilirsiniz. Bu, en azından fiziksel diski teşhis ile bulabilmenizi sağlar.

Bir donanım RAID denetleyiciniz varsa, denetleyicinin BIOS'u veya yönetim yazılımı bozuk diskleri tanımlamanıza olanak tanıyan bir özelliğe sahip olmalıdır.