沒(méi)有無(wú)緣無(wú)故的愛(ài),也沒(méi)有無(wú)緣無(wú)故恨,設(shè)備故障的產(chǎn)生也總會(huì)伴隨著一系列的愛(ài)恨情愁。事情的經(jīng)過(guò)是這樣的。聯(lián)通用戶為了節(jié)流,要將以前不怎么使用的HP小型機(jī)(rx3410)搬遷到一個(gè)相對(duì)重要的位置,做為新系統(tǒng)的數(shù)據(jù)庫(kù)服務(wù)器。因?yàn)檫@個(gè)重要性僅僅是相對(duì)的,所以他們沒(méi)有征詢相關(guān)技術(shù)人員的意見(jiàn),一群粗人就開(kāi)始斷電、搬運(yùn),場(chǎng)面火暴,干勁實(shí)足。
在新的位置,他們將能插的線都插上,將能打開(kāi)的電源都打開(kāi),系統(tǒng)啟動(dòng)畫(huà)面如期而至,似乎大功告成了。但是粗人也有細(xì)膩的一面,系統(tǒng)是啟動(dòng)了,但還是要檢查一下應(yīng)用是否啟動(dòng)正常,如:雙機(jī)熱備程序,數(shù)據(jù)庫(kù)服務(wù)進(jìn)程是否啟動(dòng)。他們熟練的敲擊著鍵盤(pán),錯(cuò)誤的提示隨著回車(chē)鍵有力的敲擊應(yīng)聲閃爍在液晶屏幕上。粗人們終于為他們的魯莽負(fù)出了代價(jià)。
由于沒(méi)有嚴(yán)格按照操作規(guī)范進(jìn)行斷電、加電,造成磁盤(pán)陣列數(shù)據(jù)丟失,操作系統(tǒng)無(wú)法正確識(shí)別磁盤(pán)陣列數(shù)據(jù),導(dǎo)致磁盤(pán)無(wú)法加載(mount),應(yīng)用也就無(wú)法正常啟動(dòng)了。但是磁盤(pán)各項(xiàng)指數(shù)均正常,沒(méi)有異常的紅燈閃爍。造成故障的原因找到了,但解決問(wèn)題就沒(méi)那么簡(jiǎn)單了。就像我們都知道腐敗是體制的問(wèn)題,但是如何治理腐敗就沒(méi)那么簡(jiǎn)單了。設(shè)備故障沒(méi)有腐敗那么復(fù)雜,但我們還是要了解這些設(shè)備運(yùn)行的機(jī)制是什么,才能找到解決問(wèn)題的辦法。
首先讓我們了解HP-UX是如何管理硬盤(pán)存儲(chǔ)資源的。它主要是采用邏輯卷方式來(lái)進(jìn)行管理。要說(shuō)清整個(gè)機(jī)制,先要介紹幾個(gè)概念:
物理卷Physical Volume,稱(chēng)為PV:指物理上硬盤(pán),一個(gè)硬盤(pán)就是一個(gè)PV。
邏輯卷組 Logical Volume Group,稱(chēng)為VG:一個(gè)VG包含整數(shù)個(gè)PV,可理解為一個(gè)大硬盤(pán)。
邏輯卷 Logical Volume,稱(chēng)為L(zhǎng)V:相當(dāng)于對(duì)大硬盤(pán)進(jìn)行邏輯分區(qū), 一個(gè)VG里可有若干個(gè)LV。
文件系統(tǒng) File System:在邏輯卷的基礎(chǔ)上,可建立文件系統(tǒng),然后 MOUNT到一個(gè)目錄下,這樣就可以文件存取的方式來(lái)使用這塊硬盤(pán)了。
當(dāng)然,您也可以不建文件系統(tǒng),而直接把LV當(dāng)作裸設(shè)備(raw device),以TRUNK方式來(lái)存取數(shù)據(jù),許多數(shù)據(jù)庫(kù)都是用這種方式存取數(shù)據(jù)的。
通過(guò)以上概念的解釋?zhuān)覀兛梢缘玫揭粡堃陨细拍畹年P(guān)系圖,關(guān)系是很重要的。正所謂:關(guān)鍵不是你懂得什么,而是你認(rèn)識(shí)什么人。我再補(bǔ)充一句,把認(rèn)識(shí)的人織成一張網(wǎng),你就是處理關(guān)系的高手了。
有了這個(gè)關(guān)系圖,這種你中有我,我中有你的關(guān)系也就清晰的呈現(xiàn)在我們面前,即物理卷(PV)即表示一個(gè)磁盤(pán),多個(gè)磁盤(pán)可以組成一個(gè)卷組(VG),這個(gè)卷組(VG)又可以被劃分為多個(gè)邏輯卷(LV)。了解了這種關(guān)系,我們解決問(wèn)題的思路也就確定了,首先從底層開(kāi)始檢查,首先確定磁盤(pán)是正常的,因?yàn)榇疟P(pán)狀態(tài)燈均是和諧的綠色,而且通過(guò)磁盤(pán)管理軟件連接也顯示磁盤(pán)工作正常。
確定最底層的硬件沒(méi)有問(wèn)題后,我們懸著的心開(kāi)始逐漸下浮,因?yàn)榇疟P(pán)沒(méi)壞,磁盤(pán)中保存的數(shù)據(jù)還有救。但這也只是理論上存在挽救的可能,所以那顆脆弱的心還不能沉底,就讓它懸在半空吧。接著通過(guò)lvdisplay –v 這個(gè)命令檢查L(zhǎng)V的狀態(tài),顯示結(jié)果提示VG無(wú)法激活。為了確認(rèn)以上命令是否正確,可以通過(guò)vgdisplay –v看檢查VG的狀態(tài),結(jié)果顯示disable,即無(wú)法激活。
通過(guò)以上關(guān)系圖可知,只要保證VG下的所有磁盤(pán)正常,VG即可正常啟動(dòng)。但是我們已經(jīng)檢查了磁盤(pán)的狀態(tài),一切正常。為什么呢?VG被那幫粗人折騰的心情不好,罷工了嗎?當(dāng)然不是。首先我們檢查一下VG與磁盤(pán)的映射關(guān)系,通過(guò)命令strings /etc/lvmtab即可看到VG與磁盤(pán)硬件地址的關(guān)系。然后再通過(guò)命令ioscan -fnC disk檢查,奇怪的事情發(fā)生了,VG下的磁盤(pán)硬件地址里有/dev/dsk/c0t3d0和/dev/dsk/c0t4d0,但是通過(guò)ioscan命令檢查的結(jié)果卻沒(méi)有這兩個(gè)硬件地址,反而多出來(lái)另外兩個(gè)硬件地址/dev/dsk/c4t0d4和 /dev/rdsk/c4t0d4。兩種檢查的結(jié)果出現(xiàn)了不一致,磁盤(pán)數(shù)量雖然一樣,但是硬件地址發(fā)生了改變。世界上就是因?yàn)槌霈F(xiàn)了太多的無(wú)法解釋的現(xiàn)象,所以就產(chǎn)生了宗教忽悠那些迷茫的人們。但從小接受的唯物主義教育給了我人定勝天的信念,突破迷霧,繼續(xù)前行。
精神的力量是偉大的,回想了從小學(xué)到大學(xué)所學(xué)的思想政治課后,我就像大力水手吃了菠菜一樣,渾身充滿了力量,繼續(xù)揭密。通過(guò)管理工具(sam),我 發(fā)現(xiàn)硬件地址/dev /dsk/c0t3d0和/dev/dsk/c0t4d0居然變成了光卡的硬件地址。而/dev/dsk/c4t0d4和 /dev/rdsk/c4t0d4是新產(chǎn)生的磁盤(pán)硬件地址。迷霧逐漸消散,真相即將大白。客氣(在用戶面前要裝孫子)得詢問(wèn)了那幫搬家的粗人才知道,磁盤(pán) 柜太重了,搬不動(dòng),于是他們把磁盤(pán)拆下來(lái)搬,但是拆的過(guò)程中沒(méi)有對(duì)磁盤(pán)進(jìn)行編號(hào),插入磁盤(pán)柜后,順序發(fā)生變化了。磁盤(pán)陣列重啟后,當(dāng)然要重新分配硬件地址 了。但為什么在磁盤(pán)加載失敗的情況下,操作系統(tǒng)還可以正常啟動(dòng)呢?這還要感謝那幫粗人沒(méi)有把服務(wù)器本地的磁盤(pán)拆下來(lái)搬運(yùn),僅僅把磁盤(pán)柜中的磁盤(pán)拆了下來(lái) 了,操作系統(tǒng)安裝在本地磁盤(pán),所以操作系統(tǒng)可以正常啟動(dòng),但是磁盤(pán)柜中的磁盤(pán)卻加載失敗。真是不幸中的萬(wàn)幸啊!否則卷組恢復(fù)將不再如此簡(jiǎn)單,欲知詳情,且 聽(tīng)下次分解。