10、 什么是hadoop-env.sh下的文件和在文件應(yīng)設(shè)置為Hadoop的工作上的變量?
這個文件提供hadoop的運行環(huán)境,包括以下variables-hadoop_classpath,java_home和hadoop_log_dir。java_home變量應(yīng)為Hadoop運行。
11)除了利用JPS的命令還有任何其他什么方法,你可以檢查是否它是工作。
使用命令/ etc / init.d/hadoop-0.20-namenode狀態(tài)。
12)在一個MapReduce系統(tǒng),如果HDFS塊大小為64 MB,有3個文件的大小127mb,64K和65mb與fileinputformat。在這種情況下,有多少輸入將很可能是由Hadoop框架組成。
2個分別為127 MB和65 MB的文件或者一個是64KB的文件。
13)該命令是檢驗HDFS是否被破壞?
hadoop fsck(文件系統(tǒng)檢查)命令用于檢查丟失塊。
14)列出了一些使用Hadoop生態(tài)系統(tǒng)的案例
文本挖掘,圖分析,語義分析,情感分析,推薦系統(tǒng)。
15)你怎樣讓一個Hadoop不工作
Hadoop的工作–清除工作ID。
16)我想看到所有的工作在Hadoop集群上運行。你該怎么做?
使用命令–Hadoop作業(yè)–列表,給出了在Hadoop集群上運行的工作列表。
17)是否可以在多個集群中復(fù)制文件?如果是,你怎么能做到這一項呢?
是的,它可能的復(fù)制文件到多個Hadoop集群,這可以使用分布式復(fù)制實現(xiàn)。distcp命令用于內(nèi)部或跨集群復(fù)制。
18)什么是最好的運行Hadoop操作系統(tǒng)?
Ubuntu和Linux是首選的運行Hadoop的操作系統(tǒng)。雖然Windows操作系統(tǒng)也可以用來運行Hadoop的但它會導致一些問題,所以并不推薦。
19)運行Hadoop的網(wǎng)絡(luò)要求是什么?
SSH是需要運行啟動服務(wù)器進程從屬節(jié)點。
一個密碼需要更少的SSH在主人,機器,和所有的苦工之間的連接。
20)將mapred.output.compress屬性設(shè)置為true,以確保所有的輸出文件壓縮在高效的空間使用Hadoop集群上。在特定情況下,如果群集用戶不需要對工作進行壓縮數(shù)據(jù)。你建議他做什么?
如果用戶不想壓縮數(shù)據(jù)的一個特定的工作就應(yīng)該創(chuàng)建自己的配置文件并且設(shè)置mapred.output.compress屬性為false。這個配置文件之后作為一個資源加載到相關(guān)工作。
21)什么是實施一次最佳實踐的NameNode?
它始終是在一個單獨的獨立的機器更好地部署第二個Namenode。當次級節(jié)點部署在一個單獨的機器不受主節(jié)點干擾的操作。
22)應(yīng)該多長時間給NameNode重新格式化嗎?
Namenode不能格式化。這樣做會導致數(shù)據(jù)完全的丟失。NameNode是一次格式化開始之后,它創(chuàng)造了整個文件系統(tǒng)的元數(shù)據(jù)和命名空間ID目錄結(jié)構(gòu)。
23)如果Hadoop產(chǎn)生了100個任務(wù)工作,并且其中一個任務(wù)失敗。Hadoop該怎么做呢?
任務(wù)將再次開始一個新的TaskTracker,并且默認設(shè)置逾期不超過4次,(默認值是可以改變的),工作將會失敗。
24)你如何添加和刪除節(jié)點的Hadoop集群?
在HDFS集群中添加新節(jié)點,主機名應(yīng)該被添加到文件然后在DataNode和TaskTracker開始在新的節(jié)點。
刪除或退役從HDFS集群的節(jié)點,主機名應(yīng)該是從slaves–refreshnodes刪除文件執(zhí)行。
25)您增加復(fù)制級別,但注意到該數(shù)據(jù)已復(fù)制。什么原因?qū)е洛e誤?
其實沒有任何錯誤,如果有大量的數(shù)據(jù),因為數(shù)據(jù)復(fù)制通常需要在時間的基礎(chǔ)上的數(shù)據(jù)大小作為集群進行數(shù)據(jù)復(fù)制,它可能需要幾個小時。
Hadoop管理面試題
1、當你第一次Hadoop集群啟動安裝過程,你會怎樣設(shè)置安裝程序?
2、你將如何安裝新組件或添加到現(xiàn)有的Hadoop集群服務(wù)?
3、如果Hive的元數(shù)據(jù)服務(wù)在下降,那么將對Hadoop集群有什么影響?
4、當你建立一個Hadoop集群,你將如何決集群的大小?
5、你怎么在同一集群運行Hadoop和實時進程?
6、如果你得到一個拒絕連接的案例-當?shù)卿浀揭慌_機器上的集群,可能是什么原因?你將如何解決這個問題?
7、你如何識別和解決長期運行的工作?
8、你怎么決定一個NameNode和Hadoop服務(wù)的堆內(nèi)存的限制?
9、如果Hadoop服務(wù)在Hadoop集群上運行緩慢,什么是它的根源,你將如何鑒別呢?
10、有多少數(shù)據(jù)節(jié)點可以運行在一個單一的Hadoop集群?
11、在Hadoop2.0和Hadoop 1.0配置
12、在高可用性的情況下,如果連接待機和活躍節(jié)點丟失。這種Hadoop集群將如何影響?