分布式文件系統(tǒng) _生活經(jīng)驗(yàn)

什么是Hadoop分布式文件系統(tǒng)分布式文件系統(tǒng)（Distributed File System）是指文件系統(tǒng)管理的物理存儲資源不一定直接連接在本地節(jié)點(diǎn)上，而是通過計(jì)算機(jī)網(wǎng)絡(luò)與節(jié)點(diǎn)相連。

Hadoop是Apache軟件基金會所研發(fā)的開放源碼并行運(yùn)算編程工具和分散式檔案系統(tǒng)，與MapReduce和Google檔案系統(tǒng)的概念類似。
HDFS（Hadoop 分布式文件系統(tǒng)）是其中的一部分。

linux下常用的分布式文件系統(tǒng)有哪些？

文章插圖

Lustre是HP，Intel，Cluster File System公司聯(lián)合美國能源部開發(fā)的Linux集群并行文件系統(tǒng)，名稱來源于Linux和Clusters 。同時Lustre也是一個遵循GPL許可協(xié)議的開源軟件，Lustre也被稱為平行分布式文件系統(tǒng) ，常用于大型計(jì)算機(jī)集群和超級電腦中。Lustre的主要組建包括：元數(shù)據(jù)服務(wù)器(Metadataservers， MDSs)、對象存儲服務(wù)器(objectstorage servers，OSSs)和客戶端。其中MDSs提供元數(shù)據(jù)服務(wù)，MGS管理服務(wù)器提供Lustre文件系統(tǒng)配置信息，OSS對象存儲服務(wù)器expose塊設(shè)備提供數(shù)據(jù) 。Lustre文件系統(tǒng)針對大文件讀寫進(jìn)行了優(yōu)化，能夠提高性能的IO能力;在源數(shù)據(jù)獨(dú)立存儲、服務(wù)和網(wǎng)絡(luò)失效的快速恢復(fù)、基于意圖的分布式鎖管理和系統(tǒng)可快速配置方面優(yōu)異。分布式存儲的關(guān)鍵技術(shù)主要包括：全局名字空間、緩存一致性、安全性、可用性和可擴(kuò)展性。從數(shù)據(jù)形態(tài)來劃分，主要有：結(jié)構(gòu)化數(shù)據(jù)、非機(jī)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù) 。Linux是一套免費(fèi)使用和自由傳播的類Unix操作系統(tǒng)，是一個基于POSIX和UNIX的多用戶、多任務(wù)、支持多線程和多CPU的操作系統(tǒng) 。它能運(yùn)行主要的UNIX工具軟件、應(yīng)用程序和網(wǎng)絡(luò)協(xié)議。它支持32位和64位硬件。Linux繼承了Unix以網(wǎng)絡(luò)為核心的設(shè)計(jì)思想，是一個性能穩(wěn)定的多用戶網(wǎng)絡(luò)操作系統(tǒng) 。Linux操作系統(tǒng)誕生于1991 年10 月5 日（這是第一次正式向外公布時間）。Linux存在著許多不同的Linux版本，但它們都使用了Linux內(nèi)核。Linux可安裝在各種計(jì)算機(jī)硬件設(shè)備中，比如手機(jī)、平板電腦、路由器、視頻游戲控制臺、臺式計(jì)算機(jī)、大型機(jī)和超級計(jì)算機(jī) 。
當(dāng)前主流分布式文件系統(tǒng)有哪些?各有什么優(yōu)缺點(diǎn)目前幾個主流的分布式文件系統(tǒng)除GPFS外，還有PVFS、Lustre、PanFS、GoogleFS等。
1.PVFS(Parallel Virtual File System)項(xiàng)目是Clemson大學(xué)為了運(yùn)行Linux集群而創(chuàng)建的一個開源項(xiàng)目,目前PVFS還存在以下不足：
1）單一管理節(jié)點(diǎn):只有一個管理節(jié)點(diǎn)來管理元數(shù)據(jù)，當(dāng)集群系統(tǒng)達(dá)到一定的規(guī)模之后，管理節(jié)點(diǎn)將可能出現(xiàn)過度繁忙的情況，這時管理節(jié)點(diǎn)將成為系統(tǒng)瓶頸;
2）對數(shù)據(jù)的存儲缺乏容錯機(jī)制:當(dāng)某一I/O節(jié)點(diǎn)無法工作時，數(shù)據(jù)將出現(xiàn)不可用的情況;
3）靜態(tài)配置:對PVFS的配置只能在啟動前進(jìn)行，一旦系統(tǒng)運(yùn)行則不可再更改原先的配置。
2.Lustre文件系統(tǒng)是一個基于對象存儲的分布式文件系統(tǒng) ，此項(xiàng)目于1999年在Carnegie Mellon University啟動，Lustre也是一個開源項(xiàng)目。它只有兩個元數(shù)據(jù)管理節(jié)點(diǎn),同PVFS類似,當(dāng)系統(tǒng)達(dá)到一定的規(guī)模之后，管理節(jié)點(diǎn)會成為Lustre系統(tǒng)中的瓶頸。
3.PanFS(Panasas File System)是Panasas公司用于管理自己的集群存儲系統(tǒng)的分布式文件系統(tǒng) 。
4.GoogleFS(Google File System)是Google公司為了滿足公司內(nèi)部的數(shù)據(jù)處理需要而設(shè)計(jì)的一套分布式文件系統(tǒng) 。
5.相對其它的文件系統(tǒng)，GPFS的主要優(yōu)點(diǎn)有以下三點(diǎn)：
1)使用分布式鎖管理和大數(shù)據(jù)塊策略支持更大規(guī)模的集群系統(tǒng),文件系統(tǒng)的令牌管理器為塊、inode、屬性和目錄項(xiàng)建立細(xì)粒度的鎖，第一個獲得鎖的客戶將負(fù)責(zé)維護(hù)相應(yīng)共享對象的一致性管理，這減少了元數(shù)據(jù)服務(wù)器的負(fù)擔(dān);
2)擁有多個元數(shù)據(jù)服務(wù)器,元數(shù)據(jù)也是分布式,使得元數(shù)據(jù)的管理不再是系統(tǒng)瓶頸;
3)令牌管理以字節(jié)作為鎖的最小單位,也就是說除非兩個請求訪問的是同一文件的同一字節(jié)數(shù)據(jù),對于數(shù)據(jù)的訪問請求永遠(yuǎn)不會沖突.

超融合產(chǎn)品和分布式文件系統(tǒng)的區(qū)別是什么？什么是分布式文件系統(tǒng)？分布式文件系統(tǒng)（Distributed File System）是指文件系統(tǒng)管理的物理存儲資源不一定直接連接在本地節(jié)點(diǎn)上，而是通過計(jì)算機(jī)網(wǎng)絡(luò)與節(jié)點(diǎn)(可簡單的理解為一臺計(jì)算機(jī))相連。分布式文件系統(tǒng)的設(shè)計(jì)基于客戶機(jī)/服務(wù)器模式。一個典型的網(wǎng)絡(luò)可能包括多個供多用戶訪問的服務(wù)器。另外，對等特性允許一些系統(tǒng)扮演客戶機(jī)和服務(wù)器的雙重角色。例如，用戶可以“發(fā)表”一個允許其他客戶機(jī)訪問的目錄，一旦被訪問，這個目錄對客戶機(jī)來說就像使用本地驅(qū)動器一樣。什么是超融合架構(gòu)？超融合基礎(chǔ)架構(gòu)（Hyper-Converged Infrastructure，或簡稱“HCI”）也被稱為超融合架構(gòu) ，是指在同一套單元設(shè)備（x86服務(wù)器）中不僅僅具備計(jì)算、網(wǎng)絡(luò)、存儲和服務(wù)器虛擬化等資源和技術(shù)，而且還包括緩存加速、重復(fù)數(shù)據(jù)刪除、在線數(shù)據(jù)壓縮、備份軟件、快照技術(shù)等元素，而多節(jié)點(diǎn)可以通過網(wǎng)絡(luò)聚合起來，實(shí)現(xiàn)模塊化的無縫橫向擴(kuò)展（scale-out），形成統(tǒng)一的資源池。超融合產(chǎn)品和分布式文件系統(tǒng)的區(qū)別是什么？超融合架構(gòu)一般包括存儲模塊，虛擬化模塊，控制管理模塊，數(shù)據(jù)保護(hù)與容災(zāi)模塊等，而這個存儲一般用的就是分布式存儲。而分布式存儲不一定是分布式文件系統(tǒng) ，也可能是分布式塊存儲。比如SmartX的超融合架構(gòu)就是基于分布式塊存儲，還有一些廠商是基于分布式文件存儲。但如果深究分布式塊存儲的實(shí)現(xiàn)技術(shù)的時候，我們會發(fā)現(xiàn)一些分布式塊存儲是基于分布式文件系統(tǒng)實(shí)現(xiàn)的。大致的原理是：先用分布式文件系統(tǒng)將物理磁盤管理起來，形成一個池（十分類似于Google GFS）；從這個池里面創(chuàng)建文件，例如500GB的文件；然后通過塊設(shè)備網(wǎng)關(guān)，例如iSCSI網(wǎng)關(guān) ，將這個500GB的文件變成500GB的虛擬硬盤（塊設(shè)備），對外提供服務(wù) 。超融合系統(tǒng)架構(gòu)
分布式文件系統(tǒng)是什么?。?/h3>分布式文件系統(tǒng)(Distributed File System，DFS)
如果局域網(wǎng)中有多臺服務(wù)器，并且共享文件夾也分布在不同的服務(wù)器上，這就不利于管理員的管理和用戶的訪問。而使用分布式文件系統(tǒng),系統(tǒng)管理員就可以把不同服務(wù)器上的共享文件夾組織在一起，構(gòu)建成一個目錄樹。這在用戶看來，所有共享文件僅存儲在一個地點(diǎn) ，只需訪問一個共享的DFS根目錄，就能夠訪問分布在網(wǎng)絡(luò)上的文件或文件夾，而不必知道這些文件的實(shí)際物理位置。

什么是分布式存儲系統(tǒng)？分布式存儲系統(tǒng)定義分布式存儲系統(tǒng)是大量普通PC服務(wù)器通過Internet互聯(lián)，對外作為一個整體提供存儲服務(wù)特性可擴(kuò)展低成本高性能易用挑戰(zhàn)分布式存儲系統(tǒng)的挑戰(zhàn)主要在于數(shù)據(jù)、狀態(tài)信息的持久化，要求在自動遷移、自動容錯、并發(fā)讀寫的過程中保證數(shù)據(jù)的一致性。分布式存儲涉及的技術(shù)主要來自兩個領(lǐng)域：分布式系統(tǒng)以及數(shù)據(jù)庫。數(shù)據(jù)分布一致性容錯負(fù)載均衡事務(wù)與并發(fā)控制易用性壓縮/解壓縮分類非結(jié)構(gòu)化數(shù)據(jù)，一般的文檔結(jié)構(gòu)化數(shù)據(jù) ，存儲在關(guān)系數(shù)據(jù)庫中半結(jié)構(gòu)化數(shù)據(jù)，HTML文檔不同的分布式存儲系統(tǒng)適合處理不同類型的數(shù)據(jù)：分布式文件系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)，這類數(shù)據(jù)以對象的形式組織，不同對象之間沒有關(guān)聯(lián)，這樣的數(shù)據(jù)一般稱為Blob（二進(jìn)制大對象）數(shù)據(jù)典型的有Facebook Haystack 以及 Taobao File System另外，分布式文件系統(tǒng)也常作為分布式表格系統(tǒng)以及分布式數(shù)據(jù)庫的底層存儲，如谷歌的GFS可以作為分布式表格系統(tǒng)Google Bigtable 的底層存儲，Amazon的EBS（彈性存儲塊）系統(tǒng)可以作為分布式數(shù)據(jù)庫（Amazon RDS）的底層存儲總體上看，分布式文件系統(tǒng)存儲三種類型的數(shù)據(jù)：Blob對象、定長塊以及大文件分布式鍵值系統(tǒng)較簡單的半結(jié)構(gòu)化數(shù)據(jù)，只提供主鍵的CRUD（創(chuàng)建、讀取、更新、刪除）典型的有Amazon Dynamo 以及 Taobao Tair分布式表格系統(tǒng)較復(fù)雜的半結(jié)構(gòu)化數(shù)據(jù) ，不僅支持CRUD，而且支持掃描某個主鍵范圍以表格為單位組織數(shù)據(jù)，每個表格包括很多行，通過主鍵標(biāo)識一行，支持根據(jù)主鍵的CRUD功能以及范圍查找功能典型的有Google Bigtable 以及 Megastore，Microsoft Azure Table Storage，Amazon DynamoDB等分布式數(shù)據(jù)庫存儲結(jié)構(gòu)化數(shù)據(jù)，一般是由單機(jī)關(guān)系數(shù)據(jù)庫擴(kuò)展而來典型的包括MySQL數(shù)據(jù)庫分片集群、Amazon RDS以及Microsoft SQL Azure
當(dāng)前主流分布式文件系統(tǒng)有哪些?各有什么優(yōu)缺點(diǎn)？目前幾個主流的分布式文件系統(tǒng)除GPFS外，還有PVFS、Lustre、PanFS、GoogleFS等。
1.PVFS(Parallel Virtual File System)項(xiàng)目是Clemson大學(xué)為了運(yùn)行Linux集群而創(chuàng)建的一個開源項(xiàng)目,目前PVFS還存在以下不足：
1）單一管理節(jié)點(diǎn):只有一個管理節(jié)點(diǎn)來管理元數(shù)據(jù)，當(dāng)集群系統(tǒng)達(dá)到一定的規(guī)模之后，管理節(jié)點(diǎn)將可能出現(xiàn)過度繁忙的情況，這時管理節(jié)點(diǎn)將成為系統(tǒng)瓶頸;
2）對數(shù)據(jù)的存儲缺乏容錯機(jī)制:當(dāng)某一I/O節(jié)點(diǎn)無法工作時，數(shù)據(jù)將出現(xiàn)不可用的情況;
3）靜態(tài)配置:對PVFS的配置只能在啟動前進(jìn)行，一旦系統(tǒng)運(yùn)行則不可再更改原先的配置。
2.Lustre文件系統(tǒng)是一個基于對象存儲的分布式文件系統(tǒng)，此項(xiàng)目于1999年在Carnegie Mellon University啟動，Lustre也是一個開源項(xiàng)目。它只有兩個元數(shù)據(jù)管理節(jié)點(diǎn),同PVFS類似,當(dāng)系統(tǒng)達(dá)到一定的規(guī)模之后，管理節(jié)點(diǎn)會成為Lustre系統(tǒng)中的瓶頸。
3.PanFS(Panasas File System)是Panasas公司用于管理自己的集群存儲系統(tǒng)的分布式文件系統(tǒng) 。
4.GoogleFS(Google File System)是Google公司為了滿足公司內(nèi)部的數(shù)據(jù)處理需要而設(shè)計(jì)的一套分布式文件系統(tǒng) 。
5.相對其它的文件系統(tǒng)，GPFS的主要優(yōu)點(diǎn)有以下三點(diǎn)：
1)使用分布式鎖管理和大數(shù)據(jù)塊策略支持更大規(guī)模的集群系統(tǒng),文件系統(tǒng)的令牌管理器為塊、inode、屬性和目錄項(xiàng)建立細(xì)粒度的鎖，第一個獲得鎖的客戶將負(fù)責(zé)維護(hù)相應(yīng)共享對象的一致性管理，這減少了元數(shù)據(jù)服務(wù)器的負(fù)擔(dān);
2)擁有多個元數(shù)據(jù)服務(wù)器,元數(shù)據(jù)也是分布式,使得元數(shù)據(jù)的管理不再是系統(tǒng)瓶頸;
3)令牌管理以字節(jié)作為鎖的最小單位,也就是說除非兩個請求訪問的是同一文件的同一字節(jié)數(shù)據(jù),對于數(shù)據(jù)的訪問請求永遠(yuǎn)不會沖突.

分布式文件系統(tǒng)有哪些主要的類別？【分布式文件系統(tǒng)】1、單機(jī)文件系統(tǒng)
用于操作系統(tǒng)和應(yīng)用程序的本地存儲。

2、網(wǎng)絡(luò)文件系統(tǒng)（簡稱：NAS）
基于現(xiàn)有以太網(wǎng)架構(gòu)，實(shí)現(xiàn)不同服務(wù)器之間傳統(tǒng)文件系統(tǒng)數(shù)據(jù)共享。

3、集群文件系統(tǒng)
在共享存儲基礎(chǔ)上，通過集群鎖，實(shí)現(xiàn)不同服務(wù)器能夠共用一個傳統(tǒng)文件系統(tǒng) 。

4、分布式文件系統(tǒng)
在傳統(tǒng)文件系統(tǒng)上，通過額外模塊實(shí)現(xiàn)數(shù)據(jù)跨服務(wù)器分布，并且自身集成raid保護(hù)功能，可以保證多臺服務(wù)器同時訪問、修改同一個文件系統(tǒng) 。性能優(yōu)越，擴(kuò)展性很好，成本低廉。

當(dāng)前主流的分布式文件系統(tǒng)有哪些分布式文件系統(tǒng)、集群文件系統(tǒng)、并行文件系統(tǒng)，這三種概念很容易混淆，實(shí)際中大家也經(jīng)常不加區(qū)分地使用。總是有人問起這三者的區(qū)別和聯(lián)系，其實(shí)它們之間在概念上的確有交叉重疊的地方，但是也存在顯著不同之處。

分布式文件系統(tǒng)DFS 作用DFS最主要的作用是集中管理文件共享。它提供一個標(biāo)準(zhǔn)的共享接入點(diǎn) 。這個聽起來感覺好象沒有意思，其實(shí)不然。
試想一下，如果你有多臺文件共享服務(wù)器，比如說：
\\srv1\Public
\\srv2\Report
\\srv3\Share
試想一下，如果沒有這個標(biāo)準(zhǔn)接入點(diǎn)，你可能需要為用戶添家三個共享的連接，分別指向這三個網(wǎng)絡(luò)路徑。但有了DFS以后，你只需要將這三個共享添加到這個標(biāo)準(zhǔn)的接入點(diǎn)就可以了。
除此之外，你可以會遇到一些特殊的情況，比如你的Srv1滿了，需要增加一臺服務(wù)器srv4來接替srv1的工作。如果你使用了dfs，那么你只需要將接入點(diǎn)的Public共享重新指向srv4就可以了。如果沒有這個的話，你必須給每個用戶重新添加一個指向srv4的連接，對吧？

我們在哪種情況下用到DFS（分布式文件系統(tǒng)）了DFS即分布式文件系統(tǒng)，主要用于解決把分散的共享資源集中管理的問題，DFS的基本概念是DFS根和DFS連接。

在大多數(shù)環(huán)境中，共享資源駐留在多臺服務(wù)器上的各個共享文件夾中。要訪問資源，用戶或程序必須將驅(qū)動器映射到共享資源的服務(wù)器，或指定共享資源的通用命名約定 (UNC) 路徑。通過 DFS，一臺服務(wù)器上的某個共享點(diǎn)能夠作為駐留在其他服務(wù)器上的共享資源的宿主。DFS 以透明方式鏈接文件服務(wù)器和共享文件夾，然后將其映射到單個層次結(jié)構(gòu)，以便可以從一個位置對其進(jìn)行訪問，而實(shí)際上數(shù)據(jù)卻分布在不同的位置。用戶不必再轉(zhuǎn)至網(wǎng)絡(luò)上的多個位置以查找所需的信息，用戶在訪問此共享中的文件夾時將被重定向到包含共享資源的網(wǎng)絡(luò)位置。這樣，用戶只需知道 DFS 根目錄共享即可訪問整個企業(yè)的共享資源。

另外解釋:
一、DFS為何物？
DFS即微軟分布式文件系統(tǒng)的簡稱，系統(tǒng)管理員可以利用它來有效的整合網(wǎng)絡(luò)資源，并把這些資源以單一的層次結(jié)構(gòu)呈現(xiàn)給網(wǎng)絡(luò)用戶。管理員利用它可以把資源發(fā)布成一個樹形結(jié)構(gòu)，這樣大大簡化了為用戶進(jìn)行資源配置和對資源管理的工作量。我們可以在不同的機(jī)器上調(diào)整和移動文件，這不會影響到用戶的訪問。

二、為什么要使用DES？
1、DFS使用了現(xiàn)有網(wǎng)絡(luò)中的Share權(quán)限，管理員不必進(jìn)行新的配置
2、通過一個DFS樹形結(jié)構(gòu)用戶就可以訪問多個網(wǎng)絡(luò)資源，而不用再把遠(yuǎn)程驅(qū)動器映射到本地共享資源中。
3、DFS可以配置一個資源的多個提供路徑，用戶對于最終資源的訪問是隨機(jī)的。若一個路徑提供的資源不能連接，DFS將定向到另一個提供者。這可以達(dá)到容錯和負(fù)載均衡的效果。
4、在服務(wù)器故障或網(wǎng)絡(luò)中斷時，我們可以將資源路徑重新定向的新的位置，而不會影響到用戶的訪問。
5、IIS可以和DFS配合發(fā)布資源

在以下情形下，您應(yīng)該考慮實(shí)施 DFS：
訪問共享文件夾的用戶分布在一個站點(diǎn)的多個位置或多個站點(diǎn)上。
大多數(shù)用戶都需要訪問多個共享文件夾。
通過重新分布共享文件夾可以改善服務(wù)器的負(fù)載平衡狀況。
用戶需要對共享文件夾的不間斷訪問。
您的組織中有供內(nèi)部或外部使用的 Web 站點(diǎn) 。

HDFS分布式文件系統(tǒng)具有哪些優(yōu)點(diǎn)HDFS分布式文件系統(tǒng)具有以下優(yōu)點(diǎn)：
支持超大文件
支持超大文件。超大文件在這里指的是幾百M(fèi)，幾百GB，甚至幾TB大小的文件。一般來說hadoop的文件系統(tǒng)會存儲TB級別或者PB級別的數(shù)據(jù) 。所以在企業(yè)的應(yīng)用中，數(shù)據(jù)節(jié)點(diǎn)有可能有上千個。
檢測和快速應(yīng)對硬件故障
在集群的環(huán)境中，硬件故障是常見的問題。因?yàn)橛猩锨_服務(wù)器連接在一起，這樣會導(dǎo)致高故障率。因此故障檢測和自動恢復(fù)是hdfs文件系統(tǒng)的一個設(shè)計(jì)目標(biāo) 。
流式數(shù)據(jù)訪問
Hdfs的數(shù)據(jù)處理規(guī)模比較大，應(yīng)用一次需要訪問大量的數(shù)據(jù)，同時這些應(yīng)用一般都是批量處理，而不是用戶交互式處理。應(yīng)用程序能以流的形式訪問數(shù)據(jù)集。主要的是數(shù)據(jù)的吞吐量，而不是訪問速度。
簡化的一致性模型
大部分hdfs操作文件時，需要一次寫入，多次讀取。在hdfs中，一個文件一旦經(jīng)過創(chuàng)建、寫入、關(guān)閉后，一般就不需要修改了。這樣簡單的一致性模型，有利于提高吞吐量。
缺點(diǎn)
低延遲數(shù)據(jù)訪問
低延遲數(shù)據(jù) 。如和用戶進(jìn)行交互的應(yīng)用，需要數(shù)據(jù)在毫秒或秒的范圍內(nèi)得到響應(yīng) 。由于hadoop針對高數(shù)據(jù)吞吐量做了優(yōu)化，犧牲了獲取數(shù)據(jù)的延遲，所以對于低延遲來說，不適合用hadoop來做。
大量的小文件
Hdfs支持超大的文件，是通過數(shù)據(jù)分布在數(shù)據(jù)節(jié)點(diǎn) ，數(shù)據(jù)的元數(shù)據(jù)保存在名字節(jié)點(diǎn)上。名字節(jié)點(diǎn)的內(nèi)存大?。齠薶dfs文件系統(tǒng)可保存的文件數(shù)量。雖然現(xiàn)在的系統(tǒng)內(nèi)存都比較大，但大量的小文件還是會影響名字節(jié)點(diǎn)的性能。
多用戶寫入文件、修改文件
Hdfs的文件只能有一次寫入，不支持寫入，也不支持修改。只有這樣數(shù)據(jù)的吞吐量才能大。
不支持超強(qiáng)的事務(wù)
沒有像關(guān)系型數(shù)據(jù)庫那樣，對事務(wù)有強(qiáng)有力的支持。

當(dāng)前主流分布式文件系統(tǒng)有哪些?目前幾個主流的分布式文件系統(tǒng)除GPFS外，還有PVFS、Lustre、PanFS、GoogleFS等。
1.PVFS(Parallel Virtual File System)項(xiàng)目是Clemson大學(xué)為了運(yùn)行Linux集群而創(chuàng)建的一個開源項(xiàng)目,目前PVFS還存在以下不足：
1）單一管理節(jié)點(diǎn):只有一個管理節(jié)點(diǎn)來管理元數(shù)據(jù)，當(dāng)集群系統(tǒng)達(dá)到一定的規(guī)模之后，管理節(jié)點(diǎn)將可能出現(xiàn)過度繁忙的情況，這時管理節(jié)點(diǎn)將成為系統(tǒng)瓶頸;
2）對數(shù)據(jù)的存儲缺乏容錯機(jī)制:當(dāng)某一I/O節(jié)點(diǎn)無法工作時，數(shù)據(jù)將出現(xiàn)不可用的情況;
3）靜態(tài)配置:對PVFS的配置只能在啟動前進(jìn)行，一旦系統(tǒng)運(yùn)行則不可再更改原先的配置。
2.Lustre文件系統(tǒng)是一個基于對象存儲的分布式文件系統(tǒng)，此項(xiàng)目于1999年在Carnegie Mellon University啟動，Lustre也是一個開源項(xiàng)目。它只有兩個元數(shù)據(jù)管理節(jié)點(diǎn),同PVFS類似,當(dāng)系統(tǒng)達(dá)到一定的規(guī)模之后，管理節(jié)點(diǎn)會成為Lustre系統(tǒng)中的瓶頸。
3.PanFS(Panasas File System)是Panasas公司用于管理自己的集群存儲系統(tǒng)的分布式文件系統(tǒng) 。
4.GoogleFS(Google File System)是Google公司為了滿足公司內(nèi)部的數(shù)據(jù)處理需要而設(shè)計(jì)的一套分布式文件系統(tǒng) 。
5.相對其它的文件系統(tǒng)，GPFS的主要優(yōu)點(diǎn)有以下三點(diǎn)：
1)使用分布式鎖管理和大數(shù)據(jù)塊策略支持更大規(guī)模的集群系統(tǒng),文件系統(tǒng)的令牌管理器為塊、inode、屬性和目錄項(xiàng)建立細(xì)粒度的鎖，第一個獲得鎖的客戶將負(fù)責(zé)維護(hù)相應(yīng)共享對象的一致性管理，這減少了元數(shù)據(jù)服務(wù)器的負(fù)擔(dān);
2)擁有多個元數(shù)據(jù)服務(wù)器,元數(shù)據(jù)也是分布式,使得元數(shù)據(jù)的管理不再是系統(tǒng)瓶頸;
3)令牌管理以字節(jié)作為鎖的最小單位,也就是說除非兩個請求訪問的是同一文件的同一字節(jié)數(shù)據(jù),對于數(shù)據(jù)的訪問請求永遠(yuǎn)不會沖突.

分布式文件系統(tǒng)的系統(tǒng)分類 (DFS) 是AFS的一個版本，作為開放軟件基金會(OSF)的分布式計(jì)算環(huán)境(DCE)中的文件系統(tǒng)部分。如果文件的訪問僅限于一個用戶，那么分布式文件系統(tǒng)就很容易實(shí)現(xiàn) 。可惜的是，在許多網(wǎng)絡(luò)環(huán)境中這種限制是不現(xiàn)實(shí)的，必須采取并發(fā)控制來實(shí)現(xiàn)文件的多用戶訪問，表現(xiàn)為如下幾個形式：只讀共享任何客戶機(jī)只能訪問文件，而不能修改它，這實(shí)現(xiàn)起來很簡單。受控寫操作采用這種方法，可有多個用戶打開一個文件，但只有一個用戶進(jìn)行寫修改。而該用戶所作的修改并不一定出現(xiàn)在其它已打開此文件的用戶的屏幕上。并發(fā)寫操作這種方法允許多個用戶同時讀寫一個文件。但這需要操作系統(tǒng)作大量的監(jiān)控工作以防止文件重寫，并保證用戶能夠看到最新信息。這種方法即使實(shí)現(xiàn)得很好，許多環(huán)境中的處理要求和網(wǎng)絡(luò)通信量也可能使它變得不可接受。NFS和AFS的區(qū)別NFS和AFS的區(qū)別在于對并發(fā)寫操作的處理方法上。當(dāng)一個客戶機(jī)向服務(wù)器請求一個文件(或數(shù)據(jù)庫記錄)，文件被放在客戶工作站的高速緩存中，若另一個用戶也請求同一文件，則它也會被放入那個客戶工作站的高速緩存中。當(dāng)兩個客戶都對文件進(jìn)行修改時，從技術(shù)上而言就存在著該文件的三個版本(每個客戶機(jī)一個，再加上服務(wù)器上的一個) 。有兩種方法可以在這些版本之間保持同步：無狀態(tài)系統(tǒng) 在這個系統(tǒng)中，服務(wù)器并不保存其客戶機(jī)正在緩存的文件的信息。因此，客戶機(jī)必須協(xié)同服務(wù)器定期檢查是否有其他客戶改變了自己正在緩存的文件。這種方法在大的環(huán)境中會產(chǎn)生額外的LAN通信開銷，但對小型LAN來說，這是一種令人滿意的方法。NFS就是個無狀態(tài)系統(tǒng) 。回呼(Callback)系統(tǒng) 在這種方法中，服務(wù)器記錄它的那些客戶機(jī)的所作所為，并保留它們正在緩存的文件信息。服務(wù)器在一個客戶機(jī)改變了一個文件時使用一種叫回叫應(yīng)答(callbackpromise)的技術(shù)通知其它客戶機(jī) 。這種方法減少了大量網(wǎng)絡(luò)通信。AFS(及OSFDCE的DFS)就是回叫系統(tǒng) 。客戶機(jī)改變文件時，持有這些文件拷貝的其它客戶機(jī)就被回叫并通知這些改變。無狀態(tài)操作在運(yùn)行性能上有其長處，但AFS通過保證不會被回叫應(yīng)答充斥也達(dá)到了這一點(diǎn) 。方法是在一定時間后取消回叫。客戶機(jī)檢查回叫應(yīng)答中的時間期限以保證回叫應(yīng)答是當(dāng)前有效的。回叫應(yīng)答的另一個有趣的特征是向用戶保證了文件的當(dāng)前有效性。換句話說，若一個被緩存的文件有一個回叫應(yīng)答，則客戶機(jī)就認(rèn)為文件是當(dāng)前有效的，除非服務(wù)器呼叫指出服務(wù)器上的該文件已改變了。Yonghong Z-Data MartYonghong Data Mart是一款數(shù)據(jù)存儲、數(shù)據(jù)處理的軟件。Yonghong Data Mart采用基于ZDFS的分布式列存儲系統(tǒng) ，就是將數(shù)據(jù)分散存儲在多臺獨(dú)立的設(shè)備上。傳統(tǒng)的網(wǎng)絡(luò)存儲系統(tǒng)采用集中的存儲服務(wù)器存放所有數(shù)據(jù) ，存儲服務(wù)器成為系統(tǒng)性能的瓶頸，也是可靠性和安全性的焦點(diǎn)，不能滿足大規(guī)模存儲應(yīng)用的需要。分布式網(wǎng)絡(luò)存儲系統(tǒng)采用可擴(kuò)展的系統(tǒng)結(jié)構(gòu)，利用多臺存儲服務(wù)器分擔(dān)存儲負(fù)荷，利用位置服務(wù)器定位存儲信息，它不但提高了系統(tǒng)的可靠性、可用性和存取效率，還易于擴(kuò)展。Yonghong Data Mart的分布式文件存儲系統(tǒng) (ZDFS)是在Hadoop HDFS基礎(chǔ)上進(jìn)行的改造和擴(kuò)展，將服務(wù)器集群內(nèi)所有節(jié)點(diǎn)上存儲的文件統(tǒng)一管理和存儲。這些節(jié)點(diǎn)包括唯一的一個NamingNode，在 ZDFS 內(nèi)部提供元數(shù)據(jù)服務(wù)；許多MapNode，提供存儲塊。存儲在 ZDFS 中的文件被分成塊，然后將這些塊復(fù)制到多個計(jì)算機(jī)中（Map Node）。這與傳統(tǒng)的 RAID 架構(gòu)大不相同。塊的大小和復(fù)制的塊數(shù)量在創(chuàng)建文件時由客戶機(jī)決定。Naming Node監(jiān)控存在服務(wù)器集群內(nèi)所有節(jié)點(diǎn)上的文件操作，例如文件創(chuàng)建、刪除、移動、重命名等等。Network File System
基于linux 平臺的主要分布式文件系統(tǒng)有哪些？常見的分布式文件系統(tǒng)有，GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自適用于不同的領(lǐng)域。它們都不是系統(tǒng)級的分布式文件系統(tǒng)，而是應(yīng)用級的分布式文件存儲服務(wù) 。
GFS（Google File System）
--------------------------------------
Google公司為了滿足本公司需求而開發(fā)的基于Linux的專有分布式文件系統(tǒng) 。。盡管Google公布了該系統(tǒng)的一些技術(shù)細(xì)節(jié)，但Google并沒有將該系統(tǒng)的軟件部分作為開源軟件發(fā)布。
下面分布式文件系統(tǒng)都是類 GFS的產(chǎn)品。
HDFS
--------------------------------------
Hadoop 實(shí)現(xiàn)了一個分布式文件系統(tǒng)（Hadoop Distributed File System），簡稱HDFS 。
Hadoop是Apache Lucene創(chuàng)始人Doug Cutting開發(fā)的使用廣泛的文本搜索庫。它起源于Apache
Nutch，后者是一個開源的網(wǎng)絡(luò)搜索引擎，本身也是Luene項(xiàng)目的一部分。Aapche
Hadoop架構(gòu)是MapReduce算法的一種開源應(yīng)用，是Google開創(chuàng)其帝國的重要基石。
Ceph
---------------------------------------
是加州大學(xué)圣克魯茲分校的Sage weil攻讀博士時開發(fā)的分布式文件系統(tǒng) 。并使用Ceph完成了他的論文。
說 ceph 性能最高，C++編寫的代碼，支持Fuse ，并且沒有單點(diǎn)故障依賴，于是下載安裝，由于 ceph 使用 btrfs 文件系統(tǒng)，而btrfs 文件系統(tǒng)需要 Linux 2.6.34 以上的內(nèi)核才支持。
可是ceph太不成熟了，它基于的btrfs本身就不成熟，它的官方網(wǎng)站上也明確指出不要把ceph用在生產(chǎn)環(huán)境中。
Lustre
---------------------------------------
Lustre是一個大規(guī)模的、安全可靠的，具備高可用性的集群文件系統(tǒng)，它是由SUN公司開發(fā)和維護(hù)的。
該項(xiàng)目主要的目的就是開發(fā)下一代的集群文件系統(tǒng)，可以支持超過10000個節(jié)點(diǎn) ，數(shù)以PB的數(shù)據(jù)量存儲系統(tǒng) 。
目前Lustre已經(jīng)運(yùn)用在一些領(lǐng)域，例如HP SFS產(chǎn)品等。

linux系統(tǒng)是著名的什么系統(tǒng) 分布式實(shí)時常見的分布式文件系統(tǒng)有，GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自適用于不同的領(lǐng)域。它們都不是系統(tǒng)級的分布式文件系統(tǒng)，而是應(yīng)用級的分布式文件存儲服務(wù) 。GFS（Google File System）--------------------------------------Google公司為了滿足本公司需求而開發(fā)的基于Linux的專有分布式文件系統(tǒng) 。。盡管Google公布了該系統(tǒng)的一些技術(shù)細(xì)節(jié) ，但Google并沒有將該系統(tǒng)的軟件部分作為開源軟件發(fā)布。下面分布式文件系統(tǒng)都是類 GFS的產(chǎn)品。HDFS--------------------------------------Hadoop 實(shí)現(xiàn)了一個分布式文件系統(tǒng)（Hadoop Distributed File System），簡稱HDFS 。Hadoop是Apache Lucene創(chuàng)始人Doug Cutting開發(fā)的使用廣泛的文本搜索庫。它起源于Apache Nutch ，后者是一個開源的網(wǎng)絡(luò)搜索引擎，本身也是Luene項(xiàng)目的一部分。Aapche Hadoop架構(gòu)是MapReduce算法的一種開源應(yīng)用，是Google開創(chuàng)其帝國的重要基石。

linux下存儲視頻等文件，需要構(gòu)建分布式文件系統(tǒng)，請問哪種分布式系統(tǒng)適合存儲視頻文件原先我想推薦以前使用的商業(yè)化的quantum stornext,但是那是幾年前的解決方案，也是很燒錢的方案，有些功能也不夠完善

先在看來目前網(wǎng)絡(luò)上大熱的hadoop才是廉價的解決方案，關(guān)鍵概念比較新，他的理念來自于google公布的goole file system原理,我以前也只是聽到這個名字，看來有機(jī)會可以多了解一下

本人目前的認(rèn)識，對兩個方案比較如下
stornext 需要硬件支持cluster，基于共享存儲fc/iscsi, 可以自動備份文件到磁帶，也可以自動讀取存在磁帶上的文件，支持居于數(shù)據(jù)塊的優(yōu)化存儲(理論上100個用戶存同一部電影，如果原始文件是同一個，即使每個版本刪節(jié)掉的鏡頭完全不一樣，最終它們共同占用的磁盤空間還是一部完整電影的空間)
hadoop dfs不需要共享存儲，可以直接使用多服務(wù)器上的本地硬盤，通過冗余允許部分節(jié)點(diǎn)失效,擴(kuò)展比較靈活，費(fèi)用相對低廉，對流媒體的支持較好

linux 分布式系統(tǒng)都有哪些？常見的分布式文件系統(tǒng)有， GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自適用于不同的領(lǐng)域。它們都不是系統(tǒng)級的分布式文件系統(tǒng) ，而是應(yīng)用級的分布式文件存儲服務(wù) 。
GFS（Google File System）
--------------------------------------
Google公司為了滿足本公司需求而開發(fā)的基于Linux的專有分布式文件系統(tǒng) 。。盡管Google公布了該系統(tǒng)的一些技術(shù)細(xì)節(jié)，但Google并沒有將該系統(tǒng)的軟件部分作為開源軟件發(fā)布。
下面分布式文件系統(tǒng)都是類 GFS的產(chǎn)品。

HDFS
--------------------------------------
Hadoop 實(shí)現(xiàn)了一個分布式文件系統(tǒng)（Hadoop Distributed File System），簡稱HDFS 。Hadoop是Apache Lucene創(chuàng)始人Doug Cutting開發(fā)的使用廣泛的文本搜索庫。它起源于Apache Nutch，后者是一個開源的網(wǎng)絡(luò)搜索引擎，本身也是Luene項(xiàng)目的一部分。Aapche Hadoop架構(gòu)是MapReduce算法的一種開源應(yīng)用，是Google開創(chuàng)其帝國的重要基石。

Ceph
---------------------------------------
是加州大學(xué)圣克魯茲分校的Sage weil攻讀博士時開發(fā)的分布式文件系統(tǒng) 。并使用Ceph完成了他的論文。
說 ceph 性能最高，C++編寫的代碼，支持Fuse，并且沒有單點(diǎn)故障依賴，于是下載安裝，由于 ceph 使用 btrfs 文件系統(tǒng)，而btrfs 文件系統(tǒng)需要 Linux 2.6.34 以上的內(nèi)核才支持。
可是ceph太不成熟了，它基于的btrfs本身就不成熟，它的官方網(wǎng)站上也明確指出不要把ceph用在生產(chǎn)環(huán)境中。

Lustre
---------------------------------------
Lustre是一個大規(guī)模的、安全可靠的，具備高可用性的集群文件系統(tǒng) ，它是由SUN公司開發(fā)和維護(hù)的。
該項(xiàng)目主要的目的就是開發(fā)下一代的集群文件系統(tǒng)，可以支持超過10000個節(jié)點(diǎn) ，數(shù)以PB的數(shù)據(jù)量存儲系統(tǒng) 。
目前Lustre已經(jīng)運(yùn)用在一些領(lǐng)域，例如HP SFS產(chǎn)品等。

linux下面有什么好的分布式存儲系統(tǒng)？網(wǎng)上找找吧

系統(tǒng)架構(gòu) 分布式哪本書比較好Distributed Computer Systems Engineering——經(jīng)典和詳細(xì)的介紹了分布式系統(tǒng)的技術(shù)和工程實(shí)現(xiàn)經(jīng)驗(yàn) ，值得每個做分布式系統(tǒng)的人去看一遍，繼續(xù)錘煉和提高自己的眼界和技術(shù) 。

補(bǔ)充三篇論文:
1. Sinfonia: A New Paradigm for Building Scalable Distributed Systems，這篇論文是SOSP2007的Best Paper ，闡述了一種構(gòu)建分布式文件系統(tǒng)的范式方法，個人感覺非常有用。淘寶在構(gòu)建TFS、OceanBase和Tair這些系統(tǒng)時都充分參考了這篇論文。
2. The Chubby lock service for loosely-coupled distributed systems ，這篇論文詳細(xì)介紹了Google的分布式鎖實(shí)現(xiàn)機(jī)制Chubby 。Chubby是一個基于文件實(shí)現(xiàn)的分布式鎖，Google的Bigtable、Mapreduce和Spanner服務(wù)都是在這個基礎(chǔ)上構(gòu)建的，所以Chubby實(shí)際上是Google分布式事務(wù)的基礎(chǔ)，具有非常高的參考價值。另外，著名的zookeeper就是基于Chubby的開源實(shí)現(xiàn)，但是根據(jù)在Google工作的朋友講，zookeeper跟Chubby在性能和功能上都還有差距。
3. Spanner: Google's Globally-Distributed Database，這個是第一個全球意義上的分布式數(shù)據(jù)庫，也是Google的作品。其中介紹了很多一致性方面的設(shè)計(jì)考慮，為了簡單的邏輯設(shè)計(jì)，還采用了原子鐘，同樣在分布式系統(tǒng)方面具有很強(qiáng)的借鑒意義。

另外，還有一本書:
剛出的，讀了一下樣章，感覺還不錯，一起推薦給大家——《大規(guī)模分布式存儲系統(tǒng):原理解析與架構(gòu)實(shí)戰(zhàn)》

分布式系統(tǒng)領(lǐng)域有哪些經(jīng)典論文補(bǔ)充三篇論文:

1. Sinfonia: A New Paradigm for Building Scalable Distributed Systems，這篇論文是SOSP2007的Best Paper，闡述了一種構(gòu)建分布式文件系統(tǒng)的范式方法，個人感覺非常有用。淘寶在構(gòu)建TFS、OceanBase和Tair這些系統(tǒng)時都充分參考了這篇論文。
2. The Chubby lock service for loosely-coupled distributed systems ， http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/zh-CN//archive/chubby-osdi06.pdf，這篇論文詳細(xì)介紹了Google的分布式鎖實(shí)現(xiàn)機(jī)制Chubby 。Chubby是一個基于文件實(shí)現(xiàn)的分布式鎖，Google的Bigtable、Mapreduce和Spanner服務(wù)都是在這個基礎(chǔ)上構(gòu)建的，所以Chubby實(shí)際上是Google分布式事務(wù)的基礎(chǔ) ，具有非常高的參考價值。另外，著名的zookeeper就是基于Chubby的開源實(shí)現(xiàn)，但是根據(jù)在Google工作的朋友講，zookeeper跟Chubby在性能和功能上都還有差距。
3. Spanner: Google's Globally-Distributed Database，這個是第一個全球意義上的分布式數(shù)據(jù)庫，也是Google的作品。其中介紹了很多一致性方面的設(shè)計(jì)考慮，為了簡單的邏輯設(shè)計(jì) ，還采用了原子鐘，同樣在分布式系統(tǒng)方面具有很強(qiáng)的借鑒意義。

另外，還有一本書:
剛出的，讀了一下樣章，感覺還不錯，一起推薦給大家——《大規(guī)模分布式存儲系統(tǒng):原理解析與架構(gòu)實(shí)戰(zhàn)》華章圖書 - 大規(guī)模分布式存儲系統(tǒng):原理解析與架構(gòu)實(shí)戰(zhàn)

谷歌分布式系統(tǒng)用什么編程語言寫的可在分布計(jì)算機(jī)系統(tǒng)的幾臺計(jì)算機(jī)上同時協(xié)調(diào)執(zhí)行的程序設(shè)計(jì)方法,分布式程序設(shè)計(jì)的主要特征是分布和通信。采用分布式程序設(shè)計(jì)方法設(shè)計(jì)程序時，一個程序由若干個可獨(dú)立執(zhí)行的程序模塊組成。這些程序模塊分布于一個分布式計(jì)算機(jī)系統(tǒng)的幾臺計(jì)算機(jī)上同時執(zhí)行。分布在各臺計(jì)算機(jī)上的程序模塊是相互關(guān)聯(lián)的，它們在執(zhí)行中需要交換數(shù)據(jù) ，即通信。只有通過通信，各程序模塊才能協(xié)調(diào)地完成一個共同的計(jì)算任務(wù) 。采用分布式程序設(shè)計(jì)方法解決計(jì)算問題時，必須提供用以進(jìn)行分布式程序設(shè)計(jì)的語言和設(shè)計(jì)相應(yīng)的分布式算法。分布式程序設(shè)計(jì)語言與常用的各種程序設(shè)計(jì)語言的主要區(qū)別，在于它具有程序分布和通信的功能。因此，分布式程序設(shè)計(jì)語言，往往可以由一種程序設(shè)計(jì)語言增加分布和通信的功能而構(gòu)成。分布式算法和適用于多處理器系統(tǒng)的并行算法，都具有并行執(zhí)行的特點(diǎn)，但它們是有區(qū)別的。設(shè)計(jì)分布式算法時，必須保證實(shí)現(xiàn)算法的各程序模塊間不會有公共變量，它們只能通過通信來交換數(shù)據(jù) 。此外，設(shè)計(jì)分布式算法時，往往需要考慮堅(jiān)定性，即當(dāng)系統(tǒng)中幾臺計(jì)算機(jī)失效時，算法仍是有效的。

谷歌新發(fā)布的分布式數(shù)據(jù)庫服務(wù) ，是要打破CAP定理了嗎大數(shù)據(jù)領(lǐng)域，實(shí)時分析系統(tǒng)（在線查詢）是最常見的一種場景，前面寫了一個《實(shí)時分析系統(tǒng) (HIVE/HBASE/IMPALA) 淺析》討論業(yè)界當(dāng)前常見的方案。
互聯(lián)網(wǎng)公司用得比較多是 HIVE/HBASE ，如騰訊基于 HIVE 深度定制改造！

分布式系統(tǒng)領(lǐng)域有哪些經(jīng)典論文分布式領(lǐng)域論文譯序
sql&nosql年代記
SMAQ：海量數(shù)據(jù)的存儲計(jì)算和查詢
一．google論文系列
1.google系列論文譯序
2.The anatomy of a large-scale hypertextual Web search engine (譯 zz)
3.web search for a planet :the google cluster architecture(譯)
4.GFS：google文件系統(tǒng) (譯)
5.MapReduce: Simplied Data Processing on Large Clusters (譯)
6.Bigtable: A Distributed Storage System for Structured Data (譯)
7.Chubby: The Chubby lock service for loosely-coupled distributed systems (譯)
8.Sawzall:Interpreting the Data--Parallel Analysis with Sawzall (譯 zz)
9.Pregel: A System for Large-Scale Graph Processing (譯)
10.Dremel: Interactive Analysis of WebScale Datasets(譯zz)
11.Percolator: Large-scale Incremental Processing Using Distributed Transactions and Notifications(譯zz)
12.MegaStore: Providing Scalable, Highly Available Storage for Interactive Services(譯zz)
13.Case Study GFS: Evolution on Fast-forward (譯)
14.Google File System II: Dawn of the Multiplying Master Nodes
15.Tenzing - A SQL Implementation on the MapReduce Framework (譯)
16.F1-The Fault-Tolerant Distributed RDBMS Supporting Google's Ad Business
17.Elmo: Building a Globally Distributed, Highly Available Database
18.PowerDrill：Processing a Trillion Cells per Mouse Click
19.Google-Wide Profiling:A Continuous Profiling Infrastructure for Data Centers
20.Spanner: Google’s Globally-Distributed Database(譯zz)
21.Dapper, a Large-Scale Distributed Systems Tracing Infrastructure(筆記)
22.Omega: flexible, scalable schedulers for large compute clusters
23.CPI2: CPU performance isolation for shared compute clusters
24.Photon: Fault-tolerant and Scalable Joining of Continuous Data Streams(譯)
25.F1: A Distributed SQL Database That Scales
26.MillWheel: Fault-Tolerant Stream Processing at Internet Scale(譯)
27.B4: Experience with a Globally-Deployed Software Defined WAN
28.The Datacenter as a Computer
29.Google brain-Building High-level Features Using Large Scale Unsupervised Learning
30.Mesa: Geo-Replicated, Near Real-Time, Scalable Data Warehousing(譯zz)
31.Large-scale cluster management at Google with Borg
google系列論文翻譯集(合集)
二．分布式理論系列
00.Appraising Two Decades of Distributed Computing Theory Research
0.分布式理論系列譯序

1.A brief history of Consensus_ 2PC and Transaction Commit (譯)
2.拜占庭將軍問題 (譯) --Leslie Lamport
3.Impossibility of distributed consensus with one faulty process (譯)
4.Leases：租約機(jī)制 (譯)
5.Time Clocksand the Ordering of Events in a Distributed System(譯)--Leslie Lamport
6.關(guān)于Paxos的歷史
7.The Part Time Parliament (譯 zz) --Leslie Lamport
8.How to Build a Highly Available System Using Consensus(譯)
9.Paxos Made Simple (譯) --Leslie Lamport
10.Paxos Made Live - An Engineering Perspective(譯)
11.2 Phase Commit(譯)
12.Consensus on Transaction Commit(譯) --Jim Gray & Leslie Lamport
13.Why Do Computers Stop and What Can Be Done About It?(譯) --Jim Gray
14.On Designing and Deploying Internet-Scale Services(譯) --James Hamilton
15.Single-Message Communication(譯)
16.Implementing fault-tolerant services using the state machine approach
17.Problems, Unsolved Problems and Problems in Concurrency
18.Hints for Computer System Design
19.Self-stabilizing systems in spite of distributed control
20.Wait-Free Synchronization
21.White Paper Introduction to IEEE 1588 & Transparent Clocks

22.Unreliable Failure Detectors for Reliable Distributed Systems
23.Life beyond Distributed Transactions:an Apostate’s Opinion(譯zz)
24.Distributed Snapshots: Determining Global States of a Distributed System --Leslie Lamport
25.Virtual Time and Global States of Distributed Systems
26.Timestamps in Message-Passing Systems That Preserve the Partial Ordering
27.Fundamentals of Distributed Computing:A Practical Tour of Vector Clock Systems
28.Knowledge and Common Knowledge in a Distributed Environment
29.Understanding Failures in Petascale Computers
30.Why Do Internet services fail, and What Can Be Done About It?
31.End-To-End Arguments in System Design
32.Rethinking the Design of the Internet: The End-to-End Arguments vs. the Brave New World
33.The Design Philosophy of the DARPA Internet Protocols(譯zz)
34.Uniform consensus is harder than consensus
35.Paxos made code - Implementing a high throughput Atomic Broadcast
36.RAFT:In Search of an Understandable Consensus Algorithm
分布式理論系列論文翻譯集(合集)
三．?dāng)?shù)據(jù)庫理論系列
0.A Relational Model of Data for Large Shared Data Banks --E.F.Codd 1970
1.SEQUEL：A Structured English Query Language 1974
2.Implentation of a Structured English Query Language 1975
3.A System R: Relational Approach to Database Management 1976
4.Granularity of Locks and Degrees of Consistency in a Shared DataBase --Jim Gray 1976
5.Access Path Selection in a RDBMS 1979
6.The Transaction Concept:Virtues and Limitations --Jim Gray
7.2pc-2階段提交：Notes on Data Base Operating Systems --Jim Gray
8.3pc-3階段提交：NONBLOCKING COMMIT PROTOCOLS
9.MVCC：Multiversion Concurrency Control-Theory and Algorithms --1983
10.ARIES: A Transaction Recovery Method Supporting Fine-Granularity Locking and Partial Rollbacks Using Write-Ahead Logging-1992
11.A Comparison of the Byzantine Agreement Problem and the Transaction Commit Problem --Jim Gray
12.A Formal Model of Crash Recovery in a Distributed System - Skeen, D. Stonebraker
13.What Goes Around Comes Around - Michael Stonebraker, Joseph M. Hellerstein
14.Anatomy of a Database System -Joseph M. Hellerstein, Michael Stonebraker
15.Architecture of a Database System(譯zz) -Joseph M. Hellerstein, Michael Stonebraker, James Hamilton
四．大規(guī)模存儲與計(jì)算(NoSql理論系列)
0.Towards Robust Distributed Systems：Brewer's 2000 PODC key notes
1.CAP理論
2.Harvest, Yield, and Scalable Tolerant Systems
3.關(guān)于CAP
4.BASE模型：BASE an Acid Alternative
5.最終一致性
6.可擴(kuò)展性設(shè)計(jì)模式
7.可伸縮性原則
8.NoSql生態(tài)系統(tǒng)
9.scalability-availability-stability-patterns
10.The 5 Minute Rule and the 5 Byte Rule (譯)
11.The Five-Minute Rule Ten Years Later and Other Computer Storage Rules of Thumb
12.The Five-Minute Rule 20 Years Later(and How Flash Memory Changes the Rules)
13.關(guān)于MapReduce的爭論
14.MapReduce：一個巨大的倒退
15.MapReduce：一個巨大的倒退(II)
16.MapReduce和并行數(shù)據(jù)庫，朋友還是敵人？(zz)
17.MapReduce and Parallel DBMSs-Friends or Foes (譯)
18.MapReduce:A Flexible Data Processing Tool (譯)
19.A Comparision of Approaches to Large-Scale Data Analysis (譯)
20.MapReduce Hold不?。?zz)
21.Beyond MapReduce：圖計(jì)算概覽
22.Map-Reduce-Merge: simplified relational data processing on large clusters
23.MapReduce Online
24.Graph Twiddling in a MapReduce World
25.Spark: Cluster Computing with Working Sets
26.Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing
27.Big Data Lambda Architecture
28.The 8 Requirements of Real-Time Stream Processing
29.The Log: What every software engineer should know about real-time data's unifying abstraction
30.Lessons from Giant-Scale Services
五．基本算法和數(shù)據(jù)結(jié)構(gòu)
1.大數(shù)據(jù)量，海量數(shù)據(jù)處理方法總結(jié)
2.大數(shù)據(jù)量，海量數(shù)據(jù)處理方法總結(jié)(續(xù))
3.Consistent Hashing And Random Trees
4.Merkle Trees
5.Scalable Bloom Filters
6.Introduction to Distributed Hash Tables
7.B-Trees and Relational Database Systems
8.The log-structured merge-tree (譯)
9.lock free data structure
10.Data Structures for Spatial Database
11.Gossip
12.lock free algorithm
13.The Graph Traversal Pattern
六．基本系統(tǒng)和實(shí)踐經(jīng)驗(yàn)
1.MySQL索引背后的數(shù)據(jù)結(jié)構(gòu)及算法原理
2.Dynamo: Amazon’s Highly Available Key-value Store (譯zz)
3.Cassandra - A Decentralized Structured Storage System (譯zz)
4.PNUTS: Yahoo!’s Hosted Data Serving Platform (譯zz)
5.Yahoo!的分布式數(shù)據(jù)平臺PNUTS簡介及感悟(zz)
6.LevelDB：一個快速輕量級的key-value存儲庫(譯)
7.LevelDB理論基礎(chǔ)
8.LevelDB：實(shí)現(xiàn)(譯)
9.LevelDB SSTable格式詳解
10.LevelDB Bloom Filter實(shí)現(xiàn)
11.Sawzall原理與應(yīng)用
12.Storm原理與實(shí)現(xiàn)
13.Designs, Lessons and Advice from Building Large Distributed Systems --Jeff Dean
14.Challenges in Building Large-Scale Information Retrieval Systems --Jeff Dean
15.Experiences with MapReduce, an Abstraction for Large-Scale Computation --Jeff Dean
16.Taming Service Variability,Building Worldwide Systems,and Scaling Deep Learning --Jeff Dean
17.Large-Scale Data and Computation:Challenges and Opportunitis--Jeff Dean
18.Achieving Rapid Response Times in Large Online Services --Jeff Dean
19.The Tail at Scale(譯)--Jeff Dean & Luiz André Barroso
20.How To Design A Good API and Why it Matters
21.Event-Based Systems:Architect's Dream or Developer's Nightmare?
22.Autopilot: Automatic Data Center Management
七．其他輔助系統(tǒng)
1.The ganglia distributed monitoring system:design, implementation, and experience
2.Chukwa: A large-scale monitoring system
3.Scribe : a way to aggregate data and why not, to directly fill the HDFS?
4.Benchmarking Cloud Serving Systems with YCSB
5.Dynamo Dremel ZooKeeper Hive 簡述
八.Hadoop相關(guān)
0.Hadoop Reading List
1.The Hadoop Distributed File System(譯)
2.HDFS scalability:the limits to growth(譯)
3.Name-node memory size estimates and optimization proposal.
4.HBase Architecture(譯)
5.HFile：A Block-Indexed File Format to Store Sorted Key-Value Pairs
6.HFile V2
7.Hive - A Warehousing Solution Over a Map-Reduce Framework
8.Hive – A Petabyte Scale Data Warehouse Using Hadoop

轉(zhuǎn)載請注明作者：phylips@bmy 2011-4-30

超融合產(chǎn)品和分布式文件系統(tǒng)的區(qū)別是什么？區(qū)別就是，一個是叫超融合產(chǎn)品
一個是叫分布式文件系統(tǒng)
名字已經(jīng)差別很多了，沒有一個字是相同的

分布式存儲和超融合區(qū)別及優(yōu)勢？分布式存儲是什么關(guān)于分布式存儲實(shí)際上并沒有一個明確的定義，甚至名稱上也沒有一個統(tǒng)一的說法，大多數(shù)情況下稱作 Distributed Data Store 或者 Distributed Storage System 。其中維基百科中給 Distributed data store 的定義是：分布式存儲是一種計(jì)算機(jī)網(wǎng)絡(luò) ，它通常以數(shù)據(jù)復(fù)制的方式將信息存儲在多個節(jié)點(diǎn)中。在百度百科中給出的定義是：分布式存儲系統(tǒng)，是將數(shù)據(jù)分散存儲在多臺獨(dú)立的設(shè)備上。分布式網(wǎng)絡(luò)存儲系統(tǒng)采用可擴(kuò)展的系統(tǒng)結(jié)構(gòu)，利用多臺存儲服務(wù)器分擔(dān)存儲負(fù)荷，利用位置服務(wù)器定位存儲信息，它不但提高了系統(tǒng)的可靠性、可用性和存取效率，還易于擴(kuò)展。盡管各方對分布式存儲的定義并不完全相同，但有一點(diǎn)是統(tǒng)一的，就是分布式存儲將數(shù)據(jù)分散放置在多個節(jié)點(diǎn)中，節(jié)點(diǎn)通過網(wǎng)絡(luò)互連提供存儲服務(wù) 。這一點(diǎn)與傳統(tǒng)集中式存儲將數(shù)據(jù)集中放置的方式有著明顯的區(qū)分。超融合是什么參考維基百科中的超融合定義：超融合基礎(chǔ)架構(gòu)（hyper-converged infrastructure）是一個軟件定義的 IT 基礎(chǔ)架構(gòu)，它可虛擬化常見“硬件定義”系統(tǒng)的所有元素。HCI 包含的最小集合是：虛擬化計(jì)算（hypervisor），虛擬存儲（SDS）和虛擬網(wǎng)絡(luò) 。HCI 通常運(yùn)行在標(biāo)準(zhǔn)商用服務(wù)器之上。超融合基礎(chǔ)架構(gòu)（hyper-converged infrastructure）與融合基礎(chǔ)架構(gòu)（converged infrastructure）最大的區(qū)別在于，在 HCI 里面，無論是存儲底層抽象還是存儲網(wǎng)絡(luò)都是在軟件層面實(shí)現(xiàn)的（或者通過 hypervisor 層面實(shí)現(xiàn)），而不是基于物理硬件實(shí)現(xiàn)的。由于所有軟件定義的元素都圍繞 hypervisor 實(shí)現(xiàn)，因此在超融合基礎(chǔ)架構(gòu)上的所有實(shí)例可以聯(lián)合共享所有受管理的資源。分布式存儲和超融合區(qū)別及優(yōu)勢？分布式存儲，它的最大特點(diǎn)是多節(jié)點(diǎn)部署，數(shù)據(jù)通過網(wǎng)絡(luò)分散放置。分布式存儲的特點(diǎn)是擴(kuò)展性強(qiáng)，通過多節(jié)點(diǎn)平衡負(fù)載，提高存儲系統(tǒng)的可靠性與可用性。超融合基礎(chǔ)架構(gòu)從定義中明確提出包含軟件定義存儲(SDS)，具備硬件解耦的能力，可運(yùn)行在通用服務(wù)器之上。超融合基礎(chǔ)架構(gòu)與 Server SAN 提倡的理念類似，計(jì)算與存儲融合，通過全分布式的架構(gòu) ，有效提升系統(tǒng)可靠性與可用性，并具備易于擴(kuò)展的特性。SMTX OS 產(chǎn)品架構(gòu)由于很多讀者對超融合構(gòu)成還比較混淆，以下以 SmartX 的超融合軟件 SMTX OS 為例說明分布式存儲和其他模塊的關(guān)系。其中分布式塊存儲，SMTX ZBS 是SMTX OS超融合軟件最核心的組件。它采用全分布式架構(gòu)并且是完全符合軟件定義理念的。SMTX ZBS 分布式塊存儲架構(gòu)除此之外，超融合基礎(chǔ)架構(gòu)有更進(jìn)一步的擴(kuò)展，它強(qiáng)調(diào)以虛擬化計(jì)算（hypervisor）為核心，以軟件定義的方式整合包括虛擬化計(jì)算，軟件定義存儲以及虛擬網(wǎng)絡(luò)資源。從筆者來看超融合基礎(chǔ)架構(gòu)未來的可能性更多，可促進(jìn)計(jì)算，存儲，網(wǎng)絡(luò)，安全，容災(zāi)等等 IT 服務(wù)大融合，降低IT 基礎(chǔ)架構(gòu)的復(fù)雜性，重新塑造”軟件定義的數(shù)據(jù)中心” 。
超融合產(chǎn)品Nutanix和VMware vsan等類似的分布式存儲產(chǎn)品有什么區(qū)別核心軟件不同，產(chǎn)品性能也不同，主要優(yōu)勢也不同，在目前超融合領(lǐng)域，神州云科YKCLOUD超融合用的是SCALE IO的軟件，性能較好

超融合和經(jīng)常提到的分布式存儲有什么關(guān)聯(lián)？首先你必須了解什么是超融合？超融合基礎(chǔ)架構(gòu)（Hyper-Converged Infrastructure ，或簡稱“HCI”）也被稱為超融合架構(gòu) ，是指在同一套單元設(shè)備（x86服務(wù)器）中不僅僅具備計(jì)算、網(wǎng)絡(luò)、存儲和服務(wù)器虛擬化等資源和技術(shù)，而且還包括緩存加速、重復(fù)數(shù)據(jù)刪除、在線數(shù)據(jù)壓縮、備份軟件、快照技術(shù)等元素，而多節(jié)點(diǎn)可以通過網(wǎng)絡(luò)聚合起來，實(shí)現(xiàn)模塊化的無縫橫向擴(kuò)展（scale-out），形成統(tǒng)一的資源池。其次你必須了解什么是分布式存儲關(guān)于分布式存儲實(shí)際上并沒有一個明確的定義，甚至名稱上也沒有一個統(tǒng)一的說法，大多數(shù)情況下稱作 Distributed Data Store 或者 Distributed Storage System 。其中維基百科中給 Distributed data store 的定義是：分布式存儲是一種計(jì)算機(jī)網(wǎng)絡(luò)，它通常以數(shù)據(jù)復(fù)制的方式將信息存儲在多個節(jié)點(diǎn)中。在百度百科中給出的定義是：分布式存儲系統(tǒng)，是將數(shù)據(jù)分散存儲在多臺獨(dú)立的設(shè)備上。分布式網(wǎng)絡(luò)存儲系統(tǒng)采用可擴(kuò)展的系統(tǒng)結(jié)構(gòu)，利用多臺存儲服務(wù)器分擔(dān)存儲負(fù)荷，利用位置服務(wù)器定位存儲信息，它不但提高了系統(tǒng)的可靠性、可用性和存取效率，還易于擴(kuò)展。盡管各方對分布式存儲的定義并不完全相同，但有一點(diǎn)是統(tǒng)一的，就是分布式存儲將數(shù)據(jù)分散放置在多個節(jié)點(diǎn)中，節(jié)點(diǎn)通過網(wǎng)絡(luò)互連提供存儲服務(wù) 。這一點(diǎn)與傳統(tǒng)集中式存儲將數(shù)據(jù)集中放置的方式有著明顯的區(qū)分。區(qū)別與聯(lián)系超融合基礎(chǔ)架構(gòu)從定義中明確提出包含軟件定義存儲(SDS)，具備硬件解耦的能力，可運(yùn)行在通用服務(wù)器之上。超融合基礎(chǔ)架構(gòu)與 Server SAN 提倡的理念類似，計(jì)算與存儲融合，通過全分布式的架構(gòu)，有效提升系統(tǒng)可靠性與可用性，并具備易于擴(kuò)展的特性。由于很多讀者對超融合構(gòu)成還比較混淆，以下以 SmartX 的超融合軟件 SMTX OS 為例說明分布式存儲和其他模塊的關(guān)系。其中分布式塊存儲，SMTX ZBS 是SMTX OS超融合軟件最核心的組件。它采用全分布式架構(gòu)并且是完全符合軟件定義理念的。
谷歌的分布式文件系統(tǒng)的優(yōu)缺點(diǎn)?Google File System 文件系統(tǒng)

為了滿足Google迅速增長的數(shù)據(jù)處理需求，Google設(shè)計(jì)并實(shí)現(xiàn)了Google文件系統(tǒng)(GFS，Google File System) 。GFS與過去的分布式文件系統(tǒng)擁有許多相同的目標(biāo)，例如性能、可伸縮性、可靠性以及可用性。然而，它的設(shè)計(jì)還受到Google應(yīng)用負(fù)載和技術(shù)環(huán)境的影響。主要體現(xiàn)在以下四個方面:

1. 集群中的節(jié)點(diǎn)失效是一種常態(tài) ，而不是一種異常。由于參與運(yùn)算與處理的節(jié)點(diǎn)數(shù)目非常龐大，通常會使用上千個節(jié)點(diǎn)進(jìn)行共同計(jì)算，因此，每時每刻總會有節(jié)點(diǎn)處在失效狀態(tài) 。需要通過軟件程序模塊，監(jiān)視系統(tǒng)的動態(tài)運(yùn)行狀況，偵測錯誤，并且將容錯以及自動恢復(fù)系統(tǒng)集成在系統(tǒng)中。

2. Google系統(tǒng)中的文件大小與通常文件系統(tǒng)中的文件大小概念不一樣，文件大小通常以G字節(jié)計(jì) 。另外文件系統(tǒng)中的文件含義與通常文件不同，一個大文件可能包含大量數(shù)目的通常意義上的小文件。所以，設(shè)計(jì)預(yù)期和參數(shù)，例如I/O操作和塊尺寸都要重新考慮。

3. Google文件系統(tǒng)中的文件讀寫模式和傳統(tǒng)的文件系統(tǒng)不同。在Google應(yīng)用(如搜索)中對大部分文件的修改，不是覆蓋原有數(shù)據(jù)，而是在文件尾追加新數(shù)據(jù) 。對文件的隨機(jī)寫是幾乎不存在的。對于這類巨大文件的訪問模式，客戶端對數(shù)據(jù)塊緩存失去了意義，追加操作成為性能優(yōu)化和原子性(把一個事務(wù)看做是一個程序。它要么被完整地執(zhí)行，要么完全不執(zhí)行)保證的焦點(diǎn) 。

4. 文件系統(tǒng)的某些具體操作不再透明，而且需要應(yīng)用程序的協(xié)助完成，應(yīng)用程序和文件系統(tǒng)API的協(xié)同設(shè)計(jì)提高了整個系統(tǒng)的靈活性。例如，放松了對GFS一致性模型的要求，這樣不用加重應(yīng)用程序的負(fù)擔(dān) ，就大大簡化了文件系統(tǒng)的設(shè)計(jì) 。還引入了原子性的追加操作，這樣多個客戶端同時進(jìn)行追加的時候，就不需要額外的同步操作了。

總之，GFS是為Google應(yīng)用程序本身而設(shè)計(jì)的。據(jù)稱，Google已經(jīng)部署了許多GFS集群。有的集群擁有超過1000個存儲節(jié)點(diǎn) ，超過300T的硬盤空間，被不同機(jī)器上的數(shù)百個客戶端連續(xù)不斷地頻繁訪問著。

分布式文件系統(tǒng)hdfs主要由哪些功能模塊構(gòu)成Hadoop分布式文件系統(tǒng)(HDFS)被設(shè)計(jì)成適合運(yùn)行在通用硬件(commodity hardware)上的分布式文件系統(tǒng) 。它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點(diǎn) 。但同時，它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的。HDFS是一個高度容錯性的系統(tǒng)，適合部署在廉價的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問，非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS放寬了一部分POSIX約束，來實(shí)現(xiàn)流式讀取文件系統(tǒng)數(shù)據(jù)的目的。HDFS在最開始是作為Apache Nutch搜索引擎項(xiàng)目的基礎(chǔ)架構(gòu)而開發(fā)的。HDFS是Apache Hadoop Core項(xiàng)目的一部分。

Hadoop分布式文件系統(tǒng)架構(gòu)
1 NameNode（名稱節(jié)點(diǎn)）
HDFS命名空間采用層次化（樹狀——譯者注）的結(jié)構(gòu)存放文件和目錄。
2 映像和日志
Inode和定義metadata的系統(tǒng)文件塊列表統(tǒng)稱為Image(映像).NameNode將整個命名空間映像保存在RAM中。而映像的持久化記錄則保存在NameNode的本地文件系統(tǒng)中，該持久化記錄被稱為Checkpoint(檢查點(diǎn)) 。NameNode還會記錄HDFS中寫入的操作，并將其存入一個記錄文件，存放在本地文件系統(tǒng)中，這個記錄文件被叫做Journal(日志) 。
3 數(shù)據(jù)節(jié)點(diǎn)
DataNode上的每一個塊(block)副本都由兩個本地文件系統(tǒng)上的文件共同表示。其中一個文件包含了塊（block）本身所需包含的數(shù)據(jù)，另一個文件則記錄了該塊的元數(shù)據(jù)，包括塊所含數(shù)據(jù)大小和文件生成時間戳。數(shù)據(jù)文件的大小等于該塊（block）的真實(shí)大?。皇竅翊車奈募低騁謊?nbsp;，需要用額外的存儲空間湊成完整的塊。因此，如果一個塊里只需要一半的空間存儲數(shù)據(jù)，那么就只需要在本地系統(tǒng)上分配半塊的存儲空間即可。
4 HDFS客戶端
用戶應(yīng)用程序通過HDFS客戶端連接到HDFS文件系統(tǒng)，通過庫文件可導(dǎo)出HDFS文件系統(tǒng)的接口。像很多傳統(tǒng)的文件系統(tǒng)一樣，HDFS支持文件的讀、寫和刪除操作，還支持對目錄的創(chuàng)建和刪除操作。與傳統(tǒng)的文件系統(tǒng)不同的是， HDFS提供一個API用以暴露文件塊的位置。這個功能允許應(yīng)用程序。
5 檢查點(diǎn)節(jié)點(diǎn)
HDFS中的NameNode節(jié)點(diǎn) ，除了其主要職責(zé)是相應(yīng)客戶端請求以外，還能夠有選擇地扮演一到兩個其他的角色，例如做檢查點(diǎn)節(jié)點(diǎn)或者備份節(jié)點(diǎn) 。該角色是在節(jié)點(diǎn)啟動的時候特有的。
6 備份節(jié)點(diǎn)
HDFS的備份節(jié)點(diǎn)是最近在加入系統(tǒng)的一項(xiàng)特色功能。就像CheckpintNode一樣，備份節(jié)點(diǎn)能夠定期創(chuàng)建檢查點(diǎn)，但是不同的是，備份節(jié)點(diǎn)一直保存在內(nèi)存中，隨著文件系統(tǒng)命名空間的映像更新和不斷更新，并與NameNode的狀態(tài)隨時保持同步。
7 系統(tǒng)更新和文件系統(tǒng)快照
在軟件更新的過程中，由于軟件的bug或者人為操作的失誤，文件系統(tǒng)損壞的幾率會隨之提升。在HDFS中創(chuàng)建系統(tǒng)快照的目的，就在于把系統(tǒng)升級過程中可能對數(shù)據(jù)造成的隱患降到最低。快照機(jī)制讓系統(tǒng)管理員將當(dāng)前系統(tǒng)狀態(tài)持久化到文件系統(tǒng)中，這樣以來，如果系統(tǒng)升級后出現(xiàn)了數(shù)據(jù)丟失或者損壞，便有機(jī)會進(jìn)行回滾操作，將HDFS的命名空間和存儲狀態(tài)恢復(fù)到系統(tǒng)快照進(jìn)行的時刻。

分布式文件系統(tǒng) ipfs性能怎么樣這個是IPFS應(yīng)用生態(tài)圖。各行業(yè)各都在布局IPFS了。• IPFS是協(xié)議定義了基于內(nèi)容尋址的文件傳輸協(xié)議，并結(jié)合了來自Kademlia、BitTorrent、 Git等想法來協(xié)調(diào)內(nèi)容傳輸。在這個網(wǎng)絡(luò)協(xié)議下，訪問文件或數(shù)據(jù)的依據(jù)，是一串串與文件匹配的唯一的哈希值。• IPFS是文件系統(tǒng) 有文件夾、文件和基于FUSE的可掛載文件系統(tǒng) 。雖然在此協(xié)議下檢索文件是依據(jù)哈希值而非IP，但具體文件依然存儲在以樹狀層級文件夾系統(tǒng)為基礎(chǔ)的文件系統(tǒng) 。• IPFS是互聯(lián)網(wǎng) 文件可以通過HTTP網(wǎng)關(guān)來訪問，例如https://ipfs.io；瀏覽器通過擴(kuò)展插件或直接使用區(qū)塊鏈瀏覽器來使用ipfs://域；哈希尋址保證了內(nèi)容的真實(shí)性。• IPFS是P2P（點(diǎn)對點(diǎn)通訊）支持世界范圍點(diǎn)對點(diǎn)文件傳輸，具有完全分散的架構(gòu) ，沒有中心點(diǎn)故障。掠過所有中間節(jié)點(diǎn)的端對端直達(dá)傳輸。• IPFS是CDN 在本地庫中添加一個文件，立即對世界可用，并擁有對緩存友好的內(nèi)容哈希地址和BitTorrent一樣的帶寬分發(fā) 。訪問此網(wǎng)絡(luò)下的文件就像訪問本地文件一樣迅速方便。• IPFS是云服務(wù) 基于分布式存儲結(jié)構(gòu)，集合全節(jié)點(diǎn)存儲能力，以供存儲檢索需求。
磁盤陣列和分布式文件系統(tǒng)有什么區(qū)別?。棵媸緣氖焙蠐幸桓隹脊儻剩合衷詿排陶罅械男誓敲錘?/h3>1、磁盤陣列（Redundant Arrays of Inexpensive Disks，RAID），有“價格便宜且多余的磁盤陣列”之意。原理是利用數(shù)組方式來作磁盤組，配合數(shù)據(jù)分散排列的設(shè)計(jì)，提升數(shù)據(jù)的安全性。磁盤陣列是由很多便宜、容量較小、穩(wěn)定性較高、速度較慢磁盤，組合成一個大型的磁盤組，利用個別磁盤提供數(shù)據(jù)所產(chǎn)生加成效果提升整個磁盤系統(tǒng)效能。同時利用這項(xiàng)技術(shù)，將數(shù)據(jù)切割成許多區(qū)段，分別存放在各個硬盤上。磁盤陣列還能利用同位檢查（Parity Check）的觀念，在數(shù)組中任一顆硬盤故障時，仍可讀出數(shù)據(jù) ，在數(shù)據(jù)重構(gòu)時，將數(shù)據(jù)經(jīng)計(jì)算后重新置入新硬盤中。

2、分布式文件系統(tǒng)（Distributed File System）是指文件系統(tǒng)管理的物理存儲資源不一定直接連接在本地節(jié)點(diǎn)上，而是通過計(jì)算機(jī)網(wǎng)絡(luò)與節(jié)點(diǎn)相連。分布式文件系統(tǒng)的設(shè)計(jì)基于客戶機(jī)/服務(wù)器模式。一個典型的網(wǎng)絡(luò)可能包括多個供多用戶訪問的服務(wù)器。另外，對等特性允許一些系統(tǒng)扮演客戶機(jī)和服務(wù)器的雙重角色。例如，用戶可以“發(fā)表”一個允許其他客戶機(jī)訪問的目錄，一旦被訪問，這個目錄對客戶機(jī)來說就象使用本地驅(qū)動器一樣，下面是三個基本的分布式文件系統(tǒng) 。使用分布式文件系統(tǒng)可以輕松定位和管理網(wǎng)絡(luò)中的共享資源、使用統(tǒng)一的命名路徑完成對所需資源院的訪問、提供可靠的負(fù)載平衡、與FRS（文件復(fù)制服務(wù)）聯(lián)合在多臺服務(wù)器之間提供冗余、與windows權(quán)限集成以保證安全。

3、綜上所述，磁盤陣列主要是以冗余備份來保障文件安全和快速訪問，一般以本機(jī)不同磁盤或局域網(wǎng)內(nèi)磁盤組成，而分布式文件系統(tǒng)將廣泛分布在本機(jī)、局域網(wǎng)和廣域網(wǎng)上各個不同物理存儲空間的數(shù)據(jù)以一定邏輯形式組成的文件系統(tǒng)，提供的服務(wù)更多的是起到索引（指向）的作用，而又不必耗費(fèi)很大的部署資源，順應(yīng)了云計(jì)算的發(fā)展方向。

分布式集群存儲和磁盤陣列柜存儲哪種好各有各的好處，磁盤陣列使用維護(hù)方便，分布式集群可以利用分布的機(jī)器計(jì)算能力

分布式文件系統(tǒng)使用磁盤陣列做存儲，會不會出現(xiàn)冗余過剩看你為采用分布式的意愿有多強(qiáng)烈了。
冗余是必須的，因?yàn)檫@本來就是以空間換時間的問題，就像你不能問買3.8排量的四驅(qū)SUV ，會不會比1.6T的家轎更費(fèi)油。

分布式存儲需要做磁盤陣列嗎？云存儲呢？感覺概念需要澄清一下：
1、與分布式存儲向?qū)?yīng)的概念是集中式存儲。這兩個概念用于描述用戶數(shù)據(jù)存儲狀態(tài) 。
2、簡單地，可以將磁盤陣列理解為向計(jì)算機(jī)提供高性能、高可靠性、大容量存儲空間的存儲系統(tǒng) 。分布式存儲與集中式存儲均可使用磁盤陣列作為計(jì)算機(jī)存儲數(shù)據(jù)的專用設(shè)備。
3、云存儲旨在整合用戶IT設(shè)備為用戶提供更強(qiáng)大、更豐富的增值功能的存儲系統(tǒng)，較傳統(tǒng)磁盤陣列而言，云存儲概念更先進(jìn)，但目前業(yè)界對云存儲的定義還存在爭議并為形成標(biāo)準(zhǔn) ，屬于技術(shù)預(yù)研領(lǐng)域。目前在云存儲方面勢頭強(qiáng)勁的主要有：EMC、SUN、Symantec、HuaweiSymantec等專業(yè)存儲廠商。