存储系统的制作方法
专利名称:存储系统的制作方法
技术领域:
本发明涉及存储系统,并且具体而言涉及具有重复存储消除功能的存储系统。
背景技术:
辅助存储系统的去重(deduplication)目前已在研究和商用应用中引起广泛关注。e choice(extended abstract):Completely asynchronous agreement protocols。 在 PODCJ 83:Proceedings of thesecond annual ACM symposium on Principles of distributed computing(New York,NY,USA,1983),ACM,-30。NPL 7:LAMPORT, L., The part-time parIlamentACM ,2(1998),133-169。
发明内容
技术问题(基于盘的去重的性能挑战)为了实现大规模去重存储系统,必须克服一些重大的性能挑战。大型系统存储太多的块,因而它们的哈希不适应主存储器。使用哈希的简单的盘上索引将由于进行索引查找而导致性能非常差,索引查找实际上是随机读取。一些系统通过临时存储全部输入块并且离线完成去重来解决该问题。由于预先已知全部新块,所以可以按照哈希次序重新排列哈希查找,并且可以成批地有效地执行查找。但是,离线去重需要用于临时块存储的大的、高性能的暂存区域。另一方面,内嵌(inline)去重系统可以避免将重复的块写在一起,从而在典型的重复性高的情况下提供更高的写性倉泛。大部分系统(如NPL I中公开的系统)通过依靠流局域性观察来解决该问题一典型而言,连续备份中的重复块按照在与来自原始备份的那些块相同的顺序出现。通过保留备份流的局域性,可以有效地预取许多重复块的哈希。通过使用存储器中的布隆过滤器,或者通过接受近似重复以便以一些重复可能性换取更好的性能,可以有效地识别非重复的块。另一个问题在于由于流分段而导致流读取性能降低。由于重复块被存储在与最新写入的块不同的位置中,所以看起来大的顺序读取被内在地分解成多个较短的读取。在进行精确去重的系统中,如果两个流被存储在该系统中,其中一个流是另一个流的随机置换,则该问题是固有的,这些流中的至少一个流将必须发出少量的、随机读取。实际上,允许有效去重的相同流局域性观察使得该最坏情况不可能发生。但是,随着分段典型地随着系统
的年龄增长,应该注意内部局域性不要进一步被差的数据放置减少。(可缩放全局去重)
如NPL 2中描述的集中化系统例如在系统尺寸方面具有有限的可缩放性。可以建立多个独立的系统以对容量进行缩放,但是这阻碍了它们之间的去重,并且通过向孤立的存储岛安装备份增加了维护负担。一些系统(NPL I)通过基于哈希将块分配给存储节点来引入可缩放的全局范围的去重。这有效地将大型块索引分到全部节点上,其中每个节点负责哈希空间的一部分。虽然该架构在单客户端设置中提供可缩放性和良好的性能,但是当多个客户端同时读取或写入时可能出现性能问题。流局域性的降级由于块均匀地分布在全部节点上,所以每个节点平均接收按系统尺寸因子缩小的输入流的一部分。这导致大型系统中流局域性的显著降低——在原始流中出现的任意流局域性也将在每个节点之中按照该因子降低。读取回流的任意重要的部分需要该系统中的全部节点的参与。如果许多客户端试图同时读取回(不同的)流,则它们将必须在每个节点上竞争相同的资源。为了维持高吞吐量,存储节点将会需要与客户端的数量成正比的读取高速缓冲存储器尺寸——这被称为缓冲器激增问题(NPL 3)。流局域性中的降级使该问题更复杂,这降低了预取的效率。结果,在非常大型的系统中,原始流的顺序读取将退化成存储节点之中的随机读取。相同的问题适用于去重查找一现有的块的哈希的预取也将退化成随机读取。但是,对于去重而言负面影响较不明显,因为哈希比块数据小得多并且将更易于适应尺寸适中的高速缓冲存储器。对称网络吞吐量由于块到存储节点的均匀分布,全部节点从客户端接收大致相同数目的块。当客户端的数目增长时,网络吞吐量要求也增长,以容纳全部非重复块写入。结果,具有高的对称式点对点吞吐量的网络有必要对于该系统提供高的写入吞吐量。如下文将讨论的,针对大型系统建立这种网络是困难的。如此,本发明的一个示例性的目的在于防止具有去重的存储系统的性能恶化,这是如上文所述的要解决的问题。问题的解决方案根据本发明的一个方面,一种存储系统包括数据存储控制单元,该数据存储控制单元以分布式的方式在多个存储设备中存储通过分割存储目标数据而生成的块数据的多个单元,并且当试图在存储设备中存储具有与已被存储在存储设备中的存储目标数据的数据内容相同的数据内容的另一条存储目标数据时
存储系统的制作方法 12 来自淘豆网m.daumloan.com转载请标明出处.