HP服务器技术专题

SEPATON：重复数据删除的智慧与独特之处

重复数据删除的持续火热显示出了这项技术对于终用户的重要程度，而随着业界主要供应商陆续加入到市场竞争中来，原本并不为人们所熟知，甚至少有人关心的重复数据删除技术的实现原理、删除过程，以及各家供应商、各种技术实现方法之间的区别，越来越多的被提及——在一项技术为业界广泛所接受时，产品技术供应商竞争的优势，正越发远离企业的品牌和销售技巧。

对于SEPATON来说，人们对于重复数据删除技术实现原理、删除过程、产品技术理念上的越发看重，给予了这家重复数据删除技术的拥有厂商十分有利的竞争位置，由于此前市场上曾经分为“将重复数据删除作为备份软件的功能”和“将重复数据删除作为一项企业系统的功能”两派不同意见正在逐步转向将重复数据删除扩展到整个企业级系统，而不是局限在备份软件之内，这正好给予了SEPATON等并非局限在将“备份软件加入重复数据删除功能”而是作为企业级系统的一项能力的技术原厂商以发展的动力。

6月，在约见SEPATON有限公司中国区技术经理王震的一次采访中，他明确表示，由于市场上握有重复数据删除核心技术的厂商仅仅在四家~五家左右，因此，目前，重复数据删除技术的市场竞争态势明显有利于SEPATON这样的握有核心技术的厂商，而SEPATON同时对重复数据删除的独特实现方法和对系统实用性角度的观点，将帮助SEPATON获得更好的市场竞争优势。

DeltaRemote 面向远程针对冗余

今年5月，SEPATON全球宣布了全新的DeltaRemote软件，在当时的新闻报道中，DeltaRemote被称为“首个可供全球规模大的数据密集型机构，实现可靠且经济的远程数据复制产品。”——DeltaRemote的到来意味着SEPATON将其远程数据复制产品带上了一个新的台阶：远程复制不再同步真实的数据。

王震表示，DeltaRemote是之前SEPATON的主要远程复制产品Site2的升级产品，在功能和性能方面都优于Site2，原有的SITE2用户可以轻松升级，使用DeltaRemote后，其灾难备份/恢复解决方案会更加完善。DeltaRemote不再追求“真实数据的同步”而是“将重复数据删除之后的数据同步到远程站点”，远程复制的数据都是“加工后的结果，而不是真实数据。”——这样做的好处显而易见，远程复制、备份/恢复都存在着大量的冗余数据，DeltaRemote能够更好地解决对带宽情况要求较高的问题，从而在信噪比较差、短时间高并发的数据发送情况下，较好地完成远程数据传输工作。

但SEPATON慢慢主推DeltaRemote的过程将必然遭遇一个问题：重复数据删除耗费的时间一般被认为会高于压缩的时间，虽然数据精简的程度较高，但执行时间的问题，是否会在实际使用中，压缩反而更加合适呢？

王震的答案是否定的，仅从压缩和重复数据删除技术的对比上，王震就并不认同这一说法——王震表示：“SEPATON技术比较独特，这个问题细说起来其实并不存在。” （在下文我们将详细介绍SEPATON的重复数据删除技术，从而了解为何在远程数据传输中，SEPATON的技术更适合预先做重复数据删除，以及如何完成整个基于重复数据删除技术的数据传输工作。）

王震认为，现在的人们对重复数据删除技术的渴望给了SEPATON以极大的市场机会

仅从重复数据删除对比压缩的情况来看，王震表示，首先，从实际的测试来看，二者的时间区别并不长，并非人们所想那样重复数据删除会需要远远超过压缩的时间（这与SEPATON的技术实现方式有很大关系），其次，从数据上来讲，有别于压缩，应用系统数据有多种，影音、数据库、文件、图片，有些已经做了压缩，有些还没有——“如果单纯用再压缩的方式去处理数据的话，对于很多数据的效果是很有限的，传输需要的带宽要求依旧很高。”

王震表示，重复数据删除是基于数据的识别，摘要的提取的数据鉴别过程——在传输过程开始后，二者的区别就会显现，传输时间上的节省，让重复数据删除的过程并非落后于压缩。

实际上，这并不是SEPATON的DeltaRemote数据传输技术的全部——这需要详细的了解SEPATON的内容已知架构，而非简单的将其重复数据删除技术在理念层面进行比较，且由于SEPATON的重复数据删除技术是整合在其远程数据传输中的，因此，分步骤、分阶段的工作流程，就成为了解SEPATON的DeltaRemote远程复制为何能够通过重复数据技术加速的必须前提。

内容感知：SEPATON的重复数据删除过程

在谈起有关重复数据删除和压缩比较的话题时，王震说了这样一段话：“Sepaton进行一种差分运算，因为数据必然存在重复，（因此）会有很高的精简比，（当然）有特定的适用范围，备份是一个（重要的）应用领域，而压缩是对数据实体进行挤压，重复数据删除是数据实体的鉴别，需要的时间会比压缩长，但Sepaton会去规避。”

这也就是王震为何表示：“从实际的测试来看，二者的时间区别并不长，并非人们所想那样重复数据删除会需要远远超过压缩的时间。”的重要原因。

首先，我们要初步的了解一下SEPATON的DeltaRemote的远程复制、备份的数据传输的步骤——据王震介绍，SEPATON将这一过程统筹在内容识别及传输整合的流程之下，分为了五个步骤：步是完成本地的备份，无论是通过备份软件还是硬件备份；第二步是在副本和副本之间的比对，也就是新的备份和老的备份之间，进行分析，提取Metadata（元数据），形成了数据副本的摘要信息；第三步是数据重组，根据抽取的信息摘要进行设定指针，在对应数据之间，利用指针关系对应连向新的数据——也就是老数据指向新的，第四做完整性检查，看看数据是否有丢失和损坏；第五步将老数据中重复的部分删除掉。

但SEPATON并不是在本地就把这五个部分做完再把数据传向异地，据王震介绍，“而是在第二个部分，再抽取信息摘要——Metadata之后，在进行数据指针定向之前，将这部分抽取的Metadata、唯一的数据以及数据来源的介绍，以磁带的形式传送到异地，在异地从第三步至第五步继续完成重复数据删除过程。”——显然，相对于在本地完成重复数据删除，只是多了一个传送的时间，但由于Metadata的数据非常小，而唯一的数据如果（在备份，尤其是全备份中，这种“如果”情况的发生其实是必然的）很少的话，那么这个传送时间其实并无多大的影响。

这就是SEPATON的重复数据删除过程，终的目的地自然是SEPATON一直引以为豪的VTL，而在介绍了这样的一个过程之后，如果你觉得下面的内容已经没有什么新意的话，那么你就大错特错了，因为下面，我们将一同来探讨其内容感知的“五步法”之后的聪明智慧——在开动脑筋之前，我们先来将见证SEPATON独特的坚持重复数据删除理念。

先谈谈面向策略的备份与“VTL的不同角色”

在谈及这两个话题前，有必要提一下王震对重复数据删除的三点看法，以对下面的话题有一个铺垫，王震认为，重复数据删除技术只能用于备份，如果脱离备份，重复数据删除很难实现，在线存储系统的删除比小会不好；其次，重复数据删除是对冗余数据的删除，是数据实体的鉴别，而不是简单的压缩，或者说是数据挤压，第三，生成的数据和原来的数据相比，完全是结构，基于指针和摘要，定向的结合体。

因此，王震表示，备份、重复数据删除策略上SEPATON是不同的，而SEPATON更进一步，在重复数据删除技术中为用户提供了更多的选择——开与不开的区别就在于用户的选择权利，“开启的同时对特定的应用不用重复数据删除。”

“其它供应商是对VTL的数据，SEPATON是针对某一个策略、某个应用、某个数据类型。”这也就意味着，在一个群集的VTL中，我们将有大量的灵活的选择——一个群集中的几个做（重复数据删除），一台主机上为某个策略做，而某个策略不去做，甚至可以在这个策略上做之外，再复制一个策略不去做，当然，这也是上面我们所提到的DeltaRemote的一项创新功能：“把不做的分离开，把做的进行重复数据删除，制定两个备份、传输的策略。”

实现的过程却也并不困难：与备份软件脚本做结合，插入一些参数；或是在图形化界面里面，根据某一个策略下的某一个数据实体，为每一个数据集定制。

除此以外，对于一个构建在网格群集架构基础上进行重复数据删除的SEPATON VTL来说，王震表示SEPATON甚至提供了让VTL引擎节点完成“角色扮演”的不同选择：基于网格，全域的SEPATON VTL架构，允许重复数据删除可以均衡的完成，有的节点专门负责计算、有的节点专门进行备份和恢复——用王震的话说就是，可以将重复数据删除集中、特指、分散在各个节点上。

不同的VTL引擎节点从此有了不同的角色：备份节点、计算节点或是混合节点——就像一个角色扮演游戏。

好了，现在，思考的时间已经够长了，我们可以去考虑SEPATON的重复数据删除到底好在哪里了——抑或是没有什么思考的结果？让我们拭目以待。

思考：SEPATON的聪明之处

首先，让我们再来看看王震说的两段话：

段是这样说的：“内容感知是了解数据的内容是什么情况，不是针对一次的备份数据的内部的对比，而是在两次完整的备份数据集之间识别内容，备份软件备份出来的是Image文件，如果发现两次备份的数据有同样来源、主机、策略下的数据，那就可以删除一个，留有一个知识库，对压缩文件和加密文件会有一个不错的删除比。”

而第二段的内容如下所列：“以100GB数据为例子，内容感知的初次备份一定需要100GB存储次不做的数据，然后有100GB保存第二次的数据，至少需要200GB的存储空间。删除前一次100GB备份内重复的数据，保存新的数据。因此，没有数据重组，恢复速度很快，性能不受到影响。”

现在，我们来解释一下这些内容。

从内容感知的五步来看，我们可以更加通俗易懂的来解释：在对数据进行标记，提取出必要的、标示唯一性的信息之后，将这些需要的信息，包括Metadata、唯一数据和数据介绍，传输到异地的设备上去，而此前，异地的设备上已经有了一个此前的备份，通过将原有数据与新传输的数据整合，还原了一份新的备份数据——这将是一份真实完整的、保存在异地系统中的，本地业务系统的数据备份，而在此之前存在的那一份，则删除掉重复的数据，变成独特数据和数据介绍的零散组合。之后，当下一份被传送数据保存到异地VTL系统内，会使用前一份被还原的、完整保存的备份数据重复这个操作过程，此时，又会有一份还原后的真实数据被完整保存。

这绝对是一个聪明的做法，这将保证，在SEPATON的异地备份端，永远能够拥有一个可以恢复系统到新状态的新备份，如果系统出现问题，无需重新恢复数据的等待时间和对备份系统的负载的要求（众所周知，重复数据删除后的数据如果需要恢复，至少需要等同于删除时间的重构时间）。

而从对系统的容量要求来看，这同样具有有利的地方：虽然在备份初期的次备份上，SEPATON的方法，由于要保存一个绝对新的备份副本，且这个副本完全不进行重复数据删除，因此，其需要的初始容量会超过其他的系统，但是在此之后，我们能够发现，由于其一直在系统中保存一个新备份和过去的所有特殊、唯一数据，并用这些所有的信息进行重复数据删除，而不是只是在每次的备份文件内部进行重复数据删除，其容量的需求会在一定的时期之后，逐步开始低于那些仅仅在单次数据集内部进行数据重复删除的一般方法，从而获得相较于其它重复数据删除技术在存储容量需求方面更好的，且是长期的经济性。

这两点，就是SEPATON聪明的地方——更快速的恢复，更经济的数据存储曲线。

在技术角度，SEPATON的技术实现显得十分特殊，而这也是在目前重复数据删除技术市场中，SEPATON能够一直有一席之地的原因，而如果市场持续的转向技术敏感的话，将显著有利于SEPATON技术的发展，这将是必然的过程。