N22-北京-追求极境之人-RSYNC差分编码同步原理

1客户端发送自己的filelist,filelist包含文件hashindexid(alert32)和关联的文件chunkChecksum(MD5)和hashindexID以便进行快速查找,chunksize根据文件大小进行等分,不足均值部分直接发送不进行MD5校验值生成

发送进程一次从生成器读取一个文件索引号和关联的块校验集合

2对于生成器发送的每个文件ID,它会存储数据块校验和并生成它们的哈希索引,以进行快速查找 。

然后会读取本地文件,并为以本地文件的第一个字节开头的数据块生成校验和。此数据块校验和在由生成器发送的集中查找,如果未找到匹配, 则会将非匹配字节附加到非匹配数据,并且会比较以下一字节开头的数据块。  这称为“rolling checksum”

如果找到数据块校验和匹配,则会将它视为匹配块,所有累积的非匹配数据将被加上在接收端的文件中的匹配数据块的偏移量和长度之后发送到接收端,并且数据块校验和生成器将提前到匹配块之后的下一字节。

3可以以这种方式标识匹配块,即使重新排列数据块的顺序或数据块的偏移量不同。此过程是 rsync 算法的核心。

4将数据从基础文件复制到临时文件会使receiver在所有rsync进程中最耗磁盘。小文件可以仍处于缓解此作用的磁盘缓存中,但对于大型文件,由于生成器已移动到其他文件,并且存在sender引起的进一步延迟,缓存可能会"抖动"(thrash)。 数据可能从一个文件随机读取,写入另一文件,如果工作集大于磁盘缓存,则会发生"寻道风暴"(seek storm),进一步影响性能。

原创文章,作者:584641574,如若转载,请注明出处:http://www.178linux.com/35994

(1)
584641574584641574
上一篇 2016-08-22 09:29
下一篇 2016-08-22 09:29

相关推荐

  • linux第一天,不正经的感想

    课是正经课,人正不正经就不知道了

    2018-03-26
  • centos进程管理

    一 、进程的概念和分类1.进程的概念      Linux是一个多用户多任务的操作系统。多用户是指多个用户可以在同一时间使用同一个linux系统;多任务是指在Linux下可以同时执行多个任务,更详细的说,linux采用了分时管理的方法,所有的任务都放在一个队列中,操作系统根据每个任务的优先级为每个任务分配合适…

    Linux干货 2016-09-19
  • SNAT,DNAT,端口转发

    利用iptables配置NAT

    2018-03-01
  • linux计划任务

    linux计划任务、周期性任务执行 未来的某时间点执行一次某任务:at,batch 周期性运行某任务:crontab 执行结果: 会通过邮件发送给用户, 存放在/var/spool/mail/UserName ~]# ss -tnl 或者 ~]# netstat -tnlp  查看是否有25号端口打开,来判断本机的邮件服务是否正常打开 本地电子邮件…

    Linux干货 2016-09-19
  • SQL Server 2012 故障转移群集最佳实践

    一、Windows server  2012 系统主域的安装配置 功能介绍:  SQL Server 故障转移群集在网络上显示为一台计算机上的单个 SQL Server 实例。在群集内部,一次只有一个节点拥有群集资源组,满足针对该故障转移群集实例的所有客户端请求。在出现故障(硬件故障、操作系统故障、应用程序或服务故障)或进行计划升级时,组…

    Linux干货 2015-10-27
  • 文件管理

    compress:压缩命令 -d:解压缩(=uncompress) -c:结果输出到标准输出,不删除原文件 -v:显示详情 zcat:不解压文件查看内容   gzip:压缩命令 -d:解压缩 -c:结果输出到标准输出,不删除原文件 -#:1-9代表压缩比,默认为6 zcat:不解压文件查看内容   bzip2:压缩命令 -k:保留原文件 …

    Linux干货 2016-08-18