北京大学生物信息平台论坛

 找回密码
 立即注册
搜索
热搜: 通知 活动

数据备份方法与建议

[复制链接]
menghw 发表于 2016-6-7 16:22:33 | 显示全部楼层 |阅读模式
Linux服务器文件备份 v 0.1
Howard /李程实验室

在日常使用服务器的过程中,可能有一些原始数据我们不经常使用,这时候我们就需要对数据进行压缩和备份,在这里我们为大家推荐按下面的规范对自己的数据进行压缩备份,一方面可以减少文件储存空间,另一方面可以方便我们对文件进行转移。

1.文件名命名规范

对文件进行命名时,应简要指出数据文件的来源和处理方法以及编号。比如:
1.png
从上面文件中我们很容易可以知道:
  • 这是从GEO数据库中下载的2014年文章中的数据;
  • GEO编号是GSE63252;
  • 对应的SRR文件的编号一目了然;
  • 使用的细胞系是IMR90;
  • 使用的限制性内切酶是MboI;
  • 文件存档日期是2015年12月8日。

2.文件夹命名规范
文件夹命名建议与文件内容命名类似,比如文件夹就可以命名为:
2.png
比如IMR90-mboi-2014-GSE63252这个文件夹名称,就可以知道:
  • 这是从GEO数据库中下载的2014年文章中的数据;
  • GEO编号是GSE63252;
  • 使用的细胞系是IMR90;
  • 使用的限制性内切酶是MboI;

3. 压缩文件
       linux中,一般使用gzip命令对文件进行压缩。比如文件夹中包含的内容为:
         3.png
       那么可以使用压缩命令:gzip *.fq
        将上述文件分别压缩,压缩以后:
         4.png

4.文件夹内还应包含的内容
       文件夹中除了数据文件本身还应包含的内容为下面两个。

4.1 README 部分
       README部分主要介绍数据的格式,数据保存时间,实验处理的方法等等信息,方便他人理解数据的内容。比如,还是以上面IMR90-mboi-2014-GSE63252文件中的数据为例,其中应该包含类似的README
5.png
       写成这种形式,主要是为了如果日后需要批处理数据,方便调用数据的信息。

4.2 MD5
MD5算法常常被用来验证网络文件传输的完整性,防止文件被人篡改。MD5 全称是报文摘要算法(Message-Digest Algorithm 5),此算法对任意长度的信息逐位进行计算,产生一个二进制长度为128位(十六进制长度就是32位)的“指纹”(或称“报文摘要”),不同的文件产生相同的报文摘要的可能性是非常非常之小的。
在linux中我们需要对每个文件压缩后的文件都产生1个MD5的信息保存在MD5.txt文件中。在linux中,计算MD5的命令是md5sum,比如:
6.png

计算MD5的命令为:md5sum *.gz >MD5.txt
结果为:
7.png

检查文件完整性的命令为: md5sum-c  MD5.txt
检查结果:
8.png
回复

使用道具 举报

北京大学生物信息平台论坛

GMT+8, 2017-11-22 11:59 , Processed in 0.092266 second(s), 26 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表