博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
GATK3.2.2小结(转载)
阅读量:6312 次
发布时间:2019-06-22

本文共 1028 字,大约阅读时间需要 3 分钟。

http://blog.csdn.net/skenoy/article/details/38346489

经过几天的摸索和网上资料的查询对GATK软件有点小心得,现总结如下:

 

1. fasta文件最好用定位到染色体上的数据,可以不用注释VCF文件(GVF),但如果用VCF文件保证以下几个条件:

1)VCF染色体必须和fasta的染色体数目一致,顺序一致

2)VCF的位点必须从小到大排序

3)VCF的碱基有可能有其他符号,如“~”等,要去除干净

 

2. 做之前分别使用bwa index,picard中的CreateSequenceDictionary.jar和samtools中的faidx对fasta文件建立索引,且最好在fasta同一个文件夹下面

 

3. bwa做比对时,最好加入-r参数:"@RG\tID:name\tLB:name\tPL:ILLUMINA\tSM:name",为了以后不再加入头文件

 

4. picard中ReorderSam.jar是为了矫正你的sam文件的头文件与fasta相一致,如果一致,可以不用做这一步

 

5. 使用picard处理bwa的paired的sam或bam的任意程序,最好加入VALIDATION_STRINGENCY=LENIENT,因为paired reads有一条比对到染色体的末端时,另外一条picard无法识别就会报错终止运行

 

6. 如果说合并样本call variant,GATK的多线程有两个,nt代表几个样本使用一个CPU;ncr代表一个样本使用几个CPU

 

7. GATK 3.0以后不再支持ReduceReads这个程序

 

最新补充:

8. 有时候reads的cigar值会出问题、或者质量值和碱基对不上、又或者reads出现其他符号,加入下列参数:-filterRNC -filterMBQ -filterNoBases -rf UnmappedRead -rf BadMate -rf DuplicateRead -rf NotPrimaryAlignment -rf MappingQualityUnavailable

 

现阶段没有做质量值矫正和变异矫正,一是要求数据量比较大,如果小于100M的reads就不要做了;二是目前的商业项目很难做如此麻烦的处理,除了人的项目,因为有相应的很多的注释文件

当然还有其他方法进行矫正,比如跟samtools mpileup的结果相一致的才认为是可靠的

你可能感兴趣的文章
在 Linux 下使用 fdisk 扩展分区容量
查看>>
结合AlphaGo算法和大数据的量化基本面分析法探讨
查看>>
如何在 Ubuntu Linux 16.04 LTS 中使用多个连接加速 apt-get/apt
查看>>
《OpenACC并行编程实战》—— 导读
查看>>
机器学习:用初等数学解读逻辑回归
查看>>
如何在 Ubuntu 中管理和使用逻辑卷管理 LVM
查看>>
Oracle原厂老兵:从负面案例看Hint的最佳使用方式
查看>>
把自己Github上的代码添加Cocoapods支持
查看>>
C语言OJ项目参考(2493)四则运算
查看>>
零基础入门深度学习(二):神经网络和反向传播算法
查看>>
find和xargs
查看>>
数据结构例程—— 交换排序之快速排序
查看>>
WKWebView代理方法解析
查看>>
IOS定位服务的应用
查看>>
[SMS&WAP]实例讲解制作OTA短信来自动配置手机WAP书签[附源码]
查看>>
IOS中图片(UIImage)拉伸技巧
查看>>
【工具】系统性能查看工具 dstat
查看>>
基于zepto或jquery的手机端弹出框成功,失败,加载特效
查看>>
php引用(&)
查看>>
Delphi 操作Flash D7~XE10都有 导入Activex控件 shockwave
查看>>