分类: 基因组学

Dotplot在线工具

原文发布日期 2013年

硕士匡boss在基因组学的课上,就讲过dotplot,作业是用dotter比较两段长序列,那时候还视MEGA为神器,况且还用着盗版的Geneious,随手就能做出漂亮的Alignment,完全没理解为啥要用这看起来这么low的东西。

最近想把几个已经测过序的BAC克隆Map到参考基因祖上,BAC加起来大概300kb,想要map到一条80MB左右的染色体上,突然发现手里的工具都不好使了。。普通的Algnment算法明显不适合这种长序列,BLAST的output又全是割裂的片段,又拿Geneious(恩,现在已然换上正版的R7了。。)的NGS工具map to reference试了下,发现还是不好使,这类工具都是针对小片段的。 这时候突然想起了匡boss讲过dotplot。随手搜索了下,先试了几个命令行程序比如Mummer啥的,又陷入到装A需要B,B需要C,C需要D的场面。边挠头边往搜索栏加了个online tool于是任务解决。

Example

从这张Dotplot可以看到以下信息

  1. 基因异位 (Translocation)
  2. 倒位 (Inversion)
  3. 插入(或者缺失) (Insertion)

Dotplot的优势

  1. 既可以用于比较两个长序列,也可以用于短序列
  2. 可视化

Dotplot的劣势

  1. 需要通过不断尝试,找到最佳的windows大小,以及阈值
  2. 只能用于比较两个序列
  3. 不能告诉你突变发生的原因(比如是一个短序列的insertion,或是另一端序列的deletion?)

下面介绍这两个做Dotplot的工具, 这些工具只针对快速的dotplot,是不是最好的还需要更多比较。

YASS

http://bioinfo.lifl.fr/yass/

提供Perl脚本以及在线访问,主要特性:

  • multiple, possibly overlapping seeds and a new hit criterion to ensure a good sensitivity/selectivity trade-off
  • transition-constrained spaced seeds to improve sensitivity (transition mutations are purine to purine A<->G or pyrimidine to pyrimidine C<->T)
  • using different scoring schemes with bit-score and E-value evaluated according to the sequence background frequencies
  • parameterizable output filter for low complexity repeats
  • reporting of various alignment statistical parameters (mutation bias along triplets, transition/transversion)
  • post-processing step to group gapped alignments

Gepard

http://www.helmholtz-muenchen.de/en/icb/software/gepard/index.html

这个程序是基于JAVA的,需要先安装Java Web Start,主要特性:

  • Rapid calculation of dotplots (<2min for E.coli self-plot on a standard computer)
  • Preconfigured parameters => simply specify two sequences and create the dotplot (3 clicks)
  • Easy-to-use interface (mouse zooming, context-sensitive help)
  • Image exports (multiple formats)
  • Should work on any common OS due to Java software architecture
  • Genes covered by the dotplot are linked to their report webpages in the PEDANT database
  • Coloring of genes by functional classification (uses data from PEDANT)
  • Persistent storage of suffix arrays (avoids recalculation)

参考文献:

  1. L. Noe, G. Kucherov YASS: enhancing the sensitivity of DNA similarity search, 2005, Nucleic Acids Research, 33(2):W540-W543.
  2. Krumsiek J, Arnold R, Rattei T. Gepard: A rapid and sensitive tool for creating dotplots on genome scale. Bioinformatics 2007; 23(8): 1026-8. PMID: 17309896