lovebet片扩增引物,扩增子分析解读2领取barcode

本节科目,需要完成扩增子分析解读1质控 实验设计
双端体系合并

扩增子分析解读2取barcode 质控及样品拆分 切除扩增引物,barcode质控

本节科目,需要就扩增子分析解读1质控 实验设计 双端体系合并
先看一下扩增子分析的共同体流程,从下向上逐层分析

lovebet 1

浅析前准备

# 进入工作目录
cd example_PE250

高达平等节回顾:我们将到了双端数据,举行了质控、并针对实验设计举办了填跟检查、最后用双端数据统一为单个文件进行下游分析。
 
接下来我们将行后的barcode标签切下来,因为它是人工添加的,不属于尝试目的;再依照签系列及实验设计文件比对,对各国条班属于哪个样品举办分拣;最终我们片掉扩增使用的引物,因为它是人工合成的形似类别,并无是种的真连串。这样咱们就是拿走了大质地之扩增区域数据,并且体系名称被包括了样品音信。
  4. 领取barcode 为啥扩增子有barcode? 我原先开过sRNA-Seq, RNA-Seq,
ChIP-Seq等等,都是一个文库对应一个样品,为啥没有用过barcode拆分。
原因是拓宽增子近来研商对象细菌、真菌多样性没有表明基因数量非常,一般是几百交宏观之水准,对数据量要求最好多10万漫漫班即可饱合。而Illumina测序仪的通量很高,接纳Index来区别每个文库,每个文库的数据量达到千万之级别,加上建库测序的工本也未会合低于总第一位。对于推广增子动辄成百上千的样品既太昂贵,又浪费。由此将扩增子样本添加上barcode(标签),经常以48/60个样品混合在一起,构建一个测序文库,达到高通量测序大量样品同时降低实验成本的指标。
 
平常的测序仪下机数据,只经Index比对,拆分成来自不同文库的数据文件,分发给用户。而扩增子的一个文库包括几十单样品,还需通过每个样品达号的特异Barcode进一步区分,再展开下游分析。
 
注:假如您是好构建测序文库,再次来到数据可以遵照下文拆分样品;假设是店铺建库并测序,他们有样品的barcode音信,平常会重返给用户样品拆分后底数据,无需本节中的操作。但原理仍然要清楚,对全部分析的把握这些重大。
  Barcode在扩增子的职位以及花色?
lovebet 2
Barcode位于引物的外面,相比较独立的起三栽,上图显示的吧极端常用之barcode位于左端(正向引物上游),其它还有右端和双端也正如常用。
本分析下的数据类型为右端barcode。  
extract_barcodes.py是QIIME中用来切除barcode的台本,辅助而想到的有所连串。
-f参数为输入文件,即高达和被集合双端数据后的文件; -m为实验设计文件;
-o为出口切下barcode的多少目录;
-c为barcode类型采取,如今底barcode_paired_stitched选项扶助右端和双端类型,假假如左端类型,请转呢barcode_single_end;
—bc1_len设置左端barcode的长度,按实验设计添写,本数唯有右端则也零星;
—bc2_len设置右端barcode的长,按实验设计添写,本数右端长度为6bp,常用的还有8,10;
-a是用实验设计中的引物来调动序列的取向,本实验的测序无方向,必须从头是选项调整,有些商家的建库类型有方向,但起头了究竟没错,顶多多花点算时间;
—rev_comp_bc2凡是以右端barcode取反向互补再同左端相连,指出打开,这样您的实验设计中barcode一栏直接拿补偿写原始barcode即可,不用再考虑方向了;假使是双端则以有限单barcode直接连起来填在barcode列,不用考虑方向。

# 提取barcode
extract_barcodes.py -f temp/PE250_join/fastqjoin.join.fastq \
 -m mappingfile.txt \
 -o temp/PE250_barcode \
 -c barcode_paired_stitched --bc1_len 0 --bc2_len 6 -a --rev_comp_bc2

就步任务会以出口目录temp/PE250_barcode中生成5个文件

barcodes.fastq # 切下来的barcode,用于后续拆分样品
barcodes_not_oriented.fastq # 方向不确定序列的barcode。连引物都不匹配,质量太差,建议不再使用
reads1_not_oriented.fastq # 方向不确定序列的序列,可能barcode切错方向。连引物都不匹配,质量太差,不建议使用
reads2_not_oriented.fastq # 空文件
reads.fastq # 序列文件,与barcode对应,用于下游分析

重新多证指出看协理 http://qiime.org/scripts/extract\_barcodes.html  

  1. 质控及样品拆分
    上步对队列方向举办了调总体也正向,并切开了barcode与扩增系列。下边用split_libraries_fastq.py对混池遵照barcode拆分样品,同时筛选质料大于20(即准确度99%)的队列举办下游分析。参数解释如下:
    -i 输入连串文件,上步暴发; -b 输入barcode文件,上步暴发; -m
    实验设计,倚重样品barcode列表将行按样品重新命名 -q
    测序质料阈值,20吧99%准确率,30吧99.9%准确
    –max_bad_run_length 允许连续的小质地碱基调用的最为酷价值,默认值为3
    –min_per_read_length_fraction
    最小强质地排比例,0.75哪怕最少有连序75%底碱基质地大于20
    –max_barcode_errors barcode
    允许的碱基错配个数,指出设置0为免容许,尽管修改也1,2平凡为无同意错配,不迷信而试试
    barcode_type
    调置barcode类型,默认为golay_12,并帮助错配;我们一般设置为整数,对应barcode的尺寸总和,本实验中填0+6=6。

    # 质控及样品拆分
    split_libraries_fastq.py -i temp/PE250_barcode/reads.fastq \
    -b temp/PE250_barcode/barcodes.fastq \
    -m mappingfile.txt \
    -o temp/PE250_split/ \
    -q 20 –max_bad_run_length 3 –min_per_read_length_fraction 0.75 –max_barcode_errors 0 –barcode_type 6

运转结果会输出三独文件

histograms.txt # 所有序列长度分布数据,可知长度范围308-488,峰值为408
seqs.fna # 质控并拆分后的数据,序列按样品编号为SampleID_0/1/2/3
split_library_log.txt # 日志文件,有基本统计信息和每个样品的数据量;查看可知每个样品最大数据量为110454,最小值为10189

再一次多证提议看襄助http://qiime.org/scripts/split\_libraries\_fastq.html
  6. 切除引物系列这里大家介绍一放缓大通量引物切除软件,cutadapt,2017-6-16风尚版本1.14;
https://pypi.python.org/pypi/cutadapt
此软件二〇一一年发布至今平素以改进,Google Scholar停止17年九月8日引述2263不好。
  Cutadapt 1.14下充斥跟安

# 下载,请尽量检查主页下载最新版源码
wget https://pypi.python.org/packages/16/e3/06b45eea35359833e7c6fac824b604f1551c2fc7ba0f2bd318d8dd883eb9/cutadapt-1.14.tar.gz
# 解压
tar xvzf cutadapt-1.14.tar.gz
# 进入程序目录
cd cutadapt-1.14/
# 安装在当前用户目录,不需管理员权限
python setup.py install --user

cutadapt切除双端引物及长度控制,参数详解: -g 5’端引物 -a
3’端引物,需要将引物取反朝互补 -e
引物匹配允许错误率,我调置0.15,一般引物20bp长允许3只错配,为了尽量把引物切干净
-m
最小连串长度,依据情状设置,本实验扩增V5-V7区,长度要在350-400,故去除长度小于300bp的阵,无经验可免填此参数
–discard-untrimmed 引物未切掉的连串直接放任,避免出现假OTU seqs.fna
为输入文件 PE250_P5.fa 为出口文件

cutadapt -g AACMGGATTAGATACCCKG -a GGAAGGTGGGGATGACGT -e 0.15 -m 300 --discard-untrimmed temp/PE250_split/seqs.fna -o temp/PE250_P5.fa

程序运行结果会当屏幕及输出结果总结报告,如去领略比例、去丢了少系列比例等;还有去引物的长分布,看看暴发没发出很是。如3’端体系没有赢得反往互补会不可以抹19bp连串,而是几乎bp的荒谬系列。
  Cutadapt结果报告

This is cutadapt 1.14 with Python 3.6.1
Command line parameters: -g AACMGGATTAGATACCCKG -a GGAAGGTGGGGATGACGT -e 0.15 -m 300 --discard-untrimmed temp/PE250_split/seqs.fna -o temp/PE250_P5.fa
Trimming 2 adapters with at most 15.0% errors in single-end mode ...
Finished in 73.83 s (58 us/read; 1.04 M reads/minute).
=== Summary ===
Total reads processed:               1,277,436
Reads with adapters:                 1,277,194 (100.0%)
Reads that were too short:               8,849 (0.7%)
Reads written (passing filters):     1,268,345 (99.3%)
Total basepairs processed:   522,379,897 bp
Total written (filtered):    495,607,409 bp (94.9%)
=== Adapter 1 ===
Sequence: GGAAGGTGGGGATGACGT; Type: regular 3'; Length: 18; Trimmed: 202757 times.
No. of allowed errors:
0-5 bp: 0; 6-12 bp: 1; 13-18 bp: 2
Bases preceding removed adapters:
  A: 96.3%
  C: 1.5%
  G: 0.8%
  T: 1.3%
  none/other: 0.0%
WARNING:
    The adapter is preceded by "A" extremely often.
    The provided adapter sequence may be incomplete.
    To fix the problem, add "A" to the beginning of the adapter sequence.
Overview of removed sequences
length count expect max.err error counts
3 3 19959.9 0 3
4 4 4990.0 0 4
6 2 311.9 0 2
8 1 19.5 1 1
11 1 0.3 1 1
13 1 0.0 1 1
15 9 0.0 2 9
17 42 0.0 2 42
18 202626 0.0 2 202626
19 56 0.0 2 56
20 1 0.0 2 1
21 1 0.0 2 1
32 1 0.0 2 1
38 1 0.0 2 1
39 1 0.0 2 1
41 1 0.0 2 1
309 2 0.0 2 2
310 1 0.0 2 1
311 3 0.0 2 3
=== Adapter 2 ===
Sequence: AACMGGATTAGATACCCKG; Type: regular 5'; Length: 19; Trimmed: 1074437 times.
No. of allowed errors:
0-5 bp: 0; 6-12 bp: 1; 13-19 bp: 2
Overview of removed sequences
length count expect max.err error counts
3 2 19959.9 0 2
7 1 78.0 1 0 1
8 2 19.5 1 1 1
10 6 1.2 1 4 2
11 1 0.3 1 1
12 3 0.1 1 2 1
13 5 0.0 1 3 2
14 24 0.0 2 17 7
15 51 0.0 2 32 14 5
16 71 0.0 2 56 12 3
17 134 0.0 2 92 30 12
18 327 0.0 2 189 117 21
19 1059175 0.0 2 1056863 2069 243
20 13846 0.0 2 1817 10955 1074
21 744 0.0 2 5 10 729
22 1 0.0 2 1
23 2 0.0 2 2
24 1 0.0 2 1
25 2 0.0 2 2
27 5 0.0 2 5
28 2 0.0 2 2
29 2 0.0 2 2
30 1 0.0 2 1
31 2 0.0 2 2
32 10 0.0 2 10
49 1 0.0 2 1
51 1 0.0 2 1
166 1 0.0 2 1
291 6 0.0 2 6
401 2 0.0 2 2
409 1 0.0 2 1
443 1 0.0 2 1
460 2 0.0 2 2
465 2 0.0 2 2
WARNING:
    One or more of your adapter sequences may be incomplete.
    Please see the detailed output above.

http://www.bkjia.com/Linuxjc/1223472.htmlwww.bkjia.comtruehttp://www.bkjia.com/Linuxjc/1223472.htmlTechArticle扩增子分析解读2提取barcode 质控及样品拆分
切除扩增引物,barcode质控 本节课程,需要就扩增子分析解读1质控 实验设计
双端体系合并先…

先行押一下扩增子分析的完全流程,从下向上逐层分析

lovebet 3

剖析前准备

# 进入工作目录
cd example_PE250

齐亦然节省回顾:大家以到了双端数据,举行了质控、并对准实验设计举办了填跟反省、最后用双端数据统一为单个文件举办下游分析。

 

连片下去我们用行后的barcode标签切下来,因为其是人造添加的,不属于尝试目的;再冲签类别及实验设计文件比对,对各样条班属于哪个样品举行分类;最终我们片掉扩增使用的引物,因为其是人工合成的一般体系,并无是种的实事求是系列。这样我们即使取得了强质地之扩增区域数据,并且体系名称被连了样品消息。

 

  1. 提取barcode

怎么扩增子有barcode?

我先做了sRNA-Seq, RNA-Seq,
ChIP-Seq等等,都是一个文库对应一个样品,为何从来不因而了barcode拆分。

由来是拓宽增子近期讨论对象细菌、真菌多样性没有发布基因数量大,一般是几百到主的程度,对数据量要求极多10万条班即可饱合。而Illumina测序仪的通量很高,采用Index来区分每个文库,每个文库的数据量达到千万的级别,加上建库测序的成本为无会合低于总头版。对于拓宽增子动辄成百上千的样品既太昂贵,又浪费。由此拿扩增子样本添加上barcode(标签),日常用48/60独样品混合在一起,构建一个测序文库,达到高通量测序大量样品同时降低实验成本的目标。

 

普通的测序仪下机数据,只通过Index比对,拆分成来自不同文库的数据文件,分发给用户。而扩增子的一个文库包括几十个样品,还用经每个样品达记的特异Barcode进一步区分,再开展下游分析。

 

流淌:如果您是好构建测序文库,重临数据好依据下文拆分样品;假如是店铺建库并测序,他们发样品的barcode消息,通常会回给用户样品拆分后底多少,无需本节中的操作。但原理依然要明白,对总体分析的握住那一个重要。

 

Barcode在扩增子的职务及品种?

lovebet 4

Barcode位于引物的外围,相比较典型的生两种植,上图显示的啊无限常用之barcode位于左端(正向引物上游),另外还有右端和双端也相比较常用。

照分析下的数据类型为右端barcode。

 

extract_barcodes.py是QIIME中用来切除barcode的脚本,扶助而想到的有所类型。

-f参数为输入文件,即达和被联合双端数据后的文本;

-m也实验设计文件;

-o也出口切下barcode的多少目录;

lovebet,-c为barcode类型采取,如今底barcode_paired_stitched选项协助右端和双端类型,假如果左端类型,请转吧barcode_single_end;

—bc1_len设置左端barcode的长度,按实验设计添写,本数唯有右端则也零星;

—bc2_len设置右端barcode的长度,按实验设计添写,本数右端长度也6bp,常用之还有8,10;

-a是使用实验设计中之引物来调整体系的势头,本实验的测序无方向,必须从头之选项调整,有些集团之建库类型有方向,但开了总没错,顶多多花点算时间;

—rev_comp_bc2凡是用右端barcode取反向互补再与左端相连,指出打开,这样您的实验设计中barcode一栏直接将填补写原始barcode即可,不用再考虑方向了;假诺是双端则用点滴只barcode直接连起来填在barcode列,不用考虑方向。

# 提取barcode
extract_barcodes.py -f temp/PE250_join/fastqjoin.join.fastq \
 -m mappingfile.txt \
 -o temp/PE250_barcode \
 -c barcode_paired_stitched --bc1_len 0 --bc2_len 6 -a --rev_comp_bc2

旋即步任务会于出口目录temp/PE250_barcode中生成5个文件

barcodes.fastq # 切下来的barcode,用于后续拆分样品

barcodes_not_oriented.fastq #
方向非确定连串的barcode。连引物都非配合,质地太差,提出不再行使

reads1_not_oriented.fastq #
方向非确定连串的阵,可能barcode切错方向。连引物都无配合,质料最好差,不指出用

reads2_not_oriented.fastq # 空文件

reads.fastq # 类别文件,与barcode对应,用于下游分析

再一次多证指出看协助 http://qiime.org/scripts/extract\_barcodes.html

 

  1. 质控及样品拆分

上步对班方向举办了调总体啊正向,并切开了barcode与扩增系列。下边接纳split_libraries_fastq.py对混池依据barcode拆分样品,同时筛选质量高于20(即准确度99%)的班举行下游分析。参数解释如下:

-i 输入体系文件,上步暴发;

-b 输入barcode文件,上步暴发;

-m 实验设计,依赖样品barcode列表将行按样品重新命名

-q 测序质量阈值,20吧99%准确率,30乎99.9%可靠

–max_bad_run_length 允许连续的小质料碱基调用的极其深价值,默认值为3

–min_per_read_length_fraction
最小高质料排比例,0.75哪怕最少有连序75%的碱基质地大于20

–max_barcode_errors barcode
允许的碱基错配个数,提出设置0为不容许,即使修改为1,2平凡为无允错配,不信教而试试

barcode_type
调置barcode类型,默认为golay_12,并扶助错配;我们平时设置为整数,对应barcode的长短总和,本实验中填0+6=6。

# 质控及样品拆分
split_libraries_fastq.py -i temp/PE250_barcode/reads.fastq \
 -b temp/PE250_barcode/barcodes.fastq \
 -m mappingfile.txt \
 -o temp/PE250_split/ \
 -q 20 --max_bad_run_length 3 --min_per_read_length_fraction 0.75 --max_barcode_errors 0 --barcode_type 6

运作结果碰头输出三只文件

histograms.txt # 所有班长度分布数据,可知道长度限制308-488,峰值为408

seqs.fna # 质控并拆分后的数目,连串按样品编号也山姆(Sam)pleID_0/1/2/3

split_library_log.txt #
日志文件,有核心总结音讯及每个样品的数据量;查看可知每个样品最要命数据量为110454,最小值为10189

复多证指出看帮忙http://qiime.org/scripts/split\_libraries\_fastq.html

 

  1. 片引物体系

此地我们介绍一缓大通量引物切除软件,cutadapt,2017-6-16行版本1.14;

https://pypi.python.org/pypi/cutadapt

本条软件二〇一一年发布至今一直在更新,Google Scholar截止17年四月8日援引2263不行。

 

Cutadapt 1.14产充斥和安装

# 下载,请尽量检查主页下载最新版源码
wget https://pypi.python.org/packages/16/e3/06b45eea35359833e7c6fac824b604f1551c2fc7ba0f2bd318d8dd883eb9/cutadapt-1.14.tar.gz
# 解压
tar xvzf cutadapt-1.14.tar.gz
# 进入程序目录
cd cutadapt-1.14/
# 安装在当前用户目录,不需管理员权限
python setup.py install --user

cutadapt切除双端引物及长控制,参数详解:

-g 5’端引物

-a 3’端引物,需要将引物取反往互补

-e
引物匹配允许错误率,我调置0.15,一般引物20bp长允许3独错配,为了尽可能将引物切干净

-m
最小类别长度,依照气象设置,本实验扩增V5-V7区,长度要位于350-400,故去除长度小于300bp的行列,无经验而免填此参数

–discard-untrimmed 引物未切掉的队直接摒弃,避免出现假OTU

seqs.fna 为输入文件

PE250_P5.fa 为出口文件

cutadapt -g AACMGGATTAGATACCCKG -a GGAAGGTGGGGATGACGT -e 0.15 -m 300 --discard-untrimmed temp/PE250_split/seqs.fna -o temp/PE250_P5.fa

程序运行结果会当屏幕上输出结果总结报告,如错过解比例、去丢了少系列比例分外;还有去引物的长分布,看看有无发深。如3’端系列没有获反往互补会不能去19bp系列,而是几乎bp的不当体系。

 

Cutadapt结果告知

This is cutadapt 1.14 with Python 3.6.1
Command line parameters: -g AACMGGATTAGATACCCKG -a GGAAGGTGGGGATGACGT
-e 0.15 -m 300 –discard-untrimmed temp/PE250_split/seqs.fna -o
temp/PE250_P5.fa
Trimming 2 adapters with at most 15.0% errors in single-end mode …
Finished in 73.83 s (58 us/read; 1.04 M reads/minute).

=== Summary ===

Total reads processed: 1,277,436
Reads with adapters: 1,277,194 (100.0%)
Reads that were too short: 8,849 (0.7%)
Reads written (passing filters): 1,268,345 (99.3%)

Total basepairs processed: 522,379,897 bp
Total written (filtered): 495,607,409 bp (94.9%)

=== Adapter 1 ===

Sequence: GGAAGGTGGGGATGACGT; Type: regular 3′; Length: 18; Trimmed:
202757 times.

No. of allowed errors:
0-5 bp: 0; 6-12 bp: 1; 13-18 bp: 2

Bases preceding removed adapters:
A: 96.3%
C: 1.5%
G: 0.8%
T: 1.3%
none/other: 0.0%
WARNING:
The adapter is preceded by “A” extremely often.
The provided adapter sequence may be incomplete.
To fix the problem, add “A” to the beginning of the adapter sequence.

Overview of removed sequences
length count expect max.err error counts
3 3 19959.9 0 3
4 4 4990.0 0 4
6 2 311.9 0 2
8 1 19.5 1 1
11 1 0.3 1 1
13 1 0.0 1 1
15 9 0.0 2 9
17 42 0.0 2 42
18 202626 0.0 2 202626
19 56 0.0 2 56
20 1 0.0 2 1
21 1 0.0 2 1
32 1 0.0 2 1
38 1 0.0 2 1
39 1 0.0 2 1
41 1 0.0 2 1
309 2 0.0 2 2
310 1 0.0 2 1
311 3 0.0 2 3

=== Adapter 2 ===

Sequence: AACMGGATTAGATACCCKG; Type: regular 5′; Length: 19; Trimmed:
1074437 times.

No. of allowed errors:
0-5 bp: 0; 6-12 bp: 1; 13-19 bp: 2

Overview of removed sequences
length count expect max.err error counts
3 2 19959.9 0 2
7 1 78.0 1 0 1
8 2 19.5 1 1 1
10 6 1.2 1 4 2
11 1 0.3 1 1
12 3 0.1 1 2 1
13 5 0.0 1 3 2
14 24 0.0 2 17 7
15 51 0.0 2 32 14 5
16 71 0.0 2 56 12 3
17 134 0.0 2 92 30 12
18 327 0.0 2 189 117 21
19 1059175 0.0 2 1056863 2069 243
20 13846 0.0 2 1817 10955 1074
21 744 0.0 2 5 10 729
22 1 0.0 2 1
23 2 0.0 2 2
24 1 0.0 2 1
25 2 0.0 2 2
27 5 0.0 2 5
28 2 0.0 2 2
29 2 0.0 2 2
30 1 0.0 2 1
31 2 0.0 2 2
32 10 0.0 2 10
49 1 0.0 2 1
51 1 0.0 2 1
166 1 0.0 2 1
291 6 0.0 2 6
401 2 0.0 2 2
409 1 0.0 2 1
443 1 0.0 2 1
460 2 0.0 2 2
465 2 0.0 2 2

WARNING:
One or more of your adapter sequences may be incomplete.
Please see the detailed output above.

相关文章