bioinformatics year 2 homework 1
mkdir hw1
cd hw1
ln -s /usr/share/data-minor-bioinf/assembly/oil_R1.fastq
ln -s /usr/share/data-minor-bioinf/assembly/oil_R2.fastq
ln -s /usr/share/data-minor-bioinf/assembly/oilMP_S4_L001_R1_001.fastq
ln -s /usr/share/data-minor-bioinf/assembly/oilMP_S4_L001_R2_001.fastq
mkdir data
seqtk sample -s712 oil_R1.fastq 5000000 > R1.fq
seqtk sample -s712 oil_R2.fastq 5000000 > R2.fq
seqtk sample -s712 oilMP_S4_L001_R1_001.fastq 1500000 > MP_R1.fq
seqtk sample -s712 oilMP_S4_L001_R2_001.fastq 1500000 > MP_R2.fq
fastqc R1.fq R2.fq MP_R1.fq MP_R2.fq
paired-end:
mate-pairs:
MultiQC:
Обрежем адаптеры:
platanus_trim R1.fq R2.fq
platanus_internal_trim MP_R1.fq MP_R2.fq
Проверим насколько хорошо обрезались адаптеры с помощью MultiQC:
fastqc R1.fq.trimmed R2.fq.trimmed MP_R1.fq.int_trimmed MP_R2.fq.int_trimmed
multiqc .
До обрезания адаптеров:
После:
Соберём контиги:
platanus assemble -f R1.fq.trimmed R2.fq.trimmed -o Pxut 2> assemble.log
По получившейся сборке найдём статистику контигов
количество контигов: 608
длина всех контигов: 3924881
самый длинный контиг: 179307
n50 = 47797
Соберём скаффолды:
platanus scaffold -o Pxut -c Pxut_contig.fa -b Pxut_contigBubble.fa -IP1 R1.fq.trimmed R2.fq.trimmed -OP2 MP_R1.fq.int_trimmed MP_R2.fq.int_trimmed -t 4
По получившейся сборке найдём статистику скаффолдов:
количество скаффолдов: 67
длина всех скаффолдов: 3875453
самый длинный скаффолд: 3834102
n50 = 3834102\
Статистика самого длинного скаффолда
число гэпов: 62
общяя длина гэпов: 5890\
Уменьшим количество гэпов:
platanus gap_close -o Pxut -c Pxut_scaffold.fa -IP1 R1.fq.trimmed R2.fq.trimmed -OP2 MP_R1.fq.int_trimmed MP_R2.fq.int_trimmed -t 4
Получившаяся статистика:
количество скаффолдов: 67
длина всех скаффолдов: 3922240
самый длинный скаффолд: 3880490
n50 = 3880490\
Статистика самого длинного скаффолда:
число гэпов: 9
общяя длина гэпов: 1526
Если смотреть по BLASTу то это Thalassolituus oleivorans