Skip to content

Latest commit

 

History

History
100 lines (60 loc) · 3.33 KB

README.md

File metadata and controls

100 lines (60 loc) · 3.33 KB

hse23_hw1

bioinformatics year 2 homework 1

mkdir hw1

cd hw1

ln -s /usr/share/data-minor-bioinf/assembly/oil_R1.fastq

ln -s /usr/share/data-minor-bioinf/assembly/oil_R2.fastq

ln -s /usr/share/data-minor-bioinf/assembly/oilMP_S4_L001_R1_001.fastq

ln -s /usr/share/data-minor-bioinf/assembly/oilMP_S4_L001_R2_001.fastq

mkdir data

seqtk sample -s712 oil_R1.fastq 5000000 > R1.fq

seqtk sample -s712 oil_R2.fastq 5000000 > R2.fq

seqtk sample -s712 oilMP_S4_L001_R1_001.fastq 1500000 > MP_R1.fq

seqtk sample -s712 oilMP_S4_L001_R2_001.fastq 1500000 > MP_R2.fq

fastqc R1.fq R2.fq MP_R1.fq MP_R2.fq

paired-end:

image image

mate-pairs:

image image

MultiQC:

image

Обрежем адаптеры: platanus_trim R1.fq R2.fq

platanus_internal_trim MP_R1.fq MP_R2.fq

Проверим насколько хорошо обрезались адаптеры с помощью MultiQC:

fastqc R1.fq.trimmed R2.fq.trimmed MP_R1.fq.int_trimmed MP_R2.fq.int_trimmed

multiqc .

До обрезания адаптеров:

image

После:

image

Соберём контиги:

platanus assemble -f R1.fq.trimmed R2.fq.trimmed -o Pxut 2> assemble.log

По получившейся сборке найдём статистику контигов
количество контигов: 608
длина всех контигов: 3924881
самый длинный контиг: 179307
n50 = 47797

Соберём скаффолды:
platanus scaffold -o Pxut -c Pxut_contig.fa -b Pxut_contigBubble.fa -IP1 R1.fq.trimmed R2.fq.trimmed -OP2 MP_R1.fq.int_trimmed MP_R2.fq.int_trimmed -t 4
По получившейся сборке найдём статистику скаффолдов:
количество скаффолдов: 67
длина всех скаффолдов: 3875453
самый длинный скаффолд: 3834102
n50 = 3834102\

Статистика самого длинного скаффолда

число гэпов: 62
общяя длина гэпов: 5890\

Уменьшим количество гэпов:
platanus gap_close -o Pxut -c Pxut_scaffold.fa -IP1 R1.fq.trimmed R2.fq.trimmed -OP2 MP_R1.fq.int_trimmed MP_R2.fq.int_trimmed -t 4

Получившаяся статистика:
количество скаффолдов: 67
длина всех скаффолдов: 3922240
самый длинный скаффолд: 3880490
n50 = 3880490\

Статистика самого длинного скаффолда:

число гэпов: 9
общяя длина гэпов: 1526

Если смотреть по BLASTу то это Thalassolituus oleivorans