Skip to content

Latest commit

 

History

History
52 lines (34 loc) · 4.29 KB

README.md

File metadata and controls

52 lines (34 loc) · 4.29 KB

hse_hw2_chip

В данной работе определим положение гистоновых меток используя данные CHIP-Seq эксперимента. Для анализа была выбрана метка H3K9ac клеточной линии человека DND-41. Весь код анализа в файле hw2.ibynb. Коллаб сопротивлялся, пришлось локально переделывать :(

Реплики эксперимента:

  1. ENCFF000APV
  2. ENCFF000APW

Контроль: ENCFF000AOG

Проверка качества исходных чтений

Прогнав все чтения через FastQC видим, что качество чтений высокое и обрезать адаптеры не нужно (файлы с полными отчётами в репозитории)

ENCFF000APV:

image image

ENCFF000APW:

image image

Контроль ENCFF000AOG:

image image

Выравнивание

В качестве последовательности на которую выравнивались чтения была взята 21 хромосома. Для выравнивания использовалась программа bowtie2

Результаты выравнивания:

File ID Reads Unique Non-Unique Non-Aligned
ENCFF000APV 34,841,863 863,424 3,209,628 30,768,811
ENCFF000APW 29,267,262 635,864 2,158,799 26,472,599
ENCFF000AOG 41,060,673 1,376,316 5,323,261 34,361,096

Процент выравниваний получился больше чем ожидалось при выравнивании на самую маленькую хромосому. Скорее всего часть чтений из других хромосом ошибочно выравнялись на выбранную. Чтобы этого избежать надо было выравнивать на весь геном, но это займёт слишком много времени. Для дальнейшего анализа будем использовать только уникально откартированные чтения.

Peak calling

Найдём пики испоьзуя macs2 и построим диграмму Венна для сравнения полученных пиков с пиками из ENCODE image image

Вывод: Как и ожидалось, лишь малая часть пиков находится в 21 хромосоме. Однако как видно из диаграмм, пересечение пиков не сильно большое. Скорее всего это из-за того что мы картировали лишь на одну хромосому - ошибочно откартированные чтения из других частей генома создали ложные пики, которые мы и видим на диграммах. Если посчитать отношение совпадающих пиков ко всем пикам в ENCODE, то выйдет ~1.5% (для обоих реплик), что как раз совпадает с размером 21 хромосомы по отношению ко всему геному. Ещё интересно что во второй реплике вышло меньше пиков (хотя она имеет лишь незначительно меньше ридов)