Skip to content

Latest commit

 

History

History
77 lines (47 loc) · 5.98 KB

README.md

File metadata and controls

77 lines (47 loc) · 5.98 KB

hse_hw3_chromhmm

В данной работе мы должны провести кластеризацию генома человека hg19 на основе данных экспериментов CHIPSeq для набора гистоновых меток. Клеточная линия была взята такая же как и в прошлом задании - DND41. Код выполнения работы лежит в коллабе - https://colab.research.google.com/drive/1OSQdkssUITPP3wPNLl6CGURyKppGjEbw?usp=sharing

На входе у нас 12 файлов с размеченными на hg19 пиками гистоновых меток. Взял 12 (больше нет) в надежде получить лучший результат кластеризации так как при 10 вышло не очень. Список файлов и меток:

H2az DND41_H2az.bam

H3k27ac DND41_H3k27ac.bam

H3k27me3 DND41_H3k27me3.bam

H3k36me3 DND41_H3k36me3.bam

H3k04me1 DND41_H3k04me1.bam

H3k04me2 DND41_H3k04me2.bam

H3k04me3 DND41_H3k04me3.bam

H3k79me2 DND41_H3k79me2.bam

H3k09ac DND41_H3k09ac.bam

H3k09me3 DND41_H3k09me3.bam

Контроль для всех экспериментов это файл DND41_Control.bam

Результат работы chromhmm для 10 состояний:

image image

Из графиков сразу видно что кластер 1 это insulator так как находится полностью на пиках CTCF.

Второй кластер это скорее всего polycomb repression так как по большей части находится на H3K27me3.

Кластер 4 похож на heterochromatin из-за H3K9me3.

В кластере 5 наиболее выражена метка H3K36me3. Если посмотреть на кластеризацию Encode на 15 состояний, то видно что они в таком случае определили это как transcriptional elongation image

6 кластер скорее всего это эказоны генов так как в нём много H3K36me3

С 7 клстером не уверен, пусть будет transcriptional transition

Кластер 8 является энхансером из-за H3K4me1

9 кластер скорее всего weak enchancer.

Промоутером является кластер 10 так как в нем больше всего H3K4me3 и он находится на CpG островке.

Рассчитаем дополнительные метрики, может станет понятней.

Cluster Distinctive Chromatin Modifications Cluster Size (bp) Average Length (bp) Genomic Coverage (%) Predicted Biological Function
1 CTCF 20,066,800 536 0.669 Insulator
2 H3K27me3 442,348,800 10,468 14.745 Polycomb-repressed regions
3 - 2,029,129,000 18,717 67.638 Unknown1
4 H3K27me3 49,520,000 1,811 1.651 Heterochromatin
5 H3K36me3 142,308,400 3,794 4.744 Transcriptional elongation
6 H3K79me2, H3K4me2 197,042,800 2,978 6.568 Unknown2
7 H3K79me2, H4K20me1 99,730,600 3,130 3.324 Transcriptional transition
8 H3K4me1, H3K27ac, H3K4me3 28,187,600 1,531 0.940 Strong enhancer
9 H3K4me1, H3K27ac 54,617,600 1,011 1.821 Weak enhancer
10 H3K4me2, H3K4me3, H3K27ac, H3K9ac 32,740,000 1,520 1.091 Promoter

Кластер 3 не имеет в себе никаких выроженых меток, скорее всего из-за малого числа меток в эксперементе алгоритм кластеризации отнёс всё что не смог распознать в этот кластер. Это подтверждается черезмерно большим процентом занимемого генома данным кластером

В файле DND41_10_dense.bed были замененты номера кластеров на предсказанные названия (файл получился больше 25 МБ и не поместился на гитхаб, но код для его воспроизведени есть в коллабе). Резальтат завписан в новый файл DND41_10_dense_named.bed. Финальный результат в геномном браузере:

image

Вывод

В ходе выполнения домашней работы мы кластеризовали геном на участки используя эпигенетические фактороы (гистоновые метки). У найденных кластеров была идентифицирована биологическая функция