Skip to content

JustKeonix/hse23_hw5

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 

Repository files navigation

hse23_hw5

Часть 1

В первой части данной работы мы проводим анализ данных single cell RNA секвенирования. Данный анализ может быть полезен для кластеризации клеток по их экспрессии генов.

На входе у нас каунты из датасета https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE103967 для клеток CD45- EpCAM+ Данное исследование проводилось на геноме мыши и чтения картировались на mm9

Код выполнения работы: https://colab.research.google.com/drive/1r-uZIxYKka4ez_wqY4aUiIuInOsaNzgW?usp=sharing

После скачивания данных объеденили их в одну таблицу. Далее нормируем значения используя TPM. Выбор пал на TPM так как нам нужно сравнивать экспрессию между различными образцами, а не просто генами в одном образце и TPM для этого подходит лучше всего. Для его вычисления нам нужно вначале отнормировать на длину гена а затем на сумму всех отнормированных по длине гена значений в каждой клетке.

После нормировки построим heatmap image Так как сортировка ещё не была проведена, на heatmap плохо видно различные группы клеток

Чтобы лучше увидеть кластеры построим UMAP и PCA image image

Вывод: на получившихся графиках отчётливо видны группы клеток с разной экспрессией генов что говорит о их функциональном различии

Часть 2

Во второй части работы мы сравнивем уровни экспресси подгруппы клеток mTEC-IV из прошлой части с bulk RNA-seq для целого тимуса мыши из статьи Meredith et al, 2015https://pubmed.ncbi.nlm.nih.gov/26237550/

Код для этой части лежит в том же питоновском ноутбуке https://colab.research.google.com/drive/1r-uZIxYKka4ez_wqY4aUiIuInOsaNzgW?usp=sharing А часть с DESeq2 в R ноутбуке https://colab.research.google.com/drive/1HfhYgYdV8fXGbi8Fy0Bm14e3nwwIRRB2?usp=sharing

Для начала нормализуем данные bulk таким же образом и считаем среднее по репликам. Для scRNA-seq также находим среднее TPM. Для сравнения я использовал те же маркерные гены из первой части. Результаты представлены в графиках ниже: чем ген ближе к линии y=x (красная линия на графике) тем билже его экспрессия между scRNA-seq и bulk

image

Больший масштаб график: image

Вывод: как видно из графиков многие гены близки по экспресии, но где-то половина всё же значительно отличается. Это говорит о различии образцов bulk и single cell RNA-seq

Результаты DESeq2

DESeq2 много ругался на данные sc-RNAseq. Постарался это разрешить, но не уверен что анализ вышел правильным https://colab.research.google.com/drive/1HfhYgYdV8fXGbi8Fy0Bm14e3nwwIRRB2?usp=sharing image

Надо было выбрать больше генов для сравнения, график был бы интереснее

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published