В первой части данной работы мы проводим анализ данных single cell RNA секвенирования. Данный анализ может быть полезен для кластеризации клеток по их экспрессии генов.
На входе у нас каунты из датасета https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE103967 для клеток CD45- EpCAM+ Данное исследование проводилось на геноме мыши и чтения картировались на mm9
Код выполнения работы: https://colab.research.google.com/drive/1r-uZIxYKka4ez_wqY4aUiIuInOsaNzgW?usp=sharing
После скачивания данных объеденили их в одну таблицу. Далее нормируем значения используя TPM. Выбор пал на TPM так как нам нужно сравнивать экспрессию между различными образцами, а не просто генами в одном образце и TPM для этого подходит лучше всего. Для его вычисления нам нужно вначале отнормировать на длину гена а затем на сумму всех отнормированных по длине гена значений в каждой клетке.
После нормировки построим heatmap Так как сортировка ещё не была проведена, на heatmap плохо видно различные группы клеток
Чтобы лучше увидеть кластеры построим UMAP и PCA
Вывод: на получившихся графиках отчётливо видны группы клеток с разной экспрессией генов что говорит о их функциональном различии
Во второй части работы мы сравнивем уровни экспресси подгруппы клеток mTEC-IV из прошлой части с bulk RNA-seq для целого тимуса мыши из статьи Meredith et al, 2015https://pubmed.ncbi.nlm.nih.gov/26237550/
Код для этой части лежит в том же питоновском ноутбуке https://colab.research.google.com/drive/1r-uZIxYKka4ez_wqY4aUiIuInOsaNzgW?usp=sharing А часть с DESeq2 в R ноутбуке https://colab.research.google.com/drive/1HfhYgYdV8fXGbi8Fy0Bm14e3nwwIRRB2?usp=sharing
Для начала нормализуем данные bulk таким же образом и считаем среднее по репликам. Для scRNA-seq также находим среднее TPM. Для сравнения я использовал те же маркерные гены из первой части. Результаты представлены в графиках ниже: чем ген ближе к линии y=x (красная линия на графике) тем билже его экспрессия между scRNA-seq и bulk
Вывод: как видно из графиков многие гены близки по экспресии, но где-то половина всё же значительно отличается. Это говорит о различии образцов bulk и single cell RNA-seq
DESeq2 много ругался на данные sc-RNAseq. Постарался это разрешить, но не уверен что анализ вышел правильным https://colab.research.google.com/drive/1HfhYgYdV8fXGbi8Fy0Bm14e3nwwIRRB2?usp=sharing
Надо было выбрать больше генов для сравнения, график был бы интереснее