「 データ解析の手法 」 一覧

scRNAseq論文の図のtSNEて何?

  2018/06/20    データ解析の手法

単一細胞(シングルセル)の遺伝子発現を解析(トランスクリプトーム解析; RNA seq)の論文では、下図のような、t-SNEをプロットした図がよく登場します。 このtSNE1、tSNE2というのは一体何でしょうか? 生物学者は、細胞の種類がどれくらいあるのかを知るためのアプローチのひとつとして、個々の細胞内ではどんな遺伝子がどれくらいの量だけ発現(DNAからmRNAに転写されたり、さらにタンパク質に翻訳されたりすること)しているかを調べ、その結果に基づいてそれらの細胞を分類しようと考えます。 近年の急速な分析技術の進歩により、細胞や分子の性質を、集団の平均値としてではなく、一つひとつの細胞や分子の個性を維持したまま解析することが可能になりました。シングルセルRNA-seq解析では細胞集団の転写産物を1細胞ごとに網羅的に解析します。そのため、細胞集団を構成する細胞がどう分類できるかが未知のままでも、細胞集団を亜集団にクラスタリングして特徴を抽出することが可能です。(シングルセルRNA-seq解析 genble.com) もし仮に細胞には遺伝子がたったの2つしかなくて、遺伝子Xと遺伝子Yの発現量を調べるだけで個々の細胞のプロファイリングができてしまうとしたら、X「軸」とY「軸」の2次元平面上にひとつひとつの細胞の遺伝子発現量をプロットすれば、細胞の種類の数だけクラスターが現れるでしょうから、目で見てわかりやすく話は簡単です。 しかしヒトの遺伝子数は2万以上もあり、実験によって多数の遺伝子に関する発現量のデータが得られます。これらのデータをそれぞれの遺伝子「軸」に関してプロットした結果(=多次元空間に分布しているデータの様子)を、平面しか認識できない人間が「見る」ことはできません。そこで、個々の細胞が発現している複数の遺伝子の量のデータ(多次元データ)を、とある数学的な処方箋(t-SNE)を用いて2次元のデータに変換(次元の削減)してしまえば、個々の細胞を(tSNE1軸とtSNE2軸からなる)2次元平面上にプロットすることができて、どのようにクラスターをつくっているのか(=どんな種類の細胞があるのか)その様子が見やすくなります。   t-SNE(てぃー すにー)は何の略? t-distributed Stochastic Neighbor Embedding (t 分布型確率的近傍埋め込み)   t-SNEがどんなものかをざっくり言うと? a new technique called “t-SNE” that visualizes high-dimensional data by giving each datapoint a location in a two or three-dimensional map.  …