Category Archives: データ解析の手法

数量化1類、数量化2類、数量化3類、林知己夫の数量化理論

多変量解析の勉強をしていると、多変量解析の手法の種類として重回帰分析、判別分析などと並んで数量化1類、数量化2類という、不思議な響きの名前を見かけて気になっていました。実験で数値データを扱っている限り、数量化ナントカ類とは無縁ですが、質的研究の論文などで、数値ではあらわされないデータが絡んでいるときに使われている統計解析の手法だそうです。

数量化1類、数量化2類といった命名は本人によるものではないみたいですが、数量化理論と呼ばれるこの理論を構築したのは日本の統計学者だそうで、その名は林知己夫博士。名の読み方は、「ちきお」だそう。林知己夫博士は1918年6月7日生まれで、東京帝国大学理学部数学科を卒業し、統計数理研究所で研究生活を送り、1974年から1986年の間は統計数理研究所の所長を務め、2002年8月6日に死去されています。

 

数量化とは?

数量化とは, 質的なデータ(定量的に対する定質的なデータ, カテゴリカルなどとよばれる)に数量を与えて解析し, 科学的に目的を達成しようとする統計的方法である. ときに”林の数量化”とよばれ, 数量化I類, 数量化II類, 数量化III類, 数量化IV類と名付けられ‥

“数はものそのものに内在するものではなく,われわれが科学的に目的を達成するために与える道具である”

もとの測定と解析のための数量とを峻別して考えるのである. この考えかたが, これまでの科学的行きかたと異なっているので, 解りにくいかもしれない.

外的基準とは, “それを知ることがわれわれの目的である”という場合である. 推定, 予測という場合がこれに当たる. 外的基準がない場合は, 測定された要因(ファクター)の中から何か情報を掴み出したいという場合で, 分類(似たものあつめ)などがこれに当たる. いずれの場合も仮説・検証ではなく, 現象探索の構えである.

統計10話 第2話 数量化理論・数量化の方法とは何か 林 知己夫 文部省統計数理研究所)

 

林知己夫博士の哲学、研究、業績

主要な業績を紹介した記事を紹介。

データの科学には当然三つの相がある. 一つはデータをどう計画してとるか (design for dataという), どうデータを具体的に集めるか (collection of dataという), データにする解析(analysis on dataという)である。大事なことはこの三つの相において一貫した考え方一データによる現象の解明理解ということ一が貫流していなければならないことである。

(統計十話 第10話 探索的にデータを取扱うことの大切さ(No.2) データの科学の方法論 林 知己夫 文部省統計理研究所)

 

理論による現象の理解」という伝統的な科学的方法に対して「データによって現象を理解する」という主張を標榜され,その立場は数量化理論,行動計量学,データの科学として具現されました.

数量化の理論

  • 質的なデータを数量化することによって,複雑・曖昧な現象を計量的に理解・解明
  • 1940 年代~数量化理論の開発
  • 数量化第 I 類,第 II 類,第 III 類,第 IV 類は,「日本人の読み書き能力調査」や「仮釈放」などの具体的問題に関連し, 質的データの予測,パターン分類,判別,分類の問題を解決する過程で開発

日本人の国民性に関する統計的研究

  • 1948 年「日本人の読み書き能力調査」
  • 日本人の価値観心情の変遷を実証的に捉えるため,1953 年以来,国民性の調査として研究調査を5年間隔で実施し,世界にも類例を見ない50年にわたる継続調査を実現
  • 計量的文明論ともいえる分野と分析法を確立

意識の国際比較方法論の研究

  • 日本人とハワイ日系人との比較調査
  • 日米比較調査
  • 異なる国における意識調査結果の比較を可能にする「連鎖的比較調査分析法」を開発

動く調査対象集団での標本調査理論

  • 調査対象が移動して、動物個体数調査が実施困難な例として、野うさぎの個体数推定の問題を研究。冬期に山林の雪上に残る野うさぎの足跡を調査し,幾何確率に基づくモデルを用いて推定する新しい方法を開発

(参照:統計数理(2002) 第 50 巻 第 2 号 111–116 林 知己夫先生を悼む 統計数理研究所長 北川 源四郎)

  1. 戦後日本の統計学の発達ー数廊下理論の形成から定着へー 行動計量学32(1):45-67.(2005) 森本栄一
  2. 林知己夫先生の研究の一側面(2) 多次元データ解析から分類へ、そしてデータの科学に向けて 統計数理研究所・名誉教授 大隅 昇 TASC MONTHLY 2005.5
  3. 対応分析法・数量化法III類の考え方 テキスト・マイニング研究会 第3回WordMiner活用セミナー 2005年5月19日-20日 於 統計数理研究所 大隅 昇
  4. 林 知己夫先生を悼む 統計数理研究所長 北川 源四郎)統計数理(2002) 第 50 巻 第 2 号 111–116

 

林知己夫博士のインタビュー

  1. 科学史と科学者 行動計量学31(2):107-124.(2004)

 

林知己夫博士の編著書

(書籍タイトルはアマゾンへのリンク)

  1. 林 知己夫(編)『社会調査ハンドブック (新装版)』 2017年04月25日 朝倉書店 ISBN:978-4-254-12225-1 *2002年刊行書籍の再刊 目次 1. 社会調査の目的―効用と限界 2. 社会調査の対象の決定 3. データ獲得法 3.1 調査のための調査対象集団(ユニバース)・母集団の決定 3.2 各種標本抽出法とその使い方 3.3 層別2段サンプリングの実施例とサンプリングの誤差等の計算例 3.4 標本設計と実施における調査誤差 3.5 調査の誤差 4. 各種の調査法とそれを行う方法 4.1 面接 4.2 留置き(自記式)配布回収法 4.3 郵送調査法 4.4 電話 4.5 インターネット調査 4.6 その他1(機械による調査) 4.7 その他2(集合・出口・街頭・購買者等) 5. 各種の調査デザイン 5.1 個人調査・事業体調査 5.2 断面調査,時系列・継続調査 5.3 パネル調査 5.4 before-after,split-half 5.5 その他の調査法 5.6 国際比較 6. 質問・質問票のつくり方 6.1 質問文 6.2 調査票 6.3 質問票の信頼性 7. 調査実施 7.1 調査実施作業の流れ 7.2 調査実施仕様明細の作成 7.3 調査員の募集・配置・指導・監査・援助 7.4 調査相手との交信 7.5 関係官庁,関係団体との関係 7.6 調査実施記録の作成 7.7 回答票のデータ化作業 8. データの質の検討 8.1 データの審査 8.2 論理的チェック(logicalcheck) 8.3 non-response 8.4 回答のゆれと“うそ” 8.5 調査法による差の把握 9. 分析に入る前に 9.1 コーディング 9.2 自由回答のコーディング,「その他」の取り扱い 9.3 データの表現 10. 分析 10.1 全体を読む(III類の活用) 10.2 自由回答の分析 10.3 単純集計,属性別分析,相関表分析,コウホート分析 10.4 多次元データ解析の重要性,interactionのこと 10.5 数量化 10.6 その他のカテゴリカルデータ解析 10.7 推定・検定 11. データの共同利用 11.1 データオーガニゼーションの重要性とあり方 11.2 コードブック,共通ファイルのつくり方 12. 報告書 12.1 構想と要約 12.2 調査論文の書き方 12.3 報告書の書き方 12.4 何の表を付けるか 13. 実際の調査例 13.1 社会調査 13.2 世論調査 13.3 有識者調査 13.4 自治体の行う調査 13.5 選挙調査 13.6 市場調査 13.7 質的調査と量的調査 13.8 NHKの放送世論調査 13.9 視聴率調査 13.10 新聞広告と調査
  2. 林 知己夫, 鈴木 達三『社会調査と数量化 増補版 国際比較におけるデータの科学』 (岩波オンデマンドブックス) 2014年1月10日  岩波書店 *初版は1986年6月24日
  3. 林知己夫『調査の科学』 (ちくま学芸文庫)  2011年5月12日 筑摩書房 目次 序章 社会調査の心 第1章 社会調査の論理 第2章 調査の基本―標本調査の考え方 第3章 質問の仕方の科学 第4章 調査実施の科学 第5章 データ分析のロジック 第6章 調査結果をどう使うか
  4. 科学を考える 科学基礎論』林知己夫著作集編集委員会 編2004年12月 ISBN:978-4-585-05141-1
  5. 部分から全体を サンプリング・調査法』林知己夫著作集〈第2巻〉林知己夫著作集編集委員会 編 2004年12月 ISBN:978-4-585-05142-8
  6.  『教育を考える』林知己夫著作集〈第13巻〉林知己夫著作集編集委員会 編2004年12月 ISBN:978-4-585-05153-4
  7. 健康を測る』林知己夫著作集〈第12巻〉林知己夫著作集編集委員会 編 2004年12月
    ISBN:978-4-585-05152-7
  8. 現象をさぐる データの科学』林知己夫著作集編集委員会 編 2004年12月
    ISBN:978-4-585-05144-2
  9. 心を比べる 意識の国際比較』林知己夫著作集編集委員会 編 2004年12月
    ISBN:978-4-585-05146-6
  10. 心を測る 日本人の国民性』林知己夫著作集編集委員会 編 2004年12月
    ISBN:978-4-585-05145-9
  11. 市場を測る』林知己夫著作集編集委員会 編 2004年12月
    ISBN:978-4-585-05150-3
  12. 質を測る 数量化理論』林知己夫著作集〈第3巻〉林知己夫著作集編集委員会 編 2004年12月 ISBN:978-4-585-05143-5
  13. 社会を測る』林知己夫著作集編集委員会 編 2004年12月
    ISBN:978-4-585-05149-7
  14. 政治を測る 政治意識・選挙予測』林知己夫著作集編集委員会 編 2004年12月
    ISBN:978-4-585-05147-3
  15. 世論を測る』林知己夫著作集編集委員会 編 2004年12月
    ISBN:978-4-585-05148-0
  16. 野うさぎを数える 森林・動物・自然』林知己夫著作集編集委員会 編 2004年12月 ISBN:978-4-585-05151-0
  17. 人との出会い』林知己夫著作集〈第14巻〉林知己夫著作集編集委員会 編 2004年12月 ISBN:978-4-585-05154-1
  18. 未来を祭れ』林知己夫著作集〈第15巻〉林知己夫著作集編集委員会 編 2004年12月 ISBN:978-4-585-05155-8
  19. 林知己夫著作集 全十五巻 林知己夫著作集編集委員会 編 ISBN:978-4-585-05100-8 「データの科学(Data Science)」の提唱 多岐ジャンルにわたる1,500編超の全著作から、550編余を厳選収録! 全15巻セット 01 科学を考える―科学基礎論― [科学基礎論] 02 部分から全体を―サンプリング・調査法― [サンプリング][調査方法] 03 質を測る―数量化理論― [数量化理論] 04 現象をさぐる―データの科学― [分析手法][分類・データの科学] 05 心を測る―日本人の国民性― [日本人論] 06 心を比べる―意識の国際比較― [国際比較] 07 政治を測る―政治意識・選挙予測― [政治意識][選挙予測] 08 世論を測る [世論調査] 09 社会を測る [社会心理][言語][色彩][新聞][視聴率][広告] 10 市場を測る [市場調査] 11 野うさぎを数える―森林・動物・自然― [野兎][森林][自然] 12 健康を測る [健康・医療・福祉] 13 教育を考える [災害][教育][研究][科学] 14 人との出会い [人物交流] 15 未来を祭れ [随想][追悼]
  20. 林知己夫『データの科学』 (林知己夫編集 シリーズ データの科学 1) 2001年 朝倉書店
  21. 林 知己夫『数量化―理論と方法』 (統計ライブラリー) 朝倉書店 1993年11月1日
  22. 林知己夫『行動計量学序説』 (行動計量学シリーズ 1)1993年 朝倉書店
  23. 林知己夫『データ解析法の進歩』 1988年 放送大学教育振興会
  24. 林知己夫, 鈴木達三『社会調査と数量化 : 国際比較におけるデータ解析』1986年 岩波書店
  25. 林 知己夫『データ解析法』 (放送大学教材) 1985年3月1日 放送大学教育振興会
  26. 林知己夫『調査の科学 : 社会調査の考え方と方法』 (ブルーバックス B-571) 1984年 講談社
  27. 林知己夫, 坂本賢三『あいまいさを科学する : トワイライト・カテゴリーへの招待』(ブルーバックス B-556) 1984年 講談社
  28. 林知己夫『多次元尺度解析法の実際』(サイエンスライブラリ統計学13) 1984年 サイエンス社
  29. 林知己夫『科学と常識』1982年4月1日 東洋経済新報社
  30. 林知己夫『確率と統計―基礎から応用まで』(テレビ大学講座) 1980年8月1日 旺文社
  31. 林知己夫『データ解析の考え方』 1977年6月1日 東洋経済新報社
  32. 林知己夫『数量化の方法』1974年1月1日 東洋経済新報社
  33. 林 知己夫『比較日本人論―日本とハワイの調査から』(中公新書) 1973年1月1日 中央公論社
  34. 林 知己夫, 樋口 伊佐夫, 駒沢 勉『情報処理と統計数理』(コンピュータ・サイエンス・シリーズ) 1970年1月1日 産業図書

参考

  1. 林知己夫(ウィキペディア)
  2. 勉誠出版 ホーム 研究書 自然科学 林知己夫著作集 全十五巻
  3. 統計十話 第7話 測定誤差・測定データの変動の評価なくして統計的分析の意味はない その 3 林 知 己 夫 文部省統計 理研究所 W’ Waves Vol. 2 No. 1 1996
  4. 統計十話 第8話 欠測値の問題 林 知己夫 文部省統計数理研究所 W’ Waves Vol. 3 No. 1 1997 21

 

 

リアルタイムPCRの原理、解析手法の概説、注意点などのまとめ

リアルタイムPCRは遺伝子発現量を調べる手法として今ではすっかり普通の実験になりましたが、いざ実験しようとすると再現性が悪かったり、そもそも、遺伝子発現量を議論する(絶対量?相対量?比較対象は何と何?)ためにはどういう実験デザインにしてどんな解析をすべきなのかが初心者にとってはすぐには明らかではなかったりもします。そこで、わかりやすい解説記事をまとめておきます。

 

リアルタイムPCRとは

リアルタイムPCR(real-time PCR)は、定量PCR(quantitative polymerase chain reaction)、qPCR、RT-qPCR (Reverse Transcription quantitative PCR)などとも呼ばれもので、PCR反応で生成されている産物の量を蛍光標識してリアルタイムに測定・記録することにより、指数関数的に増幅している部分を利用して鋳型の量を定量的に解析するものです。絶対的な量を算出するか、相対的なサンプル間の比を算出するかは、実験デザインと解析方法で変わってきます。

リアルタイム PCR は、定量的逆転写 PCR (RT-qPCR) や定量的 PCR (qPCR) としても知られますが、最もパワフルかつ高感度な遺伝子解析技術の一つです。… リアルタイム PCR は、PCR増幅が起こるそのタイミングから核酸の定量を行います。(リアルタイムPCR のコンセプト 遺伝子発現の概要:入門ガイド サーモフィッシャーサイエンティフィック)

 

リアルタイムPCRのデータ解析方法概説

  1. リアルタイムPCRの遺伝子発現解析をより正確に行うために(PDF)(日本バイオ・ラッド ラボラトリーズ株式会社 副島正年,井口潤一 yodosha.co.jp) 検量線を用いた相対的定量、比較Ct法(Livak法)、比較Ct法(Pfaffl法とVandesompele法)
  2. リアルタイム定量PC法の原理と活用 (PDF) (有賀博文 Nippon Suisan Gakkaishi 73(2):292-295 (2007).)PCR初期ではPCRの阻害となる要因がほとんど無いためPCRプロダクトは指数関数的に増幅する
  3. 絶対定量と比較定量の違いとは?リアルタイムPCRの主な4つのデータ解析方法(サーモフィッシャーサイエンティフィック)

  4. リアルタイムPCR再入門(PDF)(BIO-RAD)

 

検量線法(絶対定量法)

絶対定量法とは、あらかじめ濃度の分かっている目的産物のDNAを段階希釈し、希釈系列を用いてReal time PCRを行い検量線を書き、濃度不明のサンプルのCt値を検量線にあてはめコピー数を計算するものである。(リアルタイムPCR ウィキペディア)

  1. リアルタイムPCRによる多種細胞間の発現量の比較(Biotechnical Forum)

 

比較Ct法(相対定量法)

ΔΔCt法は、比較Ct法(comparative Ct method) 、2(-Delta Delta C(T)) Methodなどとも呼ばれます。Livak and Schmittgen 2001の論文で計算の過程が丁寧にわかりやすいく説明されています。

  1. Relative Quantitation Using Comparative CT Getting Started Guide (120-page PDF)ThermoFisher Scientific)
  2. 比較Ct法では,
    ⊿Ct=ターゲット遺伝子Ct-内在性コントロールCt(チューブ毎の値で算出)
    ⊿⊿C=各サンプル⊿Ct-基準サンプルの平均⊿Ct 
    得られた⊿⊿Ctを2^(-⊿⊿Ct)にあてはめてコピー数の比較を行う
    の3つの計算を行って比較します.(qPCRデータのまとめ方が分かりません。(2) YAHOO!JAPAN知恵袋)
  3. デルタデルタCT法でのthresholdの設定(Bio Technica lForum)
  4. 検量線をひかずに定量する比較Ct法の実験データ|今こそ本気で徹底理解! リアルタイムPCR講座 第14回(サーモフィッシャーサイエンティフィック)

ΔΔCt法と検量線法とどちらを使うべきか

  1. リアルタイムqPCRの定量化。ベターなのはどちら?(jikken110.com)

 

定量PCRにおいて遺伝子発現量を遺伝子間で比較することの是非に関して

  1. リアルタイムPCRで遺伝子間の発現量を比べることは可能か(Biotechnical Forum)
  2. How I can compare a relative ratio of the basal mRNA expression of 2 genes in the same cell line by qRT-PCR? (ResearchGate)

  3. Can I compare the expression of two genes only based on their Ct value? (ResearchGate)

  4. How to determine relative expression of genes compared to a reference gene using qPCR Ct values? (ResearchGate) I do not have treated and untreated samples. I just want to know how much of gene A is expressed relative to gene B and/or the reference gene.
  5. Is it possible to compare abundance of isoforms by qPCR(PROTOCOL ONLINE)

 

リアルタイムPCR実験の実際

  1. リアルタイム PCR の予備実験(PDF)(med.kyushu-u.ac.jp)リアルタイム PCR がなかなかうまくいかない、という方の中には予備実験をされてない方が多くいらっしゃいます。実際に大量のサンプルをかける前に、下記のことをご確認ください。

 

リアルタイムPCR実験のトラブルシューティング

  1. トラブルシューティング (PDF)(takara-bio.co.jp)
  2. これでもう失敗しない!リアルタイムPCRに失敗する4つの問題点と解決策をご紹介 (サーモフィッシャーサイエンティフィック)

 

リアルタイムPCRに関する参考ウェブサイト

  1. タカラバイオ リアルタイムPCR実験ガイド はじめてのリアルタイムPCR:リアルタイムPCRによる定量の原理、装置と検出方法、プライマー設計、実験プロトコール、解析方法 リアルタイムRT-PCRによる遺伝子発現解析:リアルタイムPCRの基礎知識,リアルタイムRT-PCR実験法,解析法,トラブルシューティング リアルタイムPCR実践編:プライマー設計ガイドライン, インターカレーター法によるリアルタイムRT-PCR(用意するもの、プロトコール、PCR反応条件、留意点) リアルタイムPCRの応用: 遺伝子発現解析,DNAマイクロアレイ結果の検証,siRNA効果の確認,病原菌遺伝子の検出・定量,SNPsのタイピング Q&A:リアルタイムPCR実験ガイドのQ&A
  2. バイオラッド リアルタイムPCR再入門(PDF)
  3. Relative quantification Michael W. Pfaffl in: Real-time PCR. Published by International University Line (Editor: T. Dorak), p 63-82
  4. https://www.gu.se/digitalAssets/1125/1125331_ABI_-_Guide_Relative_Quantification_using_realtime_PCR.pdf
  5. http://bioanalysisforum.jp/images/2018_9thJBFS/P6_DG2017-33.pdf

 

リアルタイムPCRデータの解析方法に関する論文

  1. An improvement of the 2ˆ(–delta delta CT) method for quantitative real-time polymerase chain reaction data analysis. Biostat Bioinforma Biomath. 2013 Aug; 3(3): 71–85. (PubMed PMC4280562)
  2. Livak and Schmittgen 2001 

 

Rで解析するリアルタイムPCRデータ

  1. Analysis of real-time qPCR data 2018-07-24 Mahmoud Ahmed

scRNAseq論文の図のtSNEて何?

単一細胞(シングルセル)の遺伝子発現を解析(トランスクリプトーム解析; RNA seq)の論文では、下図のような、t-SNEをプロットした図がよく登場します。

このtSNE1、tSNE2というのは一体何でしょうか?

生物学者は、細胞の種類がどれくらいあるのかを知るためのアプローチのひとつとして、個々の細胞内ではどんな遺伝子がどれくらいの量だけ発現(DNAからmRNAに転写されたり、さらにタンパク質に翻訳されたりすること)しているかを調べ、その結果に基づいてそれらの細胞を分類しようと考えます。

近年の急速な分析技術の進歩により、細胞や分子の性質を、集団の平均値としてではなく、一つひとつの細胞や分子の個性を維持したまま解析することが可能になりました。シングルセルRNA-seq解析では細胞集団の転写産物を1細胞ごとに網羅的に解析します。そのため、細胞集団を構成する細胞がどう分類できるかが未知のままでも、細胞集団を亜集団にクラスタリングして特徴を抽出することが可能です。(シングルセルRNA-seq解析 genble.com)

もし仮に細胞には遺伝子がたったの2つしかなくて、遺伝子Xと遺伝子Yの発現量を調べるだけで個々の細胞のプロファイリングができてしまうとしたら、X「軸」とY「軸」の2次元平面上にひとつひとつの細胞の遺伝子発現量をプロットすれば、細胞の種類の数だけクラスターが現れるでしょうから、目で見てわかりやすく話は簡単です。

しかしヒトの遺伝子数は2万以上もあり、実験によって多数の遺伝子に関する発現量のデータが得られます。これらのデータをそれぞれの遺伝子「軸」に関してプロットした結果(=多次元空間に分布しているデータの様子)を、平面しか認識できない人間が「見る」ことはできません。そこで、個々の細胞が発現している複数の遺伝子の量のデータ(多次元データ)を、とある数学的な処方箋(t-SNE)を用いて2次元のデータに変換(次元の削減)してしまえば、個々の細胞を(tSNE1軸とtSNE2軸からなる)2次元平面上にプロットすることができて、どのようにクラスターをつくっているのか(=どんな種類の細胞があるのか)その様子が見やすくなります。

 

t-SNE(てぃー すにー)は何の略?

t-distributed Stochastic Neighbor Embedding (t 分布型確率的近傍埋め込み)

 

t-SNEがどんなものかをざっくり言うと?

a new technique called “t-SNE” that visualizes high-dimensional data by giving each datapoint a location in a two or three-dimensional map.  (Maaten and Hinton, 2008 PDF)

この技術は、数百または数千次元のデータですら無理やり2次元の「マップ」に落とし込むという、ほとんど魔法のような能力を備えているために、機械学習の分野で幅広く普及しています。 (高次元のデータを可視化するt-SNEの効果的な使い方 DeepAge 2017-03-8)

上記サイトではパラメータを変えたときの結果を比較していて、非常に興味深いです。

 

t-SNEは誰がいつ考え付いたの?

Laurens van der Maaten & GEoffrey Hinton in 2008. (PDF at Hinton lab)

下の動画では、発案者Laurens van der Maaten氏本人によるt-SNEの解説が見られます。

Visualizing Data Using t-SNE Google Tech Talk June 24, 2013 (動画55:09)

 

 

t-SNEをもう少し詳しく説明すると?

このアルゴリズムの一番の特徴は、 2 点間の「近さ」を確率分布で表現するところにあります。例えば、点 x_i とそれ以外の全ての点との距離を考えましょう。t-SNE では、基準となる点 x_i を中心とした正規分布を考え、距離を測りたい点 x_j が抽出される確率密度を、点 x_i から見た点 x_j の近さ p_{j|i} とします。これにより、x_i の近くにある点ほど p_{j|i} は大きくなり、遠くにある点ほど p_{j|i} は小さくなります。次に、次元圧縮後の点 y_i と点 y_j の「近さ」 q_{j|i} を考えます。これらは、次元圧縮前の点 x_i と点 x_j に対応します。こちらも同様に確率分布で表現するのですが、次元圧縮後の近さは正規分布ではなく自由度 1 の t 分布で考えるところがミソです。(t-SNE を用いた次元圧縮方法のご紹介 ALBERT Official Blog 2015年12月2日)

(上記サイトでは、PCAとt-SNEとを画像データに適用した結果を図示しており、t-SNEのパワフルさが一目でわかります。Rのコードあり。)

 

次元削減の他の手法PCAなどとはどう違うの?

Most researchers are already familiar with another dimensionality reduction algorithm, Principle Components Analysis (PCA) also available in R2 and explained in more detail in the Principle Components Analysis tutorial. Both PCA and t-SNE reduce the dimension while maintaining the structure of high dimensional data, however, PCA can only capture linear structures. t-SNE on the other hand captures both linear and non-linear relations and preserves local distances in high dimensions while reducing the information to 2 dimensions (an XY plot). (16. t-SNE: high dimensionality reduction in R2 How to find groups in your dataset using t-SNE. r2-tutorials.readthedocs.io)

 

そもそもなぜ次元削減をする必要があるの?

Computers have no problem processing that many dimensions. However, we humans are limited to three dimensions. Computers still need us (thankfully), so we often need ways to effectively visualize high-dimensional data before handing it over to the computer. (An illustrated introduction to the t-SNE algorithm By Cyrille Rossant March 3, 2015)

(上記サイトはヴィジュアルに非常にわかりやすくt-SNEの説明をしています)

 

遺伝子解析にはなぜPCAよりもt-SNEが適しているの?

First, although PCA minimizes global reconstruction error, it may not preserve local proximities of points. In visualizing gene expression data, we are typically more interested in resolving nearby clusters than in preserving the correct distance relationships between genes with very different patterns of expression. But the optimization criterion of PCA results in the opposite priority: the relationship of distant points is depicted as accurately as possible, while small inter-point distances can be distorted. Second, there may be no single linear projection that gives a good view of the data: in such a case, all linear projection methods will fail. (An intuitive graphical visualization technique for the interrogation of transcriptome data. Bushati et al., 2011. Nucleic Acids Research Volume 39, Issue 17,Pages 7380–7389)

 

t-SNEの使い方の注意は?

Following are a few common fallacies to avoid while interpreting the results of t-SNE:

  1. For the algorithm to execute properly, the perplexity should be smaller than the number of points. Also, the suggested perplexity is in the range of (5 to 50)
  2. Sometimes, different runs with same hyper parameters may produce different results.

(Comprehensive Guide on t-SNE algorithm with implementation in R & Python
SAURABH.JAJU2, JANUARY 22, 2017)

 

t-SNEの短所は?

t-SNE has three potential weaknesses: (1) it is unclear how t-SNE performs on general dimensionality reduction tasks, (2) the relatively local nature of t-SNE makes it sensitive to the curse of the intrinsic dimensionality of the data, and (3) t-SNE is not guaranteed to converge to a global optimum of its cost function. (Maaten and Hinton, 2008 PDF)

 

ゲノムデータ(遺伝子発現プロファイルの解析)にt-SNEが使われるようになったのはいつ頃から?

自分が調べた限り、下記の論文よりも古い論文が見つかりませんでした。

Here, we test the recently developed nonlinear dimensionality reduction algorithm, t -statistic Stochastic Neighbor Embedding ( t -SNE) ( 8 ), on a variety of real-world transcriptome data sets. (An intuitive graphical visualization technique for the interrogation of transcriptome data. Nucleic Acids Res. 2011 Sep 1;39(17):7380-9.

We tested seven DRTs applied to four microarray cancer datasets and ran four clustering algorithms using the original and reduced datasets. … On the other hand, t-distributed Stochastic Embedding (t-SNE) and Laplacian Eigenmaps (LE) achieved good results for all datasets. (Comparative study on dimension reduction techniques for cluster analysis of microarray data. Date of Conference: 31 July-5 Aug. 2011 ieeexplore.ieee.org)

 

どんなデータに使えるの?

Question: why PCA for RNA-Seq but tSNE for scRNA-seq? (biostars.org)

Question: What to use: PCA or tSNE dimension reduction in DESeq2 analysis? (support.bioconductor.org)

 

t-SNEを実際に使うには?(生物学研究者向け)

Rを用いてt-SNE

A step-by-step workflow for low-level analysis of single-cell RNA-seq data with Bioconductor (bioconductor.org)

A step-by-step workflow for low-level analysis of single-cell RNA-seq data Aaron T.L. Lun, et al. F1000Research Software tool article

The Rtsne module in Array Studio will allow the user to cluster different cells with UMI counts, using the Rtsne package in R (arrayserver.com)

 

MATLABでt-SNE

t-SNE とは t-SNE (tsne) は、高次元データの可視化に適している次元削減アルゴリズムです。名前は、t-distributed Stochastic Neighbor Embedding (t 分布型確率的近傍埋め込み) を表します。考え方は、点の間の類似度が反映されるように高次元の点を低次元に埋め込む、というものです。高次元空間の近接点は低次元に埋め込まれた近接点に対応し、高次元空間の遠隔点は低次元に埋め込まれた遠隔点に対応します (一般に、高次元空間と低次元空間で正確に距離を一致させることは不可能です)。関数 tsne は、高次元データから低次元の点の集合を作成します。通常は、低次元の点を可視化して、元の高次元データにおける自然なクラスターを調べます。(Mathworks)

 

シングルセルRNA-seq解析の実際

Introduction to single-cell RNA-seq (hemberg-lab.github.io)

Seurat is an R package designed for QC, analysis, and exploration of single cell RNA-seq data. Seurat aims to enable users to identify and interpret sources of heterogeneity from single cell transcriptomic measurements, and to integrate diverse types of single cell data. (satijalab.org)

Identifying and Characterizing Subpopulations Using Single Cell RNA-seq Data (hms-dbmi.github.io)

 

シングルセルRNA-seqガイド

A practical guide to single-cell RNA-sequencing for biomedical research and clinical applications (Haque et al., Genome Med. 2017; 9: 75)

RNA-Seq 実験 sequencing depth の決め方 (bioinformatics 2017.06.10)

Design and Analysis of Single-Cell Sequencing Experiments. Grün et al., 2015 Cell Volume 163, Issue 4, 5 November 2015, Pages 799-810

Comparative Analysis of Single-Cell RNA Sequencing Methods. Ziegenhain et al., Molecular Cell 65, 631–643, February 16, 2017 (PDF)

 

t-SNEを説明した動画(一般)

t-SNE tutorial Part1 Divy Kangeyan 2017/05/26 に公開 (動画12:28)

 

参考

  1. t-SNE explained in plain javascript Nick Strayer· observablehsq.com Feb 6, 2018
  2. t-SNEによるイケてる次元圧縮&可視化 Qiita 2017年12月14日に投稿
  3. t-SNE(SlideShare)

  4. 【多様体学習】LLEとちょっとT-SNE hellocybernetics.tech
  5. t-SNEの結果をplotlyで3D可視化する MATHGRAM
  6. scikit-learnでt-SNE散布図を描いてみる ももいろテクノロジー
  7. https://www.rna-seqblog.com/tag/t-sne/
  8. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5845381/
  9. http://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1006599

 

参考(シングルセルRNA SEQデータの解析方法いろいろ)

  1. Visualization and analysis of single-cell RNA-seq data by kernel-based similarity learning. Bo Wang, Junjie Zhu, Emma Pierson, Daniele Ramazzotti & Serafim Batzoglou
    Nature Methods volume 14, pages 414–416 (2017) 新手法の提案 We present single-cell interpretation via multikernel learning (SIMLR), an analytic framework and software which learns a similarity measure from single-cell RNA-seq data in order to perform dimension reduction, clustering and visualization.  既存の手法との比較 On seven published data sets, we benchmark SIMLR against state-of-the-art methods.
  2. CIDR: Ultrafast and accurate clustering through imputation for single-cell RNA-seq data. Lin P, Troup M, Ho JW. Genome Biol. 2017 Mar 28;18(1):59. 新手法の提案 Most existing dimensionality reduction and clustering packages for single-cell RNA-seq (scRNA-seq) data deal with dropouts by heavy modeling and computational machinery. Here, we introduce CIDR (Clustering through Imputation and Dimensionality Reduction), an ultrafast algorithm that uses a novel yet very simple implicit imputation approach to alleviate the impact of dropouts in scRNA-seq data in a principled manner. 従来の手法t-SNEなどとの比較 Using a range of simulated and real data, we show that CIDR improves the standard principal component analysis and outperforms the state-of-the-art methods, namely t-SNE, ZIFA, and RaceID, in terms of clustering accuracy. 代表的な結果の図 
  3. Visualization and cellular hierarchy inference of single-cell data using SPADE. Anchang B, Hart TD, Bendall SC, Qiu P, Bjornson Z, Linderman M, Nolan GP, Plevritis SK. Nat Protoc. 2016 Jul;11(7):1264-79. 新たなデータ可視化手法の提案 we describe the use of Spanning-tree Progression Analysis of Density-normalized Events (SPADE), a density-based algorithm for visualizing single-cell data and enabling cellular hierarchy inference among subpopulations of similar cells. 別のデータ可視化手法であるt-SNEとの比較 We compare SPADE with recently developed single-cell visualization approaches based on the t-distribution stochastic neighborhood embedding (t-SNE) algorithm.

 

参考(t-SNEを用いた論文)

  1. Single-Cell RNA-Seq Reveals Hypothalamic Cell Diversity. Chen et al., 2017. Cell Reports Volume 18, Issue 13, p3227–3241
  2. SAIC: an iterative clustering approach for analysis of single cell RNA-seq data. Yang L, Liu J, Lu Q, Riggs AD, Wu X. BMC Genomics. 2017 Oct 3;18(Suppl 6):689. 解析の重要性 An important step in the singlecell transcriptome analysis is to identify distinct cell groups that have different gene expression patterns. 従来の手法の問題点 Many studies rely on principal component analysis (PCA) with arbitrary parameters to identify the genes that will be used to cluster the single cells. 新手法の提案 We have developed a novel algorithm, called SAIC (Single cell Analysis via Iterative Clustering), that identifies the optimal set of signature genes to separate single cells into distinct groups. データ可視化のステップでのt-SNEの利用 We applied the SAIC algorithm to one simulated dataset and two published single cell datasets. After signature genes selection, the results were evaluated by Davies-Bouldins index and then visualized using both a t-SNE 2D–plot and an unsupervised hierarchical clustering heatmap.

 

シングルセル解析二関連する製品(機器、試薬キット、解析ソフトウェアなど)

  1. Illumina 1細胞分離からデータ解析まで必要なものが1つにddSEQ™ Single-Cell Isolator とSureCell™ WTA 3′ Library Prep Kit により実現
  2. BD Rhapsody シングルセル解析システム 数万のシングルセルに対し数百の遺伝子を同時解析
  3. In the study (“Single-Cell RNA-Seq of Rheumatoid Arthritis Synovial Tissue Using Low-Cost Microfluidic Instrumentation”), published in Nature Communications, the researchers describe the 3D-printed custom device, which, along with its electronic and pneumatic components, can be obtained and assembled for a total cost of about $600. The device occupies a small footprint as well, not much larger than a tissue box. (genengnews.com)
  4. シングルセル解析は、1細胞レベルでmRNA解析を行うことで、細胞集団の平均的な解析ではなく、個々の細胞の変化を動的に追い、システマチックな理解へ繋げることが可能になる技術です。… 取得した配列データを参照ゲノム配列へマッピングし、適切なソフトウェアを用いて遺伝子発現定量解析を行います。得られた発現プロファイルにアノテーション情報を付与し、各種統計解析を行います。解析結果は、遺伝子の発現量をまとめたファイル、主成分分析(PCA)結果、t-SNE解析などをまとめて納品いたします。(シングルセルレベルでの遺伝子発現解析 ICELL8™ シングルセル解析 takara-bio.co.jp )

 

生命科学の他の分野におけるt-SNEの利用

人や動物の行動学の解析においてもt-SNEが用いられています。

  1. Comprehensive machine learning analysis of Hydra behavior reveals a stable basal behavioral repertoire. Han et al., 2018. eLife. 2018; 7: e32605.
  2. 【行動認識 #9】t-SNEをtensorboard(Embedding Visualization)で可視化 MotoJapan’s Tech-Memo 2017-09-04
  3. Automatic classification of behavior in zebrafish larvae. Jouary and Sumbre. bioRxiv May 10,2016
  4. Mapping the stereotyped behaviour of freely moving fruit flies. Berman et al., 2014. Journal of the Royal Society Interface