不正疑惑渦中の東大医学部論文および東大分生研論文の告発内容を画像編集フリーソフトで確認する方法

インターネット上には真偽のはっきりしない様々な情報が氾濫しています。正反対の主張を目にしたとき、どちらを信じればよいのでしょうか?

東京大学は、この夏に2回にわたって届いた研究不正の告発書を受けて、規程に従って予備調査を行い、正式に調査に入ると9月20日に発表した。医学部を中心とした6つの研究室から出ている合計22本の論文で、不自然な点があるという。6つの研究室の主宰者は、いずれもその分野では名前の知れた大物教授ばかりだ。国から受けている研究費の額も大きい。 (ヤフーニュース 2016/10/15)

“This is a totally groundless and false accusation by a faceless complainant,” Kadowaki told ScienceInsider in an email. “We have absolute confidence in all of our data,” he wrote. (University of Tokyo to investigate data manipulation charges against six prominent research groups. Science News ScienceInsider By Dennis NormileSep. 20, 2016 , 10:45 AM)

告発文書には、論文の図のおかしさが言葉と図で説明されています。

  1. 告発文1 5cvq.pdf (12ページPDF はじめに~ 2016年8月14日)
  2. 告発文2 5cvr.pdf (5ページPDF 研究資金リスト 2016年8月14日)
  3. 告発文3.pdf (52ページPDF  不自然なデータの指摘 2016年8月14日)
  4. 追加の告発文 http://toudai20168.up.seesaa.net/image/E69DB1E5A4A7E5918AE799BAE7ACACE4BA8CE5BCBE20-20E382B3E38394E383BC.pdf (2016年8月29日)

 

報道でも、不正が疑われる図の解析手法について、説明があります。

ベクトルデータの図は、Adobe Illustratorなどの作図ソフトで開くと、誌面上では1枚に見えるグラフが、X軸、数字、棒グラフのデータの棒の枠、塗りつぶしにするための黒い長方形、エラーバーを構成する横棒と縦棒など、いくつもの構成要素(オブジェクト)から成り立っていることがわかる。そして、個々のオブジェクトをずらしたり、消したりできるのだ。告発の対象になった論文で、棒グラフのデータ本体の棒を横にずらしたり削除したりすると、エラーバーがデータの下に埋め込まれていた例が多数あった。また、本来であれば1枚の図であるはずなのに複数のパーツからできていたり、あるパーツを90度回転させると、別の図でのパーツに酷似していたりする。(論文不正の告発を受けた東京大学(2) その解析方法の衝撃 ヤフーニュース 2016/10/15

一次情報(オリジナルな情報)にアクセスできる場合には、真偽のほどを自分で判断することが可能です。しかし、告発された論文の図をウェブサイトで確認してみると、JPEG形式になっており、どうしてあのような解析ができたのかがわからない人もいるようです。自分も最初そうでしたし、ネット上でもそのような疑問を見かけました(897)。そこで、告発文書で指摘されている「棒グラフの背後に隠されたエラーバー」、および「使いまわされた同一のエラーバー」を実際に確認してみたいと思います。高価なアドビイラストレーターがなくても、フリーウェアで事足ります。どちらの主張が本当にgroundless(事実無根)なのか、ご自分の目で是非確かめてみてください。

 

用意するもの

  1. インターネットがつながるパソコン
  2. ベクター形式の図を取り扱える画像編集ソフト。Inkscape(インクスケープ)(無料)やアドビイラストレーター(有料)など。

 

手順

ベクター形式の図を含む論文PDFの入手

不正が疑われている論文のPDFを入手します。図単体のJPEGファイルは、ベクター形式でないため解析できません。必ず論文のPDFを入手してください。もちろんPDF中の画像がベクター形式でないような論文の場合、この解析は適用できません。

一つめの例として、告発文書で指摘された論文の一つ、Adiponectin and AdipoR1 regulate PGC-1α and mitochondria by Ca2+ and AMPK/SIRT1をみてみます。まずは、PDFをダウンロードします。

(例として用いた論文の図。解析のためには、このような図単体の画像ファイルではなく、論文全体のPDFに含まれる図を対象とする必要がある。)

 

画像編集ソフトで論文PDFを開く

この論文PDFをInkscapeで開きます。これで、図の個々のオブジェクトを編集できる状態になります。ただし、論文によっては図を構成するオブジェクトがグループ化されている場合もあるので、その場合は個々のオブジェクトがばらばらになるまで「グールプを解除」する必要があります。

それではいよいよ、バーグラフを構成するオブジェクトのうち、白色や黒色に塗られた部分に相当するオブジェクトを脇にどけてみます。今回の例では、棒グラフの枠の部分のオブジェクトと、内部のオブジェクトが重なって配置されていましたが、クリックを繰り返すことにより選択するオブジェクトを変更できました。

Fig.1a, bの白塗り、あるいは黒塗りのオブジェクトを上の方に全部ずらしてみると、告発文書の説明通り、エラーバーが棒グラフの中に深く埋もれている様子が露わになりました(下図)。

この論文のほかの棒グラフも同様に処理してみると、驚いたことに全てのグラフでこのようになっています。

 

2つめの例として、この論文HIF-1α-PDK1 axis-induced active glycolysis plays an essential role in macrophage migratory capacity見てみましょう。

 

告発文書によれば、この論文の図4のバーグラフでは、なんとエラーバーの長さが複数のグラフに対して2種類しかないそうです。先ほどと同様に論文のPDFファイルInkscapeで開きます。不自然な箇所の指摘は多数ありますが、とりあえず、Figure 4a i のグラフに絞ってみてみます。ここには9個の棒グラフおよびエラーバーがありますが、エラーバー以外を全て取り去り、「グループ解除」「グループ化」「整列」「配置」などを使って、エラーバーの高さがわかりやすいように整列させてみました(下図)。告発文書の指摘通り、9つのエラーバー(標準偏差)なのに、大きさが2種類しかありません。


(Semba et al., 2016 Nat Commun Fig.4a iで用いられていた9つのエラーバーを整列させたところ、高さが2種類しかない)

 

3つめの例として、東京大学分子細胞生物学研究所(分生研)からの論文Condensin association with histone H2A shapes mitotic chromosomes Fig.3dをみてみます。棒グラフの黒い部分を脇にどけてみると、おかしなエラーバーが現れます。図の説明によれば、Error bars represent s.e.m. (n=15 cells). ***,P<0.001. エラーバーはSEMだそうですが、やはり中に押し込んで短く見せかけています。

それだけでなく、上図3つのエラーバーを拡大して整列させてみると、大きさが同一で、しかもなぜかほんのわずか傾いていることがわかります。告発文書が指摘している通りでした。

 

考察

1番めの例のように、片側表示しているエラーバーが棒グラフの内側に入り込むなどということは、通常の論文図作成過程ではあり得ません。念のため、他の不正の疑いがない論文PDF中の棒グラフも試しましたが、このようなおかしなことは生じませんでした。この論文にはここで示した以外にも多数の棒グラフが含まれますが、ほぼ全てでエラーバーの陥没が認められました。エラーバーを短くして有意差があったかのように見せかける意図が伺われます。論文の主張を裏付けるはずの多数の実験データが、実はどれも”有意差無し”だったのだとしたら、実に衝撃的です。操作された図の多さからすると、「この実験で有意差が出てくれないと困る!」という切羽詰った動機によるものではなく、このような”作業”が常態化していることが伺われます。

2番目や3番目の例のように実験群のエラーバーがこんなふうに同一になることはあり得ません。標準偏差や標準誤差の計算すら端折って、コピペで同じエラーバーを使いまわしていることから、このような”作業”が常態化していることが伺われます。統計ソフトを使うと数値データからグラフを描くのはソフトが自動的にやってくれますので、エラーバーの位置や長さに関して手作業が介入する余地はありません。標準偏差や標準誤差の計算をはしょったどころか、計算に使うべき数値データがそもそも存在していなかった可能性すら考えられます。

 

 

結論

実験データを統計処理してグラフを描いた経験がある人であれば、これぞまさしくデータ捏造の動かぬ証拠と考えるのが普通でしょう。これがデータ捏造ではないというのであれば、東京大学の調査委員会や論文著者は、実験ノートを開示して実験が本当に行なわれていたことを示し、実験ノートに記載され図作成に用いられた全ての数値から有意差があることを計算してみせ、何の意図でどのような操作をすればこんなデタラメな図が作成できるのかを、研究者コミュニティおよび国民に対して早急に説明する必要があります。仮に、そういった情報の開示なしに「不正はありませんでした」と言われたところで、そんな根拠のない主張を受け入れる人はあまりいないでしょう。

 

このような不適切なデータを含む論文が、2016年8月14日付けの告発以来長期にわたって著者からの何の釈明もなく、訂正も撤回もされないまま現在に至るまで放置されています。非常に無責任な話です。何も知らない世界中の研究者らは今日もこの論文を読み、引用し続けていることが、論文のArticle metricsから伺えます。

 

追記(6月20日)

T大糖○△内科の論文著者の一人が「手作業でエクセル変換したらズレただけ」と釈明したというツイートを見かけました。仮にこの発言が真実だとすれば、この著者はズレる前のエラーバーの長さとズレた後のエラーバーの長さを見ていたということになります。研究者であれば実験結果のエラーバーの大きさは非常に気になることなので、これほど長さが変われば、気付かないはずがありません。そもそもここに手作業を入れる理由も全くありませんから、不必要な手作業のステップをわざわざ加えて、捏造したということでしょうか。仮に、気付かなかったという言い訳が出たとしても、質や量を考えればこれは「研究者としてわきまえるべき基本的な注意義務を著しく怠ったことによる捏造」(文科省ガイドラインPDF)に該当すると思います。また、エラーバーがズレたのかどうかは別にしても、実験ノートに記録されているデータに対して正しい検定方法を適用した場合に有意差があること、さらに、このエラーバーの長さも再現されることを示す責任が論文著者にはあります。また、そのような調査を行ったかどうかを国民に報告する責任が、東京大学の調査委員会にはあります。

 

参考

  1. 東京大学病院糖尿病・代謝内科(科長 門脇 孝 教授)
  2. 東京大学医学部附属病院 循環器内科(小室 一成 教授)
  3. 東京大学分子細胞生物学研究所 染色体動態研究分野 渡邊 嘉典 研究室

 

更新:20170621 解析例を2つ追加

同じカテゴリーの記事一覧