Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

Visualization of life science research by using MeSH and GIS techniques

学術論文データベースから抽出・加工・蓄積したいくつかのデータおよび米国特許データベースからオリジナルに作成したサイエンスリンケージデータを対象として、研究助成機関の実務家や政策策定者が利用できるような可視化を試みました。なお、動画GIFには対応しておりませんので、推移を示すスライドの画像が動かず見づらいところがありますがご容赦ください。

  • Als Erste(r) kommentieren

Visualization of life science research by using MeSH and GIS techniques

  1. 1. ライフサイエンス分野研究動向の可視化 − 新たな医療分野の研究開発体制に向けての試み − 調 麻佐志
  2. 2. 本日の主旨 • 既存シソーラス(MeSH)を利用して、学術論文(ネットワーク データ)を2次元にマッピングしました。 – 研究トピックが概ねリーズナブルに配置。 – 研究トピック・領域が非専門家にも比較的容易に理解可能。 – ミクロ−(メソ)−マクロのマップを作成可能。 • (情報をネットワークのノードに付加して加工することで)オーバーレイにより – 量に関する指標の可視化 – 質に関する指標の可視化 – カテゴリの可視化 を行い、わかりやすい形で表現されました。 • お知恵をお貸しください。 – 実務・業務にどう使えますか? – どのような改善や情報の付加が必要ですか?
  3. 3. データ等について • 利用した論文書誌データ – 以下の2つの積集合 • WoS(SCI Ex)収録のDBY1992-2011年の論文(article, review, note, letter、article & proceedings paper) • PubMed収録のデータ(PY1991-2012) – 被引用数Top 1%論文等は2011年末時点のSCI EXデータを使った 独自集計に基づく • 利用した米国特許データ – 1992-2012年までに登録された実用特許 – 論文引用はfront pageのnon-patent referencesから同定。 • 数値や表現について – 本発表に限らず、科学計量学・文献計量学研究の成果として示され る数値や表現は一つの解釈の産物であり、それらが一意に定まるこ とは決してない。
  4. 4. ライフサイエンス研究のマッピング結果
  5. 5. ライフサイエンス研究のマッピング結果 看護・ ヘルスケア 精神医学・行動科学 脳・神経科学 診断・ 治療 代謝・生化学 分子生物学 酵素・ タンパク質 個別疾患 細菌・ウィルス・感染 免疫 幹細胞 薬理 病理 植物 医薬・生理学 関連科学 環境・生態 物質 公衆衛生 配列相同性 綺麗には分離していない領域 分析化学
  6. 6. 2000-10年の世界の論文数推移(分数カウント、3年移動平均) 量 実質的にあらゆる領域で論文数が増加世
  7. 7. 2時点比較 2000年(移動平均) 2010年(移動平均) 量 精神医学・行動科学、病理・診断技術、理論 モデル(システムバイオロジー?)、分析化学 ↑ 世
  8. 8. 2000-10年の日本の論文数推移(分数カウント) 量 停滞(変動が見られない)日
  9. 9. 2時点比較 2000年(移動平均) 2010年(移動平均) 量 配列相同性 ↓ 病理・診断技術、?、理論モデル、 幹細胞研究 ↑日
  10. 10. 2000−10年の日本の論文シェア推移(3年移動平均) 比 率 論文シェアの全体的な低下日
  11. 11. 同2時点比較 2000年(移動平均) 2010年(移動平均) 比 率 日
  12. 12. 米国特許に引用された論文数(相対値)の推移 2001年登録特許から11年登録特許まで 量 基礎研究が特許引用の対象 世
  13. 13. 2時点比較 2001年(移動平均) 2011年(移動平均) 量 診断技術、理論モデル ↑配列相同性 ↓ 技術動向の変化ではなく、単に 論文数の変化を反映している可 能性もある。科学・技術動向の変 化 世
  14. 14. 特許登録年に基づく(特許に引用された日本の論文数/全世界同)の推移 2001年登録特許から11年登録特許まで 質 引用数シェアは増加(過去の論文 シェアの賜物では?)日
  15. 15. 特許登録年に基づく(特許に引用された日本の論文/世界の論文)の2時点比較 2001年登録特許による引用(移動平均) 2011年登録特許による引用(移動平均) 質 日
  16. 16. 特許登録年に基づく日本の論文の特許被引用数の世界シェアの推移 2001年登録特許から11年登録特許まで 比 率 精神医学・行動科学を除けば、被引 用論文数と同様の傾向日
  17. 17. 特許登録年に基づく日本の論文の特許被引用数の世界シェアの2時点比較 2001年登録特許による引用数(移動平均) 2011年登録特許による引用数(移動平均) 比 率 日
  18. 18. 読み取れること • ライフサイエンス研究において – 世界の論文数は全ての領域で着実に増加 – 日本の論文シェアは、今世紀始めに、多くの、とくに基礎 研究分野で10%を超えるほど高かったものの、急激に低 下し、ほとんどの分野で日本の全分野平均(約6%)を多 少超える程度となった – 近年、米国特許による引用数が比較的増加している領域 は、病理・診断技術、理論モデル等。 – 被引用数、引用論文数、双方の観点で、米国特許による 日本の研究論文への引用が増えている。 近年の特許化進展 vs. 当該領域の論文数の増加 先見の明(特許化先取り) vs. 過去の栄光
  19. 19. 何のためにこのような可視化をするのか? 意思決定支援: 非専門家の、(直感的な)現状理解・問題発見を支援する 研究支援: 専門家にも(おそらく)見えない時間的/空間的な「全体」像 を描き、また潜在的な構造変化の手がかりを提供する コミュニケーション支援 専門家・非専門家のコミュニケーションメディアを構築する エビデンス: 評価業務や説明責任履行のためのエビデンスを作成する 弊害(ex. 平均化、数値化、2次元化の罠)を忘れてはいけない
  20. 20. 何をやったか? ライフサイエンス分野を統合的に分析するプラットフォームの開発 • SCI Ex=PubMed結合データベース Pubmed SCI Ex (WoS) 結合 MeSHターム • 構造化 • 理解が容易な キーワード群 NIHなどのファンディ ング情報 引用情報 →評価指標 謝辞情報 (2010~) 所属 →国/機関/セクタ USPTO IPC,PCT →分野、「重要性」 引用 1,200万件のPubMedレコード中、850万件をSCI Exと結合。
  21. 21. 非専門家(今回は私自身が「被験者」)にとって可視化 は研究動向や成果の把握のための重要なツール しかし、 – 可視化を実現するコスト/ハードルが高い – 情報richな図(とくにネットワーク図)を見ても、非 専門家が情報を抽出することが難しい – 適切なキーワード抽出が理解の鍵の一つ • 自然言語処理的なアプローチ(たとえば、SciSIPで実 施)はpromisingながら高コスト そこで…MeSHを活用 可視化における課題
  22. 22. MeSHとは… • Medical Subject Headings の頭文字であり、米国国立医学 図書館 (NLM) が定める生命科学用語集(シソーラス)である。 NLMがMEDLINEデータベースにおいて文献を管理する際、 文献の内容を表す適切な用語を10〜15個程度文献に付与 し、この用語により文献を検索・管理できるようにしているが、 このときMeSHの用語を用いる。(ウィキペディアより) • 文献内容を表す(階層構造を持つ)descriptor、および広く共 有される概念で修飾するqualifier(sub-heading)の2体系か らなる。 • qualifierはdescriptorと常に組み合わせて用いられるが、す べてのdescriptorにqualifierがつくわけではない(むしろ極少 数にしかつかない)
  23. 23. MeSH descriptorの階層構造 • 現バージョンでは最大11階層 – 上位2階層は文献には付与されない抽象的なもので、下位9階層が 付与される。 • 具体的な階層構造の例 (非常にわかりやすい) – 身体領域 Body Region • 四肢 Extremities – 下肢 Lower Extremity » 足 Foot » ヒト足先 Human Forefoot » つま先 Toe » 母趾 Hallux • 内容に対応する粒度(階層)のdescriptorのみが付与される ので、上位概念での集計・分析には再集計が必要。 – Lower Extremityは下肢全般を扱う論文にのみ付与されるので、母 趾のみを対象とする論文には、Lower Extremityが付与されない。下 肢のどこかを対象とする論文の同定には下位のdescriptorも統合。
  24. 24. 本プロジェクトにおける研究開発活動の統合 書誌情報 (SCI・米国 特許・ PubMed) MeSHを活用し た(ミクロ/マク ロ)研究動向の 可視化 NIHファンディ ングの分析 引用情報を活 用した評価と可 視化 特許を通じた 学術研究のイ ノベーションへ の貢献の評価 謝辞情報を活 用した本邦ファ ンディングプロ グラムの評価 NIHファンディ ングによる共著 ネットワークの 形成 統合的に可視化
  25. 25. 本プロジェクトにおける研究開発活動の統合 書誌情報 (SCI・米国 特許・ PubMed) MeSHを活用し た(ミクロ/マク ロ)研究動向の 可視化 NIHファンディ ングの分析 引用情報を活 用した評価と可 視化 特許を通じた 学術研究のイ ノベーションへ の貢献の評価 謝辞情報を活 用した本邦ファ ンディングプロ グラムの評価 NIHファンディ ングによる共著 ネットワークの 形成 本スライドに 含まれる内容 マクロ:ライフサイエンス ミクロ:多能性幹細胞
  26. 26. 本スライドの内容 • ライフサイエンス分野の時系列分析 • 本プロジェクトにおける位置づけ • MeSHの説明 • マクロ:ライフサイエンス分野の静的可視化 • 最新版のMeSH構造の利用によりカバレッジは740〜790万件へ – descriptor第二階層、descriptor第二階層×qualifierによ るmapping – descriptor第三階層上位500による可視化 • ミクロ:多能性幹細胞研究の可視化 – 全階層のdescriptorを活用した分析 • 今後の展開 ここまで済
  27. 27. ライフサイエンス ライフサイエンス分野の可視化
  28. 28. ライフサイエンス分野のmapping(第二階層記述子) 最初のmapと位置関係はほぼ同じ。中身もわかりやすいが、詳細さにかける
  29. 29. ライフサイエンス分野のmapping(第二階層記述子×修飾子) 中身が非常にわかりやすいが、あまりに似た項目が並び過ぎている。
  30. 30. どのマッピング手法が適切か、あるいは複数を併用すべきかは考えどこ ろではあるが…とりあえず1種類のmapで表現の可能性を探ってみる。
  31. 31. 1992−2011年延べのライフサイエンス分野における世界の論文分布 量 世
  32. 32. 同日本の論文分布 量 左(臨床、公衆衛生、精神医学・行動科学)が手薄い 日
  33. 33. 日本の論文シェア 比 率 日
  34. 34. 日本のトップ1%論文 量 基礎系がとくに多いが、病理・診断 や一部臨床、個別疾患なども 日
  35. 35. 日本のトップ1%論文比率/世界同比率 世界平均 質 日
  36. 36. 日本のトップ10%論文比率/世界同比率 世界平均 質 全体として世界平均に近づく日
  37. 37. 米国特許による平均引用数の分布 質 基礎系・研究系が特許引用数は多い世
  38. 38. 米国特許に引用された論文の割合(日)/同世界 世界平均 質 ・日本発の論文数が少ない非主流領域 以外では医薬・生理学が健闘。 ・論文数減少の効果に注意。 日
  39. 39. 米国特許による平均引用数(日)/同世界 世界平均 質 基礎系が相対的に弱いものの、 世界平均並以上 日
  40. 40. 読み取れること • 全体として基礎系の論文がより多く出版されている。 • 世界と比べても日本は基礎・研究系に集中している。 – 臨床系の英語論文(とくに症例報告等)が少ないことには理由もある ことに注意。 • 全体では基礎・研究系領域の論文が特許によく引用される • 日本の論文で相対的によく特許に引用されるのはヘルスケ アなど特許による引用数が少ない領域および(おそらく代謝・ 内分泌などに関する)医薬・生理学系と推定される領域。 • Top1%、Top10%論文の比率は領域によるが概ね世界平均 以下かせいぜい並。 日本のライフサイエンス研究、とくに基礎系 は危機的なのか? 研究産業の不在も関与しているかも?
  41. 41. 公的研究助成による論文出版(2010) 量 タンパク質!日
  42. 42. 内訳(2010年) 科研費 厚労科研費 量 タンパク質が中心ながら 幅広い領域 臨床・公衆衛生が意 外に少ない。 日
  43. 43. 内訳(2010年) JST NEDO 量 日
  44. 44. わが国の全論文に対する公的研究助成による論文のシェア(2010) 比 率 基礎・研究領域が高く、 個別疾患、臨床が手 薄。どの資金がこれら の研究を担うのか? 日
  45. 45. 同科研費論文シェア 比 率 公的助成全体と同様 の傾向。ただし、当然 ながらさらに基礎・研 究領域への傾斜。 日
  46. 46. 同厚労科研費論文シェア 比 率 精神医学・行動科学 の比率が目立つが、 一部の基礎系もつい でシェアが高い。個別 疾患、臨床が? 日
  47. 47. 同JST助成研究シェア 比 率 物質・材料、幹細胞・免疫、精神医学・行動科学日
  48. 48. 同NEDO助成研究シェア 比 率 物質、材料、関連科学日
  49. 49. 科研費論文シェア−厚労科研費シェア 比 較 ・基礎の科研費 ・臨床、公衆衛生の厚労科研費 ・基本的に科研費がドミナント 日
  50. 50. 読み取れること • 全体をみると、とくに基礎系の成果創出(論文出版)に公的 研究資金は貢献している。 – 特許による引用、top 1%、10 %論文の割合を見る限り、量に貢献し ても質は? • 取り上げた各助成機関はそれぞれの行動原理、役割に沿っ て、研究開発投資を行っている。 • とはいうものの、アウトプットからは公的研究資金(とりわけ 厚労科研費)による臨床研究、個別疾患研究への支援が手 薄にみえる。 – 臨床研究、個別疾患研究は経常費or民間資金で実施しているの か? – (一つの仮説ながら)資金提供側の問題というよりは、受け手側の問 題(基礎研究志向)ではないか?
  51. 51. 多能性幹細胞研究
  52. 52. 多能性幹細胞研究のマッピング結果
  53. 53. 多能性幹細胞研究のマッピング結果 ES細胞 iPS細胞 組織工 学 間葉系幹細胞 増殖・培養 再生医療 胚研究 神経 胚性腫瘍細胞 骨芽細胞遺伝子導入 実験動物 RT-PCR塩基配列 綺麗には分離していない領域 多能性幹細胞?
  54. 54. 世界の多能性幹細胞研究論文数(分数カウント) 量 世
  55. 55. 世界の多能性幹細胞研究論文数の推移(分数カウント) 量 ・間葉系幹細胞→増殖・培養= ES→その他技術→iPSと増加 ・組織工学は立ち上がったところ 世 2000-2010(3年移動平均)
  56. 56. 特許登録年ごとの米国特許に引用された多能性幹細胞論文の数 絶対数 相対数(各年の最上位を赤) 量 ・急激かつ多極的(間葉系、ES、iPSなど)な特許化が進行 ・胚性腫瘍細胞はピークを越えたか? 世 2001-2011年登録特許(3年移動平均)
  57. 57. 日本の論文シェア(1992-2011) 比 率 高い世界シェア日
  58. 58. 日本の論文シェアの推移 比 率 2005年以前は論文数が少なく ノイズが多い。 日 2000-2010(3年移動平均)
  59. 59. 同2時点比較 2005年 2010年 比 率 世界の急激な「キャッチアップ」によるシェアの低下 日
  60. 60. トップ1%論文比率/同世界 世界平均 質 全般に比率が低くみえるが、ES、iPSでは世界平均並以 上日
  61. 61. トップ10%論文比率/同世界 世界平均 質 極度に低いところが減る日
  62. 62. 米国特許に引用された論文比率(日)/世界同 スケール(legend)の違いに注意 質 日本の論文が特許によく引用 されている。 日
  63. 63. 特許登録年ごとの同推移 ・2007年頃以前は被引用数が少な くノイズが多い ・iPS、ES領域でよく引用されている。 質 日 2001-2011年登録特許 (3年移動平均)
  64. 64. 読み取れること • 多能性幹細胞研究領域では、日本は大いに、とくに量的な 存在感を発揮している。 • しかし、近年の世界のキャッチアップにより量的な存在感は 著しく低下した。 • Top1%、Top10%論文の比率はES、iPS、周辺分野のそれ ぞれ世界並を保っており、少なくとも他のライフサイエンス分 野、あるいは科学分野に優っている。ただし、増殖・培養に関 する研究が相対的に弱いようにみえる。 • 特許による引用も近年増えており、技術化に向けての鍵とな る研究成果を少なくとも過去には多く出している。 – (仮説ながら)特許による引用が多いことの理由に、自己引用(的なも の)があるかもしれないので、確認が必要(→将来の分析課題)。
  65. 65. 公的研究助成を得た多能性幹細胞研究論文数(分数カウント、2010) 量 ・ES→間葉系→iPS ・iPSが相対的に低いのは謝辞に出な い支援だからか? 日
  66. 66. 公的研究助成を得た多能性幹細胞研究論文のシェア(分数カウント、2010) 貢 献 おおむね5割以上が公的研究 助成を得ている。ライフサイエ ンス分野の基礎研究に共通す る特徴。 日
  67. 67. 科研費 論文数(分数カウント) 日本発論文に占めるシェア(分数カウント) 比 率 量 ・最大の資金提供者にして、幅広い支援。 日 日
  68. 68. JST 論文数(分数カウント) 日本発論文に占めるシェア(分数カウント) 比 率 量 ・傾斜のある支援 日 日
  69. 69. 厚労科研費 論文数(分数カウント) 日本発論文に占めるシェア(分数カウント) この時点では幹細胞研究においてマイナー 比 率 量 日 日
  70. 70. NEDO 論文数(分数カウント) 日本発論文に占めるシェア(分数カウント) DNA、下方制御(後天的ゲノム修飾のメ カニズムを活用した創薬基盤技術開発 PJ?) 電顕(創薬加速に向けたタンパク 質構造解析基盤技術開発PJ?) ・マイナーながら、独自の支援 比 率 量 日 日
  71. 71. 読み取れること • 多能性幹細胞研究は他のライフサイエンス領域の基礎研究 と同等に公的研究助成により支えられている。 • 各助成機関はそれぞれの特性にしたがって、独自の資金提 供パタンを示している。 • NEDOの助成には独自性があり、他の助成機関とはさほど バッティングしない領域にも注力している点で興味深い。 • 厚労科研はその(行政目的への貢献が問われるなどの)性 格上、多能性幹細胞研究にはあまり肩入れできていない/し ていないようにみえる。 – ただし、提供された資金額を確認していないので、結論にはまだ早い。
  72. 72. 今後の可視化に関する展開・やるべきこと • 調整等の作業 – パラメーターの調整 – さらに理解しやすい配置と表現の探索 • 新たな情報の付加 – 研究助成情報の充実 • 金額までわかればよいのだが… – 研究機関別の特徴抽出 – 引用特許の種別(ipcやpct)の表現 – 他国との比較(NIH、その他米国政府資金) • メソレベルマップ(精神医学、脳神経科学か?) – descriptorの集計レベルを調整すればよいと考えている • より詳細なミクロマップ(研究者支援) • 詳細ミクロからマクロの連続的な可視化 – 情報工学のスキルと文脈の扱いという2つの課題 • 潜在ユーザーからの要望への対応
  73. 73. 152-8552 東京都目黒区大岡山2-12-1 S6-5 東京工業大学大学院理工学研究科調研究室内 ファンディングプログラムの運営に資する科学計量学」プロジェクト RISTEXSCIENTOMETRICSPJ[アットマーク]GOOGLEGROUPS.COM ご清聴ありがとうございました。 コメント・ご提案を歓迎いたします。

×