maoring blog

このブログはセマンティックウェブ関連の技術的なあれこれを綴ったブログです。

希少疾病用医薬品・希少疾病用医療機器のデータをRDF化しよう。その1

はじめに

私が現在所属している医薬基盤研究所には希少疾病用医薬品・希少疾病用医療機器の開発の支援をしている部(研究振興部←もちろんその限りではない)がある。そこでは,希少疾病用医薬品・希少疾病用医療機器についての状況を把握し,それらのデータを管理している。
この一覧表に何が書いてあるのかというと,これらの医薬品はいつ認可がされたのか,助成期間がどのくらいなのか, 薬効は何か,指定を受けた会社はどこか,許可された販売者は何か,といったことが書かれている。
詳しくはこちら:希少疾病用医薬品指定品目一覧表希少疾病用医療機器指定品目一覧表

RDF化しよう

上記の表は定期的に(私の記憶が正しければ,3ヶ月に一度程度)更新されている。個人的には,重要なデータだと 思っているので,もっと活用できるように出来たら,と考えている。

どう活用するのか。

これらのデータを他の用途に使いたいと思った時に,現状では,htmlから無理やりcsvやExcel形式にして,利用するしか無い。そして,英語のデータも実はあるのだが,そもそも掲載されていない。それは,データを管理されている方が普段はプログラムを書かれるような方ではないというのと,ここでは,表になっているのだが,指定が取り消されたり,番号すら変更されたり,一つの指定品目が,別の疾患にも使えることが分かって分割されたり,見た目以上に複雑になっていくから,といった事情がある。(ノバルティスファーマの高血圧症治療薬の問題が最近取り沙汰されているが,一度認可された医薬品が,他の疾患にも使えるというのは,認可を出すことを考えても,現実的に売り出すことを考えても,メリットが大きいらしい。)まずは,何らかの形でもっと管理しやすい形にDB化,であろうが,それについては他の方にお任せしているので,とばすとして,私の方ではこれらのデータを,外部のデータと統合しやすい形(RDF)に変更しておこうということである。

何故活用したいのか。

何故,そんなことをするのか,ということだが,日本国外においては,化合物名や,薬,関連する研究や,関連する遺伝情報についてのRDF化が進んでいる。RDFについては,前回のエントリを参考にしていただくとして(もっといい説明をしたいのだけど,私も全容を把握しきれていないので,もう少し調査してから,きっと説明する(^_^;))この取組みが進むと,例えば,特定の化合物をピックアップした時に,それは,どの薬で使われているのか,どの国のどの会社で発売されているのか,その薬は世界中で,どのくらいの患者さんに使われているのか,最新の研究は何か,関連する論文は何か,ターゲットとなる遺伝子は何か,報告されている各国別の副作用は何か,などといった情報が一度に得られるようになる。現状では,一つ一つ調べるしかなかった統計的な情報等も,工夫次第で一度に得られるようになるわけだ。

で,具体的には,どうすんの?

RDF化されているデータについては,SPARQL というSQLチックなクエリー言語を用いると,欲しいデータをざざっと得られる。また,SPARQLや,他の手法を使って,繋げられたデータを得たり,活用しているウェブアプリケーションもポンポンと出てきているらしい。それについては,もう少し集まったら紹介するとして(←そんなのが多くてすまぬ。)今回はデータを提供する側として,RDF化を進めていきたいと思う。

ただ,この取組みを理想的に進めるとなると,それなりに骨が折れる。なぜかというと,それらのデータを綺麗につなげていく必要があるからだ。RDFの基本的な概念はグラフだ。そうだ,会話をイメージしよう。あなたが薬に詳しい日本人で,相手が薬に詳しい外国人だったとする。あなたの頭のなかには,その薬の化合物名,薬効,どの会社が出しているのか,現在販売されているのか,などなどといった超詳しい情報を持っていたとする。そして,同様の情報を外国人も持っていたとする。会話をする。そもそもある化合物名の外国名をあなたが知らなかったら,アウトだ。生真面目なコンピューターなら,なおさらアウトだ。ただ,この化合物が同一のものであることが分かり,あなたの頭の中の構造と相手の頭のなかの構造が超似ているとする。どちらかの言語が分かってしまえば,超話が通じる(きっと)。なんか,この例えは,図が無いとすごく辛いけど,頭のなかのグラフが似ていて,言語を統一してしまえば,かなりやりやすくなるというイメージはついた(と,思う。)

f:id:maoring:20130801173125p:plain

↑まさかの手書き(だって,PCで書くと時間かかるんだもん。そして,私の字の汚さが露呈する瞬間)

RDF化しよう

そんなこんなで,これらのデータをRDF化したいと思って,調査を開始している。我々のデータをRDF化すると,外国の希少疾病用医薬品についてRDF化していたり,それらの情報を得たいと思っている人に役に立つ。我々も頑張って工夫すれば,上記の質問を日本語で投げられるようになる。そのために身近なデータをRDF化していく。長くなったので続くっ。(このエントリはすぐ続きます!ごめんなさい。直感! microdata!! は,構成中です。)