バイオ情報学とは,情報処理技術を活用して,生命科学における諸問題の解決を試みる研究分野である.本研究会は,バイオ情報学分野の研究者・学生に対して,研究発表や学術交流の場を提供し,この分野の発展に寄与することを目的に2005年に発足した.当初より,本研究会の活動の中心は,年間4回程度開催している研究発表会であるが,その様式はこの10年間に少しずつ変化してきた.
一番大きな変化といえば,関連研究会・学会との合同開催を積極的に推し進めたことである.特に,6月は沖縄科学技術大学院大学を会場として,数理モデルと問題解決研究会,および,電子情報通信学会ニューロコンピューティング研究会・情報論的学習理論と機械学習研究会との4研究会合同研究会を2014年より毎年開催するようになった.この合同研究会は,例年,50件程度の口頭発表と100名を超える参加者数を集め,小さな学会の全国大会レベルの学術集会となっている.また,9月には生命医薬情報学連合大会との連続開催を,3月には人工知能学会分子生物情報研究会およびオープンバイオ研究会との合同研究会を北陸先端科学技術大学院大学で開催している.研究発表会のほかにも,進化計算シンポジウム,バイオインフォマティクス技術者認定試験,国際ワークショップAdvances in Neuroinformaticsを後援・協賛し,学会内外との交流が一層活発になった.
一方で,研究会登録者数と発表件数が年々減少傾向となっている点(表1)は,本研究会が抱えている大きな課題である.その主な原因は,生命科学分野におけるインパクトファクタ重視の業績評価の流れであり,主要論文で新規性がより高く評価されるよう,フルペーパ相当の予稿提出が求められる対外発表が避けられるようになった点にあると推測される.そこで,2017年度より,ディスカッショントラックという新たな発表形態を設けた.この特徴は,図表なしの,演題・著者・研究概要のみを記した1ページの予稿だけ公表するだけでよく,学術論文や国際会議等で発表済みの研究の宣伝をしたり,データや結果がまだ得られていない萌芽研究のアイディアを紹介し,参加者から方法論や関連研究などについてアドバイスを受けたりする場となっていることである.
また,情報科学だけでなく,研究対象とする生物学の専門知識も習得しなければならないという分野特有の難しさも,学生・若手研究者に敬遠されがちな1つの要因である.彼らに対するインセンティブとして,良質な研究発表に対しては,会場による投票結果をもとに優秀プレゼンテーション賞(1開催あたり数件程度)を選出するようになった.以上の効果もあり,発表件数については回復の兆しを見せてきている.
生命科学分野における計測技術や情報インフラの急速な進展にともない,新たな研究トピックスも生まれてきている.ほんの一部であるが,そのいくつかをここでは紹介していきたい.
2000年半ば頃に,いわゆる次世代シーケンサが登場し,莫大な費用と時間をかけなくてもゲノム配列情報を得ることが可能になった.また,2003年には,ヒトゲノム計画が終了宣言され,研究者の興味は遺伝子配列の決定から,機能や疾患との関連へとシフトしてきた.このような時代の流れから出現した研究トピックの1つが,ゲノムワイド関連解析(Genome Wide Association Study;GWAS)である.GWASでは,個体間の形質の違い(たとえばある疾患が発症したか否かの違い)とDNA配列の違いを,特に一塩基多型(Single Nucleotide Polymorphism;SNP)に注目してゲノム全体にわたって比較することで,その形質の発現に関連する遺伝子の同定を試みる.群間の統計比較の問題となるため,多数の個体のゲノム配列情報を短時間で得られるようになったからこそできるようになった研究であるといえる.同時に,新たな問題も浮き彫りになる.ヒトの場合,SNPは遺伝子領域内でさえ約100万カ所存在すると考えられており,すべての候補領域を同時に統計比較しようとすると,多重検定による偽陽性率の増大が問題となる.同様の問題は,マイクロアレイやRNA-Seqなどの遺伝子発現量解析でも生じる.その問題を解決しようと,一定のファミリーワイズエラー率や偽陽性率を担保しながら,検出力を増大するため方法論や,機械学習の分類問題における変数選択や低次元の特徴抽出の問題として定式化し,その理論解や近似解を得るためのアルゴリズムが提案されてきた.
理化学研究所の「京」に代表されるように,高性能計算機(High Performance Computer;HPC)の発展が目覚ましい時代背景もあり,それを活用した創薬研究もバイオ情報学の1テーマとして発表されるようになってきた.創薬で鍵となるのは,病気の原因分子に結合し,その働きを抑える化合物をいかに効率良く発見するかである.最終的には,原因分子と候補化合物を混ぜ合わせ,その反応を実験で確認するといった作業が必要となるが,HPCの高性能化によって,精度の高い分子動力学シミュレーションが可能となり,実験すべき候補化合物をある程度絞り込むこと(バーチャル・スクリーニング)が可能になってきた.
また,実験によって効果の有無が確認された化合物のリストから,新規化合物となりうるかを機械学習によって予測しようという試みも提案されてきている.その方法論も,訓練データとして利用できる化合物リストの増加にともない,サポートベクタマシンから深層学習へとシフトしてきているようである.
バイオデータベースの整備とともに,バイオ情報学分野でも,ビッグデータ化は進んできており,それを活用したデータ駆動型研究の流行りはしばらく続くものと思われる.一方で,テーラーメイド医療に代表されるように,個人・個体差に注目した研究の流れもできつつある.生物を対象に,一個体からビッグデータと呼べるだけの試料を集積することは事実上困難である.事前知識を活用して,限られたデータからいかに有益な情報を抽出するかというスモールデータ研究も今後改めて見直されてくると思われる.
生命システムは,分子–細胞–組織–器官–個体という階層性があり,それぞれ空間的にも時間的にも異なるスケールを持っている.この多階層性が生命現象の面白い部分である一方で,研究対象として難しい部分でもある.そのため,従来は特定の階層に焦点を当てた研究が多かったが,循環器系や神経系では複数階層をつなぐシミュレーションを利用して,薬理動態をより詳細に調べようという研究も出現してきている.その高精度化に向けて,マルチスケール性を考慮した数値計算技法や,階層間の因果関係をプログラムとして容易に落とし込めるような情報表現とそのデータベース化は近々大きな進展を見せるかもしれない.
目次に戻る
All Rights Reserved, Copyright (C) Information Processing Society of Japan