生命医科学大容量データ技術研究チーム

研究紹介

 

生命医科学大容量データ技術研究チームでは、特に以下のテーマについて研究・開発を行っています。

(1) 一細胞レベルでの転写産物プロファイルを対象に共通の解析方法による再解析を行い提供することを目的とした、一細胞データベースSCPortalenの開発

一細胞レベルでの発現解析技術の発展により、一細胞転写産物のデータが様々な研究グループから公開されているが、これらは必要な付加情報(メタデータ)が欠損していたり、データ処理や解析の方法がまちまちで相互比較が困難という問題がある。そこで本研究室では、公開されている様々な一細胞レベルの転写産物データを取得・再処理し研究者へ提供することを目的としたデータベースSCPortalen を開発し、公開している (SCPortalen: Single-cell centric database)。現在はSCPortalenの高度化に向けて、様々な再解析結果の追加や、応用研究者の利用を想定したデータ探索の仕組みの構築などを目指している。

(2) 転写開始点リファレンスデータセットの構築

転写制御に関する様々なアノテーションデータを効率的に統合し、実験データとの比較をできるようにするため、転写制御に関するデータを転写開始点単位に集約して統合するのがよいと考えられる。しかしながら現在、転写開始点に関するリファレンスとなるようなデータセットはほとんど構築されていない。そこで本研究室では、転写開始点のリファレンスとなるデータセット (refTSS)を構築し、様々なアノテーション情報を付与したものを公開している(refTSS)。現在はこれらデータセットの拡張、維持、参照のためのインタフェースの開発を行っている。

(3) 大規模データ生産プロジェクトのためのData Coordination Centerの構築

FANTOMプロジェクトのような大規模なデータ生産プロジェクトで生産されるデータでは、データの品質を確保したり、データへのアクセスを提供するといったことを中心的に行う部門(Data Coordination Center)が重要な役割を演じる。そこで本研究室では、これまでFANTOM6プロジェクトやRIKEN Single-cell project 等の大規模データ生産プロジェクトで Data Coordination Centerを立ち上げ、運営やそのための技術開発を進めてきた。今後も引き続きこの活動を続けると共にこのような活動の重要性をアピールする。

(4) 高齢者サンプルや疾患サンプルを対象とした転写制御解析

これまで行ってきたデータ解析手法を応用研究に適用し、疾患等の転写制御機構の解明や、診断技術の構築を目指す。具体的には、高齢者の心血管疾患サンプルを対象に、転写プロファイルと診断記録を用いて転写制御メカニズムの解明を進めたり、顧みられない熱帯病(Neglected Tropical Diseases, NTDs)の一つである Mycetoma を対象に研究を行っている。