生命医科学大容量データ技術研究チーム

研究紹介

生命医科学大容量データ技術研究チームでは、特に以下のテーマについて研究・開発を行っている。

(1) 単一細胞レベルでの転写産物プロファイルを対象に共通の解析方法による再解析を行い提供することを目的とした、単一細胞データベースの開発

単一細胞レベルでの発現プロファイリング技術の向上により、単一細胞トランスクリプトームデータセットが世界中の多くの研究グループによって公開されている。しかしデータセットには重要なサポート情報 (メタデータ) が欠落している傾向があり、さらにさまざまなプロトコルや処理分析が使用されているため、データセットの比較やその後の解析への再利用が困難になっているという問題がある。この問題を解決するため、新しい品質評価ツールの開発(1-1)、解析パイプラインの検証(1-2)と公開データベースの開発(1-3)を行った。

(1-1) single-cell RNA-Seqデータに適用可能な品質評価ツール:SkewC の開発

single-cell RNA sequencing解析において、gene body coverage(検出できる遺伝子の転写領域範囲)は解析プロトコルごとに特徴があり、異なるプロトコル間では異なるプロファイルを持つ。SkewCは、各細胞のgene body coverageとその歪度に基づいて作成されており、gene body coverageの歪んだプロファイルを持つ細胞を識別、分離、削除することにより、誤ったクラスター化や誤ったクラスターを回避するように設計されている。これにより、プロトコルに関係なくあらゆるタイプのscRNA-seqデータセットを処理できるようになった。
https://doi.org/10.1016/j.isci.2022.103777
https://doi.org/10.1016/j.xpro.2022.102038

(1-2) 解析パイプラインの検証

配列解析技術の更新は著しいが、scRNA-seqの解析結果は解析手法によって大きな影響を受ける場合がある。私たちは解析に最適な方法を選択するため、scRNA-seq解析の最も主要なパイプラインである10xGenomicsのCell Rangerについて、その新旧バージョンのデータに与える影響を詳細に検証した。

(1-3) 新しい公共データベース:SCPortalen (Single-cell centric database) の開発

SCPortalenでは、さまざまなプロトコルからのデータをノーマライズし、誰でも簡単に検索できる構造化データベースを提供することができるように、公開された単一細胞データセットを収集し、メタデータのキュレーションや統合された計算パイプラインを使用したデータの再処理を行っている。新しいバージョンのSCPortalen2では、10x Genomicsのデータを組み込んでデータセットの数を拡張することや、5'末端の配列データを加えることに注力している。さらに、ヒトとマウスのscRNA-seqデータセットを検索するために、Single Cell Dataset Discovery (SCDD) interfaceを作成した。現在はSCPortalenの更なる高度化に向けて、新しいデータセットとquality control (QC) 方法の追加、データ検索の強化に取り組んでいる。
https://doi.org/10.1093/nar/gkx949

(2) 転写開始点リファレンスデータセットの構築

転写制御に関する様々なアノテーションデータを効率的に統合し、実験データとの比較をできるようにするため、転写制御に関するデータを転写開始点単位に集約して統合するのがよいと考えられる。しかしながら現在、転写開始点に関するリファレンスとなるようなデータセットはほとんど構築されていない。そこで本研究室では、転写開始点のリファレンスとなるデータセット (refTSS)を構築し、様々なアノテーション情報を付与したものを公開している(refTSS)。現在はこれらデータセットの拡張、維持、参照のためのインタフェースの開発を行っている。
https://doi.org/10.1016/j.jmb.2019.04.045

(3) 転写制御に関する統合データ基盤とシスエレメントデータベースの開発

転写制御に関する大規模データは多岐に渡り、これらのデータを統合的な活用が今後の転写制御機構理解には重要となっている。そこで、シスエレメント・トランス因子・エピゲノミクスデータを統合したデータ基盤である INTRARED を構築している。本データ基盤は fanta.bio と ChIP-Atlas の2つのデータベースで構成され、fanta.bio は同一染色体上で遺伝子の発現の調節に関与するゲノム中の領域であるシスエレメントの位置や細胞の種類・状態毎のシスエレメント活性状態を同定して収録したデータベースであり、ChIP-Atlas はシスエレメントに結合するトランス因子や関連するエピゲノミクス情報を提供するデータベースである。本研究室では INTRARED ならびに fanta.bio データベースの構築を共同研究により実施している。

(4) 大規模データ生産プロジェクトのためのデータコーディネーション

FANTOMプロジェクトのような大規模なデータ生産プロジェクトで生産されるデータでは、データの品質を確保したり、データへのアクセスを提供するといったことを中心的に行う部門(Data Coordination Center)が重要な役割を演じる。

(4-1) データコーディネーションセンターの構築・運用

そこで本研究室では、これまでFANTOM6プロジェクトやRIKEN Single-cell project 等の大規模データ生産プロジェクトでデータコーディネーションセンターを立ち上げ、運営やそのための技術開発を進めてきた。今後も引き続きこの活動を続けると共にこのような活動の重要性をアピールする。

(4-2) データ解析・共有システム: ZENBUプラットフォーム

ZENBU (https://fantom.gsc.riken.jp/zenbu/) は研究者が自分のデータを安全にアップロードし共有できる環境を整えたインタラクティブなウェブサイトで、オンデマンドなデータ処理と可視化を提供することによって、ユーザがBAMファイルを直接参照できるようにする強力なゲノム視覚化プラットフォームである。ZENBU genome browserでは、1つのトラック内で複数のデータファイルをマージして処理し、詳細な複数実験結果の視覚化を行うことができる。オンデマンド処理を提供することで、ZENBUは1つのアップロードされたデータを異なるトラックにさまざまな方法で視覚化することができる。ZENBUは、ゲノムアノテーション、発現を表すグラフやヒートマップ、相互作用を表す円弧や相互作用マップなど多くの視覚化のパレットも提供している。ZENBUはFANTOM5 projectの中で開発され、プロファイルされた2000近くの異なる組織や細胞の転写活性を1つのトラック内で処理し、同時に可視化することができる。ZENBU-Reportsは、ユーザによってアップロードされたデータに対し、ストレージを提供し、コラボレーターとの安全なデータの共有を行う一方、グラフィカルなインターフェイスを使うことでインタラクティブな科学ウェブポータルを作成するアプリケーションである。これは、supplementary websitesや論文、プレゼンテーションで使われるような科学的な視覚化を提供し、プロジェクトの期間中も結果公表の後でもどのタイミングであっても、データと解析結果の公開に役に立つことができる。ZENBUシステム全体の説明はZENBU-wikiで参照可能である。ZENBUを論文等で参照するときは下記の論文を引用されたい。

Severin J, Lizio M, Harshbarger J, Kawaji H, Daub CO, Hayashizaki Y; FANTOM Consortium, Bertin N, Forrest ARR: “Interactive visualization and analysis of large-scale sequencing datasets using ZENBU.” Nature Biotechnology 32(3): 217-219 (2014). PubMed ID 24727769.

(5) 高齢者サンプルや疾患サンプルを対象とした転写制御解析

これまで行ってきたデータ解析手法を応用研究に適用し、疾患等の転写制御機構の解明や、診断技術の構築を目指す。具体的には、高齢者の心血管疾患サンプルを対象に、転写プロファイルと診断記録を用いて転写制御メカニズムの解明を進めたり、顧みられない熱帯病(Neglected Tropical Diseases, NTDs)の一つである Mycetoma を対象に研究を行っている。

 

開発したリソース類

  1. ソフトウェア・ツール
  2. データベース