網羅的なRNAアトラスの基盤データを詳細に記述－FANTOM5によるオープンサイエンスを加速－

<要旨>
　理化学研究所（理研）予防医療・診断技術開発プログラムの川路英哉コーディネーター、林崎良英プログラムディレクター、ライフサイエンス技術基盤研究センター機能性ゲノム解析部門大容量データ管理技術開発ユニットの粕川雄也ユニットリーダー、トランスクリプトーム研究チームのピエロ・カルニンチチームリーダー、ゲノム情報解析チームのアリスター・フォレスト客員主管研究員らの共同研究グループは、「FANTOM5^[1]」で取得したトランスクリプトーム^[2]データの再利用を促進するため、データ取得のプロセスやデータの品質、取得後の計算処理結果などに関する詳細をまとめました。また、これを含むFANTOM5特集（FANTOM5 collection）の編纂を開始しました。
理研が主宰する国際コンソーシアム「FANTOM」は、ゲノムDNAから転写されるRNAの機能をカタログ化することを目的に2000年に発足しました。現在、第5期（FANTOM5：2009年～2017年）までの成果が論文やデータベースとして公開されています。FANTOM5では、ヒトとマウスを中心とした全6種類の生物を対象に、転写開始点^[3]の活性情報を一塩基単位で定量するCAGE法^[4]を含む全4種類の実験手法を用いてトランスクリプトームデータを取得しました。その解析結果はこれまでに、遺伝子発現制御部位のアトラス、長鎖ノンコーディングRNA（lncRNA）^[5]のアトラス、短鎖ノンコーディングRNAの一種であるマイクロRNA（miRNA）^[6]のアトラスとして報告しました。また、これらのアトラスやそのもととなったデータは、既にオープンデータとして世界中の研究者に広く公開されています。しかし、これまでのFANTOM5の報告はいずれもデータから得られた科学的発見を主眼とした論文であり、取得データそのものに焦点を当てたものではありませんでした。
そこで共同研究グループは、FANTOM5データを利用した知識の発見を促進するため、データ取得のプロセスやデータの品質、取得後の計算処理結果などの詳細をまとめました。また、今回の複数の報告は、Nature Publishing Groupから公開されるFANTOM5特集（FANTOM5 collection）としても編纂されます。本特集には、Nature誌やNature Biotechnology誌に掲載された多数の論文が含まれ、さらに今後公開が計画されているデータに関する報告や論文も追加されることが予定されています。 FANTOM5で取得したデータは、細胞の種類だけを考えても世界で類をみないものであることから、ライフサイエンスにおける基礎研究から医療を含む応用研究まで、幅広い方面でのさらなる活用が期待できます。
これらの研究は、米国のオンライン科学雑誌『Scientific Data』（8月29日付け）に掲載されました。また、FANTOM5特集は同日付でNature Publishing Groupのウェブサイトにおいて公開されました^注1)。
注1）http://www.nature.com/collections/fantom5

１．背景
　理研が主宰する国際コンソーシアム「FANTOM」は、ゲノムDNAから転写されるRNAの機能をカタログ化することを目的に2000年に発足しました。現在、第5期（「FANTOM5」：2009年～2017年）までの成果が論文やデータベースとして公開されています。FANTOM5では、ヒトとマウスを中心とした全6種類の生物を対象に、転写開始点の活性情報を一塩基単位で定量するCAGE法を含む全4種類の実験手法を用いてトランスクリプトームデータを取得しました。ヒトに関するこれまでのRNA解析は、ごく限定された数の細胞種や、複数種の細胞が混在したままの臓器を対象とするものがほとんどでしたが、FANTOM5ではヒトの正常な細胞180種類以上をはじめとするさまざまなサンプルを対象に、遺伝子発現制御部位の活性を網羅的に解析しました^注2,3）。また発現制御部位のほかにも、タンパク質をコードしないノンコーディングRNA（ncRNA）^[7]の網羅解析にも注力し、マイクロRNA（miRNA）や長鎖ノンコーディングRNA（lncRNA）について、それぞれの転写開始点や配列の特徴、組織や細胞種ごとの発現量などを網羅したmiRNA発現アトラス^注4）、ヒトlncRNAアトラス^注5）を報告しました。
FANTOM5のトランスクリプトームデータはヒトの構成単位である細胞を分子レベルで理解する上での重要な基盤となります。これらのアトラスを収録したデータベースやもととなった取得データは、既にオープンデータとして世界中の研究者に広く公開されていますが、これまでの報告はいずれもデータから得られた科学的発見を主眼とした論文であり、発見のもととなった取得データそのものに焦点を当てたものではありませんでした。
FANTOM5で取得した膨大なデータ自体も、その解析によって構築されたアトラスに加え、第三者による新しい発想に基づく研究へ活用されることが期待されます。FANTOM5のみならず、研究データの「再利用」に関する期待は、現在急速に高まりつつあり、科学界においてさまざまな試みがなされています。データそのものを対象とした報告（データディスクリプター）を掲載することで第三者によるデータの再利用を推進することは、そんな新しい試みの一つですが、これを目的に近年創刊された学術誌がScientific Data誌です。
注2）2014年3月27日プレスリリース「ゲノム上の遺伝子制御部位の活性を測定し正常細胞の状態を定義」
http://www.riken.jp/pr/press/2014/20140327_1/
注3）2015年2月13日プレスリリース「遺伝子制御部位の活性はエンハンサーが先行」
http://www.riken.jp/pr/press/2015/20150213_2/
注4）2017年3月2日プレスリリース「タンパク質をコードしないRNAをカタログ化」
http://www.riken.jp/pr/press/2017/20170302_1/
注5）2017年8月22日プレスリリース「マイクロRNAをより詳細にカタログ化」
http://www.riken.jp/pr/press/2017/20170822_1/

２．研究手法と成果
　データの再利用において、データ自体が利用可能な状態で公開されていることはもちろんですが、有効な活用や解釈には、データの関連情報が大きな助けとなります。そこで共同研究グループは、FANTOM5で取得したデータを対象に、データ取得のプロセスやデータの品質、取得後の計算処理結果などに関する詳細を複数のデータディスクリプターとしてまとめました（図1）。Scientific Data誌に掲載されるこれらの報告には、データに対する付加的な説明情報（メタデータ）も併せて掲載されます。メタデータは、数多くの公開データから適切なデータを見つけ出す索引として機能します。そのため、メタデータが付随することで、FANTOM5について事前知識のない研究者でもFANTOM5データを見つけ出し、研究に用いることが可能になります。
また、作成したデータディスクリプターには、約4,000ものヒトやマウスのサンプルから取得したCAGEデータに関する報告のほか、データの再処理や再解析に関する報告が含まれています。特に、取得データの再処理は、次々と発表される最新データとの比較を可能にする上で基盤となります。
例えば、世界中の研究者は互いに解析結果を比較できるように、共通したゲノム配列を基準（リファレンス）として用いますが、このリファレンスゲノム^[8]配列そのものも研究の進展に伴い更新されます。FANTOM5で取得したCAGEデータは、転写開始点の活性情報を一塩基単位で定量したものですが、これは当時最新だったヒトのリファレンスゲノム配列GRCh37/hg19とマウスのリファレンスゲノム配列NCBI37/mm9を基準としていました。2017年現在における最新のリファレンスゲノム配列は、それぞれGRCh38/hg38とGRCm38/mm10へと改訂されています。
そこで、取得したCAGEデータを用いて、最新のリファレンスゲノム配列を基準として転写開始活性を定量するデータ処理を行いました。そして、過去の処理結果と新しい処理結果を照らし合わせ、再処理後の定量結果とデータ公開時のものの一貫性を評価しました（図2）。これにより、データ公開時の品質を維持したまま、FANTOM5で取得したCAGEデータを現在も次々に蓄積されている最新のゲノミクスデータと比較することが可能になります。
最後に、今回の複数の報告は、Nature Publishing Groupから公開されるFANTOM5特集（FANTOM5 collection）の一部としても編纂されます。本特集にはNature誌やNature Biotechnology誌に掲載された各種アトラスに関する論文、Nature Publishing Group刊行の他学術誌に掲載された多数の論文も含まれており、今後公開が計画されているデータに関するデータディスクリプターも追加されることが予定されています。
なお、FANTOM5データを既に再利用した成果が、情報・システム研究機構のライフサイエンス統合データベースセンターと国立遺伝学研究所の共同研究により得られており、その論文はFANTOM5特集に含まれるデータディスクリプターと同日（8月29日）付でScientific Data誌に掲載されます^注6）。

注6）2017年8月30日　情報・システム研究機構　ライフサイエンス統合データベースセンター　プレスリリース「遺伝子発現解析の基準となるデータを快適に検索できるウェブツール『RefEx』を開発ー最大556個の臓器・細胞における遺伝子発現状況をワンタッチでー」　http://dbcls.rois.ac.jp/archives/3526

３．今後の期待
　共同研究グループは、FANTOM5データにおいて取得されたデータそのものを対象に、データ取得のプロセスやデータの品質、取得後の計算処理結果などに関する詳細をまとめました。データに対する付加的な説明情報（メタデータ）も付随するこれら報告によって、FANTOM5で取得したデータが生命科学の広範な分野において有効に活用されること、第三者や異分野の研究者によるオープンサイエンスの可能性を広げることが期待できます。

４．論文情報と関連リンク
＜タイトル＞
The FANTOM5 data series underpinning mammalian transcriptome atlases in diverse cell types.
＜著者名＞
Hideya Kawaji, Takeya Kasukawa, Alistair Forrest, Piero Carninci, and Yoshihide Hayashizaki
＜雑誌＞
Scientific Data
＜DOI＞
http://dx.doi.org/10.1038/sdata.2017.113

＜タイトル＞
FANTOM5 CAGE profiles of human and mouse reprocessed for GRCh38 and GRCm38 genome assemblies
＜著者名＞
Imad Abugessaisa, Shuhei Noguchi, Akira Hasegawa, Jayson Harshbarger, Atsushi Kondo, Marina Lizio, Jessica Severin, Piero Carninci, Hideya Kawaji, Takeya Kasukawa
＜雑誌＞
Scientific Data
＜DOI＞
http://dx.doi.org/10.1038/sdata.2017.107

＜タイトル＞
FANTOM5 CAGE profiles of human and mouse samples
＜著者名＞
Shuhei Noguchi, Takahiro Arakawa, Shiro Fukuda, Masaaki Furuno, Akira Hasegawa, Fumi Hori, Sachi Ishikawa-Kato, Kaoru Kaida, Ai Kaiho, Mutsumi Kanamori-Katayama, et al.
＜雑誌＞
Scientific Data
＜DOI＞
http://dx.doi.org/10.1038/sdata.2017.112

＜関連リンク＞
理化学研究所 | トピックス　「網羅的なRNAアトラスの基盤データを詳細に記述」
Scientific Data | 著者インタビュー　「FANTOM5データを誰でも活用できる形に」
Springer Nature | Data Dialogue　“Increasing usability of FANTOM5 data”

５．補足説明
[1] FANTOMコンソーシアム
FANTOMは理化学研究所が主宰する国際研究コンソーシアム。理研のマウスゲノム百科事典プロジェクトで収集された完全長cDNAの機能注釈（アノテーション）を行うことを目的に、理研ゲノム科学総合研究センターの林崎良英グループディレクター（現　予防医療・診断技術開発プログラムプログラムディレクター）が中心となり2000年に結成された。その成果は、iPS細胞（人工多能性幹細胞）の樹立研究など生命科学の広い分野に貢献している。5期目のプロジェクトとなるFANTOM5では、さまざまな哺乳類細胞のゲノム上の遺伝子制御部位の活性を測定し、転写状態やプロモーター活性の全容を明らかにする研究が進められた。現在のFANTOM6には20カ国、100以上の研究機関が参加し、ノンコーディングRNAの網羅的な機能解析に取り組んでいる。FANTOMは、Functional ANnoTation Of Mammalian genome の略。

[2] トランスクリプトーム
細胞内の全DNAの塩基配列情報を指す「ゲノム」に対し、細胞内の全転写産物（全RNA）をまとめてトランスクリプトームと呼ぶ。タンパク質の設計図となるmRNAよりもそれ以外のncRNAが多く存在することが明らかになり、それらの機能解析が進められている。

[3] 転写開始点
ゲノムDNAの塩基配列がRNAに転写される際、最初に写し取られる塩基。転写開始点の近傍は、遺伝子発現のタイミングや発現量の制御に重要な役割を持つ。

[4] CAGE法
理研が独自に開発した手法で、耐熱性逆転写酵素やmRNAのCap構造を捕捉する技術を組み合わせて転写産物の転写開始点の塩基配列を決定する実験手法。この塩基配列を読み取ってゲノム配列と照らし合わせて、どこから転写が始まっているかを調べることができる。遺伝子の転写開始点と転写量をゲノムワイドに同定できる。CAGE法により、一塩基単位でのプロモーター情報が分かり、エンハンサー、転写因子の予測ができ、複数遺伝子の共発現ネットワークなどを解明できる。CAGEはCap Analysis Gene Expressionの略。

[5] 長鎖ノンコーディングRNA（lncRNA）
タンパク質をコードしないノンコーディングRNAの一種。一般に、約200塩基以上のものを指す。全長にわたる保存性は高くないが、反復配列やウィルス由来の配列断片を含むものも多い。転写、翻訳、エピジェネティクスなど生体内の多様なプロセスに関与するものが知られている。

[6] マイクロRNA（miRNA）
細胞内に存在する長さ21～23塩基程度の1本鎖RNA。数百～数千の塩基の一次転写産物から段階的に切り出されて作られる。タンパク質へは翻訳されず、標的となるmRNAの分解、翻訳抑制を通して、遺伝子機能の抑制に働く。

[7] ノンコーディングRNA（ncRNA）
non-coding RNA。メッセンジャーRNA（mRNA）と異なり、タンパク質の設計図として用いられないRNAの総称。エピジェネティクス（塩基配列に依存しない遺伝子の調節機構）や転写、翻訳といった生物の活動の中枢をなす反応、幹細胞性の維持など、さまざまな働きに関与するncRNAが次々に報告されており、その重要性に注目が集まっている。

[8] リファレンスゲノム
ある生物種を解析する研究者の間で共通して用いられるゲノム配列。ヒトやマウスなど多くの生物種においては、ゲノムリファレンスコンソーシアムが公開データをもとに維持や更新を行っている。ヒトゲノムのドラフト配列に関する解読が既に完了した現在でも、解読の難しいゲノム領域が残されており、更新が続いている。

６．発表者・機関窓口
＜発表者＞　※研究内容については発表者にお問い合わせ下さい

理化学研究所
科学技術ハブ推進本部予防医療・診断技術開発プログラム
　プログラムディレクター　　　林崎良英（はやしざきよしひで）
　コーディネーター　　　　　　川路英哉（かわじ　ひでや）

ライフサイエンス技術基盤研究センター
機能性ゲノム解析部門　大容量データ管理技術開発ユニット
　ユニットリーダー　　　　　　粕川雄也（かすかわ　たけや）
トランスクリプトーム研究チーム
　チームリーダー　　　　　　　ピエロ・カルニンチ（Piero CARNINCI）
ゲノム情報解析チーム
　客員主管研究員　　　　　　　アリスター・フォレスト（Alistair FORREST）

TEL：048-462-1254（予防医療・診断技術開発プログラム）、045-503-9245（機能性ゲノム解析部門）
FAX：048-462-1276（予防医療・診断技術開発プログラム）、045-503-9216（機能性ゲノム解析部門）
E-mail：yosihide.hayashizaki@riken.jp（林崎）、carninci@riken.jp（カルニンチ）

＜機関窓口＞
理化学研究所ライフサイエンス技術基盤研究センター
広報・サイエンスコミュニケーション担当　山岸　敦（やまぎし　あつし）
TEL： 078-304-7138　FAX：078-304-7112
E-mail：ayamagishi@riken.jp
理化学研究所　広報室　報道担当
TEL：048-467-9272　FAX：048-462-4715
E-mail：ex-press@riken.jp

※ 本記事の概要は理化学研究所HPにも掲載されております。

理化学研究所
生命医科学研究センター

ニュース

網羅的なRNAアトラスの基盤データを詳細に記述－FANTOM5によるオープンサイエンスを加速－

国立研究開発法人理化学研究所
生命医科学研究センター