概要
この RNA-seq ワークフローは、FASTQ のマッピングしたファイル (SAM/BAM 形式) からリードカウントデータを抽出し、二群比較の遺伝子発現変動解析、エンリッチメント解析、各種グラフ化を行います。STEP 01-06 の順序に解析を進めていくことが可能です。
- STEP 02: upload (入力ファイルのアップロード)
- HP : なし
- 特徴 : Galaxy は zip ファイルを自動的に解凍してしまうので、zip 形式で保存した複数リードカウントデータファイルをそのまま Galaxy のヒストリーに登録するために利用します。複数リードカウントデータファイルのアップロードは、ドラッグアンドドロップのファイルアップロード機能ではなく、こちらをご利用下さい。将来的に利用しやすいよう改善予定です。
- 入力ファイル : data という名前のフォルダに保存して zip 圧縮したリードカウントデータファイル複数
- 出力ファイル : なし (ヒストリーに追加)
- STEP 03: normalization (リードカウントデータの正規化)
- STEP 05: filtergenes (条件に合う遺伝子群の選定)
- STEP 06-1: heatmap (ヒートマップ作成)
- STEP 06-2: boxplot (箱ひげ図作成)
- STEP 06-3: tsplot (時系列データ平均値プロット)
- HP : なし
- 特徴 : R パッケージ ggplot2 を用いて、グループごとの遺伝子発現量の経時データ平均値をプロットします。
- 入力ファイル : 解析設定ファイル、正規化データ (ヒストリーから選択), 遺伝子シンボルリスト (アップロード or ヒストリーから選択)
- 出力ファイル : 経時データプロット (pdf 形式)
- STEP 06-4: enrichment 解析 (エンリッチメント解析 : 遺伝子機能やパスウェイの探索)
- HP : http://www.bioconductor.org/packages/release/bioc/html/gage.html
- 特徴 : GAGE (Generally Applicable Gene-set Enrichment for Pathway Analysis) という R (Bioconductor) パッケージを用いて、発現データ情報を元に2群間で発現状態が異なる遺伝子群が関連している機能 (GO: Gene Ontology) やパスウェイ (KEGG) を提示します。
- 入力ファイル : 解析設定ファイル、正規化データ (ヒストリーから選択)
- 出力ファイル : GO/KEGG 探索結果 (テキスト形式)
- STEP 06-5: PPI (タンパク質相互作用の探索)
フロー図
[](/File:RNA-seq_03_workflow.png "wikilink")
テスト方法
- [データの準備] Galaxy 付属ツールを使う等して、2グループそれぞれに対して BAM ファイルを準備します。
- [解析設定ファイルの準備] どのサンプルがどのグループ、時点であるかを記載した解析設定テーブル (table.csv) を準備します (参考: 経時データ版 DL, 通常データ版 DL)。
- 注意1 : sampleID に入れる名前と、BAM ファイルの名前は一致させて下さい (例 SRR001.bam の場合、SRR001 を sampleID 列に入力)。
- 注意2 : 経時データの場合、time 列に整数値、unit 列に hour や hr など、時間単位を入力して下さい。経時データではない場合、NA 等と整数値以外の文字を列全部に入力して下さい。
- 注意3 : replicate のないサンプル、日本語は共に未対応です。
- [リードカウントデータ圧縮ファイルの準備] リードカウントデータファイルは、data というフォルダを作成後、名前を sampleID_rcsym.txt (SRR001_rcsym.txt) として zip で圧縮して下さい (data.zip)。
- [リードカウントデータの保存形式] 一列目は遺伝子シンボル名、二列目は発現値としたテキストファイルで準備して下さい (bam2readcount ツールの出力形式)
- [遺伝子シンボルリスト] heatmap, tsplot で利用する遺伝子シンボルリストは、filtergenes で選定したもの以外に、自分で作成したリストも利用できます。一行目を gene とし、二行目以降に遺伝子シンボル名を1行に1つ入力したテキストファイルを作成して下さい。
http://download.pitagora-galaxy.org/data/workflows/RNA-seq_03/data.zip
http://download.pitagora-galaxy.org/data/workflows/RNA-seq_03/table.csv
http://download.pitagora-galaxy.org/data/workflows/RNA-seq_03/table_ts.csv
- [パイプライン実行] [Workflow] > [RNA-seq 03] > [run] をクリックします。
- [エラー] tool を実行する度、Galaxy のヒストリーに execution log file が出現します。エラーの場合は、どこでエラーが生じたのかがわかるようになっています。統計解析言語 R に関する知識がある方は、エラーを見て可能な場合は対処を試みて下さい。もしくは開発者にファイルを添付してご連絡下さい (善処しますが、対応については保証いたしません。予めご了承下さい。)