pitagora-network.github.io

概要

このRNA-seqワークフローは、ペアエンドの異なる2つのターゲットを比較します。

転写産物のシークエンス量から遺伝子の発現量を定量化し、配列情報から選択的スプライシングの検出や未知の転写産物を発見する解析手法です。

FASTQ File: 塩基配列とクオリティスコアのテキストファイル（fastqファイル）
- サンプル1（フォワード側）
- サンプル1（リバース側）
- サンプル2（フォワード側）
- サンプル2（リバース側）
アノテーションファイル（gtfファイル）

Download References ツールで Fasta UCSC hg19 および Bowtie2 Index UCSC hg19 をダウンロードします。（初回実行時のみ）
- 索引作成の元となる Fasta ファイルも必要であることに注意してください。
ファイルをヒストリーにダウンロードするためには、左ペインのツールの右横にあるアイコン [Download from URL or upload files from disk] > [Paste/Fetch data]を選択し、URLテキストボックスに以下のURLを入力して [start] をクリックします。

ピタゴラ・ギャラクシーで用意しているリファレンス・ゲノムはヒトとマウスのみであるため、それ以外のリファレンス・ゲノムは以下の手順で利用します。

リファレンス・ゲノム（ FASTA 形式、圧縮されたままでも OK）をヒストリーにアップロードします。
Tophat2 の実行時に「Use a built in reference genome or own from your history」で「use a genome from your history」を選択します。
「Select the reference genome」という項目が現れるので、アップロードしたリファレンス・ゲノムを指定します。

この場合、Tophat2 の実行時に毎回リファレンス・ゲノムから Bowtie2 インデックスが作成された後、マッピング処理が実行されます。

このワークフローは Galaxy Team のチュートリアルの内容を基にしています。
- https://usegalaxy.org/u/jeremy/p/galaxy-rna-seq-analysis-exercise
このチュートリアルおよび上記のテストでは chr19 のみに絞ることでデータサイズを小さくしています。フルサイズで実行する場合には次のファイルを使用します。
- ERR030881 (adrenal) および ERR030882 (brain) – http://www.ebi.ac.uk/ena/data/view/ERP000546
- アノテーション
  - iGenomes こちらのhg19をダウンロードおよび展開してGTFファイルを入手
    - /igenome/Homo_sapiens/UCSC/hg19/Annotation/Archives/archive-2013-03-06-11-23-03/Genes/genes.gtf (current) のみを取り出したものがこちら