events
主旨
ツールやワークフローを持ち寄って仮想マシンに加える
(図)
実際には、加えるための手順を作って、仮想マシンの管理者と共有する
同時に、Wiki に新しいツールやワークフローの説明を記載する
プロジェクトを改善するためのフィードバックを収集する
解析プラットフォーム管理に役立つ技術ネタを共有する
Galaxy 以外のソフトウェアを扱っていく可能性について議論する
スケジュール
日時: 2016年4月22日(金)
場所: 先端研4号館4階セミナールーム
連絡先: 山中 yamanaka [at] genome.rcast.u-tokyo.ac.jp
Skype ID:pitagora-network(
最新バージョンのSkype
の使用を推奨)
10:00-10:15
今日の作業確認
10:15-18:00
ツールの開発
17:30-18:00
今日のまとめ
(Skype 参加可)
18:00-18:30
GWT2016 第1回 実務者ミーティング
(Skype 参加可)
18:30-20:30
有識者会議
内容
全体
積み残しタスク
山中
大田
スライド作り
できた
ワークショップのためのToDoリスト
https://docs.google.com/document/d/1oJ0087quRj1nVpn9Er3YrRtObyBIWRZYKkOH_UeY_SM/edit#heading=h.6la5y9um5nkj
服部
Workflows に MiGAPとMeGAPを追加しました
MiGAPはNCBIに-remoteでblastを投げる16sRNA search, Refseq search, TrEMBL searchがソケットエラーで動きません(
原因調査中
→job_conf.xmlに
bridge</param>を追記で解決)
MeGAPは前半のみです(後半はCUDA環境必須なためペンディング)
気になっていること
blastコンテナを-remoteつきで実行するとhostnameが解決できずエラー
→解決、上述
デフォルトで標準エラー出力を出すツールへの対処が不明(ファイルや/dev/nullに飛ばすと、本当のエラーも検出できない)
Dockerを使うツールで、ツールのXMLのcommandタグ内に直接実行コマンドを書く(外部スクリプトを呼ばない)ことはできないのか
出力ファイルがバイナリのツール(Jellyfish count)がエラーになった(Jellyfishではテキストで出すオプションをつけて解決したがバイナリでしか出せないツールがでてきたらどうするか)
TogoWSでnuccoreのFastaダウンロードは未サポート?
PhiX174のFastaを落とそうとしたら、
http://togows.dbcls.jp/entry/nuccore/NC_001422.1/seq
は通るが
http://togows.dbcls.jp/entry/nuccore/NC_001422.1/seq.fasta
はJSONを使えと怒られた
ToolShedのアカウントやリポジトリを削除したい(できないっぽい)
鈴木
The five habits of bad bioinformaticians
- Using inappropriate software - Not keeping up to date with the literature - ソフトウェアの最新版を使う必要性
[
https://www.reddit.com/r/bioinformatics/comments/3t0qbw/the_five_habits_of_bad_bioinformaticians/
? 14 comments]
Public Galaxy Servers
RNA-Rocket @ Pathogen Portal
池田
Pitagora on Cent OS 7
Galaxy インストレーションのためのfabricファイル作成
現Galaxy対応の変更点
各モジュールのタイトルの変更時は次のファイルを変更
/home/galaxy/galaxy/static/scripts/layout/masthead.js
Main のタイトル Galaxy => Pitagora Galaxyへの変更方法がわからない
galaxy.serviceの記述
時間切れ
-
新海
bwaまわり
bwa→GATKリアライメント→varscanバリアントコールまではローカル環境では動く
公開する為の状況の再確認
lastまわり
lastal→maf-convert→samtools sort→GATK・・・の流れのうち、samtools sortのところで問題発生中
本来は調達版の自前のsamtools sortを使用するがちゃんと動かない
sortプログラムはtool-shedにもあるが、それの出力はGATKを食べてくれない。
中身を見るとRG列がなんかおかしいが、それが原因かどうかははっきりしない。
RG列をsedとかでで修正したり、Picardのfixツール(tool-shedのもの)を組み込んだりもしたが、改善しなかった。
とりあえず調達版のsortをちゃんと動かす方でまずは考えたい。
ちなみにやっぱりlastal本体はメモリが大量に必要な模様。メモリ28G程度ではうまくいかない。
また、last用のインデックスの事前準備が必要。
gatkリアライメントパイプライン
locファイルについては、例えば(tool_shed版の)gatk_beds.locが“/disk/reference/gatk/truseq_exome_targeted_regions.hg19.bed”を参照するようになっており、実データを/disk/reference/gatk/に置かないと実際には動作しないかたちになっている(今は空)。
gatk_snps.locやgatk_refgenomes.locについても同様
具体的に必要なファイルのリスト
/disk/reference/gatk/truseq_exome_targeted_regions.hg19.bed
/disk/reference/gatk/hg19.fa
/disk/reference/gatk/00-ALL.vcf
ちなみにpicard-mark-duplicatesがパイプラインに含まれており、これは調達版自前のツールとなっている(未tool-shed化)
ただし、そもそもtool-shedのpicardにもmarkduplicatesはある。差し替え可能ならこちらで代用すべきかも知れない。もしも差し替えが出来なければこのmark-duplicateをtoolshed化する必要があることになる。要確認。
gatkのtool_shed版のGATKRealignerTargetCreator.pyは要修正。
34行目、arg.Jをargs.Jに。
ファイル位置:/home/galaxy/shed_tools/testtoolshed.g2.bx.psu.edu/repos/pitagora/gatk_1_6_pitagora/04a1efe6021e/gatk_1_6_pitagora/GATKRealignerTargetCreator.py
GATKIndelRealignerについては、/gatk_1_6_pitagora/以下にGATKIndelRealigner.pyは存在するが、ツール一覧には表示されず、パイプラインにも組み入れることも出来ない。GATKIndelRealigner.xmlが存在しない為?
望月
スライド作り
できた
那須野
-