主旨
- ツールやワークフローを持ち寄って仮想マシンに加える (図)
- 実際には、加えるための手順を作って、仮想マシンの管理者と共有する
- 同時に、Wiki に新しいツールやワークフローの説明を記載する
- プロジェクトを改善するためのフィードバックを収集する
- 解析プラットフォーム管理に役立つ技術ネタを共有する
- Galaxy 以外のソフトウェアを扱っていく可能性について議論する
スケジュール
- 日時: 2018年2月7日(水)10:00 〜 19:00
- 場所: 理研 革新知能統合研究センター(日本橋)会議室5
- 連絡先: 山中 ryota.yamanaka [at] oracle.com, 大田 t.ohta [at] dbcls.rois.ac.jp
- Skype ID:pitagora-network(最新バージョンのSkypeの使用を推奨)
|
|
10:00-10:15 |
今日の作業確認 |
10:15-18:00 |
ツールの開発 |
18:00-18:30 |
今日のまとめ (Skype 参加可) |
内容
全体
志波
- Galaxyで初めて本番用のデータ整形をした(報告)
- ChIP-seqのリード深度データのノーマライズ
- ChIP / Input の正規化したリード深度データの比をbed形式で出力
- Join, Compute, Group, Paste, awk などを組み合わせて
- 前回のミートアップで取り組んだワークフローの出力のリネームはやめた
- 名前が長くなりすぎる、入力データごとに新規ヒストリーに出力することで解決
- QIIME 2
- QIIME2 forum でのGalaxy実装議論 QIIME2 in Galaxy platform
- 本家の開発チームでは予定はないようだ
- プラグインごとのラッパーXMLを作成するのが大変
- プラグインのソースからXMLを自動生成できればいいが
- コマンドラインツールの q2cli が各ラッパーを読み込んでコマンドを生成
- 石井さんに紹介頂いたargparse2toolを調べてみる
- transparently build CWL and Galaxy XML tool definitions for any script that uses argparse
- argparse で引数を取るツールであれば、argparseを乗っ取ってXMLを生成してくれる
- 呼びたいQIIME2がCLI構築にargparseではなくClickを使っていないのでこのツールでは無理そう
- このツールはClickに対応gxargparse
- QIIME2のCLIではPluginでの引数をJSONに出力
浅井
- training-materialのイントロダクションの翻訳をやっていました(終わりませんでした)
- GitHub のウェブ上での編集は非効率なのでエディタを使う
- GitHub に Markdown で編集しているが、日本語だと崩れてしまうことがある
- 日本語だと崩れてしまう例:
- 入れ子にされている箇条書き
- 箇条書き以外でも日本語に直すと体裁が崩れる場合がある
- 暫定対処:
- Galaxy のサイトでレンダリングすれば大丈夫かもしれないが、やはり GitHub でも見られる方がいい
- 日本語で崩れてしまう書き方はしないようにする(レイアウトを多少変更する)
- どうやって内容を確認するか検討
- 全て翻訳する(ドラフト)
- 山中さんと一緒に内容確認
- Meetup で皆さんにハンズオンの内容を紹介
- 必要に応じて PR ベースで直してもらう
- 翻訳の文体を「~だ」「~である」のようにするか、ですます調にするか。
末竹
- CWL を利用したプラットフォーム開発。
- azure のインスタンスを立てて管理する役割の API server を立てた。
- VM を立てる際の VM の中身を Docker Image ではなく Azure VM カスタムイメージを使うことにした。
- Docker と CWL が動く Azure VM カスタムイメージ作成した。
- API サーバー経由で,Azure cli で Azure VM カスタムイメージから VM を立てて,ssh 接続した。
- 使い捨てで削除することを考えると,リソースグループを分けたほうがいいのかもしれない
池田
https://colab.research.google.com/notebooks/welcome.ipynb
- Google spread sheetの作成・編集が可能
- GPUを利用した演算の実行が可能
- ワークフロー研究会参加するか?(2/26 10:00- 理研AIP)
那須野
- Galaxyに登録済みのWorkflowを(ある目的で)自動変換するための Galaxyツール の実装・検証をやってました。
- BioBlend の API で、 get_workflows(), export_workflow_dict(), import_workflow_dict() を使って実現できることを確認。
- ツールXMLで、入力項目として workflow name を指定できるように記述。(欲を言えば登録済みのものから選択できるようにしたい)
- Galaxy Web にログイン済みの状態から実行するにもかかわらず API Key を指定しなければならないのは違和感があるが、現状は仕方ないか。
- Galaxy の Oracle DB 対応は、今日は進捗なし。
丹生
- cwl-inspectorを Python で書き換えるための下調べ
- 現在は Ruby 製
- 課題: schema-salad-tool に Python 用の CWL パーサーを吐き出す機能があるが、その恩恵を受けられない
- 現在は YAML + KIAI (KIAI を捨てたい)
- `$ schema-salad-tool –codegen python CWL.yml > parser.py` でパーサー用のコードを出力できる
- `import parser` 後に `cwl = parser.load_document(‘foobar.cwl’)` で CWL のオブジェクトを取得できる
- cwltool には与えられた CWL のパラメータなどを表示する機能がある
- cwl-inspector にもあるが、実装は KIAI (捨てたい)
- cwl2argparse という、それらしいツールを発見した
- ツールを実行すると、ツールの引数に与えた CWL をパースする関数が書かれたファイルを出力する (ファイル名は指定できない)
- 最終更新が一年前
- cwltool 内の、CWL のパラメータを解析して argparse を返す部分をライブラリ化してほしい
- ワークフローエンジンの実装作業
- SRX (九州大学の小林先生が提案しているシステム) を使って実装中
- SRX: 並列・分散処理が書きやすいグルー言語 (雑な説明)
石井
鈴木
- Plasmidprofiler プラスミドの可視化
> install.packages(
“Plasmidprofiler
”)
> library(Plasmidprofiler)
> plot_heatmap(report)
山中
- 浅井さんとトレーニング資料翻訳の方針を議論しました
- 先週、千葉大で エピゲノム解析セミナー でどのように Galaxy を使っているか聞いてきました
落合
新海
- GATK4のテストの準備をひたすらやってました
- GATK3とコマンドのオプションが微妙に異なる
- 以前はアウトプットが小文字の-oだったのが大文字の-Oだったりとかイミフな変化も(いや、意図は分かるんだけど)
- PrintReadsについては、GATK PrintReadsはあるけど、BQSRのテーブル導入にはそれじゃなくてApplyBQSRを使う
- そこまで修正してもvcfのインデックスエラー
- 以前に比べてなんか厳しいっぽい
- contigディクショナリ修正の為にpicard UpdateVcfSequenceDictionaryを試して…、など
- Google Colaboratoryを池田さんに教わる すごい
大田
- 末竹さんと CWL on Cloud to compute public SRA なシステムの相談
- システムを minimum components から末竹さんが実装する
- 実行時メトリクス収集+ワークフロー/サンプルメタデータの収集と検索の系をおおた/intercloudチームで協力してやる
- 論文出します + BOSCに出したいね
- Jupyter on Galaxy main server を色々試す
- python だとヒストリとのデータのやりとりのための関数が用意されているがそれ以外のカーネルだとそれがない
- 思ってたより Galaxy/Jupyter 間のデータのやり取りができるので、がんがん使っていきたい
- いっそワークフロー組まずにbash書いてnotebookで以下略
コピペ用