Pitagora Meetup 2019-03
概要
- 日時: 2019年3月8日(金)10:00 〜 18:00
- 場所: 国立情報学研究所 (神保町) 1208 会議室 (12階)
- 連絡先: 大田 t.ohta [at] dbcls.rois.ac.jp
- Skype ID:pitagora-network (最新バージョンのSkypeの使用を推奨)
タイムテーブル
途中参加、途中退出は自由です。ランチの時間は部屋に誰もいなくなる可能性があるので、施錠の関係上、この前後にお越し頂けるとスムーズです。
Time |
|
10:00-10:15 |
今日の作業確認 |
10:15-13:00 |
開発とディスカッション |
13:00-14:00 |
ランチ |
14:00-17:30 |
開発とディスカッション |
17:30-18:00 |
ラップアップ |
18:00- |
有識者会議 |
ミートアップの主旨
- データ解析ツール・ワークフローを共有する
- ソフトウェアをコンテナ化する
- Galaxy や CWL などを使ってツール定義、ワークフロー定義を書く
- ドキュメントを書いて GitHub で公開する
- 共有されたツールやワークフローを実行する
- うまくいったこと、うまくいかなかったことを記録する
- 技術情報を共有する
- 関連OSSプロジェクトにコミットする
- SNSで質問する
- hashtag をつけて twitter で
- プロジェクトの Gitter channel があればそこで聞く
- Issueを立てる
- Pull Request を送る
- その他データ解析に関わる人々の日々の暮らしが豊かになる開発を進める
まとめ
参加人数 (物理): 11人
丹生
- SRX ベースのワークフローエンジンを他の人達に使ってもらえるようにパッケージング…
- の前に、CI で conformance test を走らせることができるように色々設定していた
- SRX 用の Gitlab サーバー(現状非公開)を立てたので、
.gitlab-ci.yml
を書けば Gitlab がいい感じに CI 走らせてくれる
- alpine+dind というチャレンジングな構成で動かそうとしている
- その過程でバグを見つける
- メインのスクリプトを
/usr/bin
とかに symlink を作り、そちらからのコマンド実行が失敗する
- 関連ファイルが置いてあるディレクトリを
$(dirname $0)
で取得していたため
$(dirname $(realpath $0))
にすべき
- mac だと
realpath
がない!
$(cd $(dirname $file) && pwd -P)
だと macOS でも Linux でもいける
- cwl の
run_test.sh
に不要な依存関係を見つけた
- 依存関係が減ると CI の実行時間が減るので大変よろしい
- まだできていない
- 依存関係のインストールは完了
$ cwl-runner --help
が動くところまでは確認した
- SRX 実行部分がサイレント終了する
志波
那須野
- CWL-metrics のGalaxy対応について大田さん、丹生さんと議論
- CWL-metricsの cwl-log-generator の出力と同じ形式でGalaxy Workflowログを生成して実行時間とクラウド料金を可視化できるようにしたシステム
- NIG新スパコンでSingularityが使えるようになったのを機にオンプレ環境と併せて使い方の確認
- Recipeファイルからのイメージ作成
singularity build
にはroot権限が必要。
- Docker Hubを指定
docker://
する場合は pull
相当の挙動になりroot権限は不要。
singularity build centos7.img docker://centos:7
- quay.io からの pull もオンプレ環境では問題無し。
singularity pull docker://quay.io/coreos/etcd
- オンプレ環境で singularity in singularity (nested) ができることを確認。
- 参考) https://www.sylabs.io/guides/2.6/user-guide/appendix.html?highlight=pull#commands
大田
- CWL-metrics 論文リバイズを未だにやっている
- ワークフロー実行に使ったリファレンスのインデックスもワークフローのアウトプットも全部 zenodo にアップしたら?という
狂った素敵な提案に乗ったところアップロードに死ぬほど時間がかかった
- 合計40GB弱になったが Zenodo はデータセットあたり 50GB まで載せていいとのこと、CERNすごい
- https://zenodo.org/record/2587202#.XIISlhMzZE4
- https://zenodo.org/record/2586547#.XIIh2RMzZE4
- pitagora-galaxy/cwl を pitagora-network/pitagora-cwl に変更したり、CWLに Apache 2.0 ライセンスを付けたり、quay.ioに上げたコンテナに GPL ライセンスをつけたりした
- Dockerイメージにライセンスをつけることについて考えるとまじで地獄ということがわかった
- ライセンス周りは落ち着いたら整理してblogとかに書きたい
- pitagora wikiの移植をします
- しました
- 確認中
- 多分ちょっと反映に時間がかかっているっぽい
- 来月以降の日程をアレしましょう
末竹
- https://github.com/suecharo/SAPPORO
- これの安定版をリリースしていた
- Bug を踏み抜くように触って Issue を立ててた
- Issue をプチプチ潰してた
松尾
- 社内解析環境の再設計
- 受託案件のデータは保管するというルール
- 「データサイズが大きい」という一点のみの制約条件なのだけれど
- どう見積もってもダウンロード課金で死ぬ
→それだけでオンプレが基本になる
- データダウンロードなし、全部再実行でいいんじゃないのか?再現性って大事。
- 解析効率化・ナレッジ共有のための社内プロジェクトの検討
- テーマがゆるすぎる
- 経営的(投資家目線)に求められているのは「キラキラしたもの」
- ギャップがありすぎる
- 「最高のもの」を求めるのはやめよう
中岡
- Springer protocol 寄稿 (epidermis というトピック、3月中原稿締切) の Chapter の原稿と内容の準備を行った。RNA-seq (single cell RNA-seq も取得している論文の公共データを例に) 解析手法 [method] や諸々 (docker や Galaxy 紹介も入れる予定) を書く予定。その準備を行っていた。
山中
- 浅井さんの作った PD-seq ワークフローが動く Galaxy を新しい Pitagora のひとつめのワークフローとしたい。そのため、Pitagora Wiki 上にコンテナの入手方法とワークフローの説明を記載する(ドラフト作成中)
- 同時に、Galaxy + Docker にワークフローを作成する「Practice」を短いペーパーにしたい(ドラフト作成中)
浅井
- 山中さんに協力してもらって、Docker×Galaxy の使い方のドキュメントや、PD-Seqを例とした解析ワークフローの説明のドラフトを書いていた。
- 山本さんに Galaxy の使い方について色々説明していました。
- 卒研発表後の細かな作業をしてました。
池田
山本