Pitagora Meetup 2024-11
概要
- 日時: 2024年11月15日(金) 10:00 〜 16:30
- 場所:
- オンサイト会場: みらいのまちをつくる・ラボ - 慶應義塾大学SFC研究所(東京・大井町)
- 人数制限があるため、オフライン参加を希望する方はお問い合わせください
- COVID19 感染対策にご協力ください。
- オンライン会場:
- Discord:
Pitagora / Workflow Meetup Japan
サーバ
問い合わせ
- 幹事: 大田
tazro.ohta [at] chiba-u.jp
タイムテーブル
途中参加、途中退出は自由です。初めて参加される方はぜひ 過ごし方ガイド をご覧ください。
Time |
|
10:00-10:15 |
今日の作業確認 |
10:15-16:00 |
開発とディスカッション |
16:00-16:30 |
ラップアップ |
17:00- |
有識者会議 |
ミートアップの主旨
- データ解析ツール・ワークフローを共有する
- ソフトウェアをコンテナ化する
- Galaxy や CWL などを使ってツール定義、ワークフロー定義を書く
- ドキュメントを書いて GitHub で公開する
- 共有されたツールやワークフローを実行する
- うまくいったこと、うまくいかなかったことを記録する
- 技術情報を共有する
- 関連OSSプロジェクトにコミットする
- SNSで質問する
- プロジェクトの Gitter channel があればそこで聞く
- Issueを立てる
- Pull Request を送る
- その他データ解析に関わる人々の日々の暮らしが豊かになる開発を進める
まとめ
鈴木
- Bactopiaパイプライン(prokkaでゲノムアノテーション、PIRATEでパンゲノム解析、iqtreeで系統樹推定)を実行するスクリプトを作成中。
- https://bactopia.github.io/latest/bactopia-tools/pangenome/
- https://github.com/bactopia/bactopia/issues/573
- https://github.com/tseemann/prokka
- https://github.com/SionBayliss/PIRATE
- http://www.iqtree.org/doc/Tutorial
- 第2回プラスミド研究会「プラスミドの網羅的データベース構築に向けて」
2024年12月24日(火)13:00-18:30/25日(水)9:00-12:30
https://www.nig.ac.jp/nig/research/nig-meetings?id=1614
山中
大田
- ラボクラスタに入った Open OnDemand のドッグフーディングをしていた
- パッケージが全部 /usr/local 以下に入るっぽいので困る、なんとかする
池田
- Variant の解析ツールのデバッグ
- intron 上の insertion のvariantをDBに登録する際の不具合
- hgvsの記述がそもそも誤っていた
- 例: NM_xxxx.x:c.nnn+3insACGTACGT <=これでエラー
- 上記の表記がそもそも間違っていて正しい表記はNM_xxxx.x:c.nnn+3_nnn+4insACGTACGT
那須野
- 午前中、鈴木さんのMetaSub のお話を聞きました
- Open OnDemandが実際に便利に使われている運用環境を初めて見ました!(大学内のクラスタ)
- Slurmクラスタと組み合わせた構築ハンズオンは何度もやってましたが…
- @大田: 内部限定公開サーバのLet’s EncryptのSSL証明書をDNS認証で取得するなら、発行時にTXTレコード
_acme-challenge.example.jp
でドメインの所有権さえ証明できればよいはず。
- Google Workspaceでデータの保存先リージョンを指定することができるか?
- リージョンの選択肢は、米国 or ヨーロッパ or 指定なし の3つ
- Business Standard以上のエディションで可能 (最安の Starter では不可)
- マルチリージョンレプリケーションみたいな指示はできない
- 洋食ブルドック(大井町) https://maps.app.goo.gl/RDV8fvQdAnmCbAnMA
露崎
- あるプラスミドがホスト(細菌)内部に取り込まれるかどうかを、実験をせずに塩基配列ベースでまず予測したい
- 両者の塩基配列をk-mer頻度ベクトルに変換した上で、マハラノビス距離を計算すると、正解ペアが上位にランキングされる(鈴木さんの研究)
- この解析を再現するSnakemakeワークフローを構築(大変)
- 今日やったこと
- README.mdの整理(デモデータの用意、実行の仕方等)
- リファレンスデータの構築が再現できるか確認(ホスト多すぎ)
[Fri Nov 15 14:09:35 2024]
Finished job 2304.
1 of 44427 steps (0.0%) done
[Fri Nov 15 14:09:35 2024]
Finished job 21317.
2 of 44427 steps (0.0%) done
[Fri Nov 15 14:09:35 2024]
Finished job 6262.
3 of 44427 steps (0.0%) done
...
- 4コア指定すると1つだけ以下のエラーが出る(
Singularityが入ってないノードがある?、module loadでsingularityのVerを指定するとうまくいった)
Building DAG of jobs...
WorkflowError:
The singularity command has to be available in order to use singularity integration.
- デモデータの用意(Zenodo)
- データを追加するためにはVersionを上げないといけない
- 前回のVersionでのファイルは、自動的にコピーされない(Importボタンを押さないといけない)
- 前々回以降のVersionのファイルはImportできない
- => Importを押し忘れたせいで、2.9GBファイルをZenodoからダウンロードし、再度アップロードするというバカみたいな作業に(現在アップロード中、
5%で止まってる、理研で作業しないとダメかも、何回かトライするとうまくいく)
- 参考
- 実験コード: https://github.com/kokitsuyuzaki/maharank-workflow
- 公開予定のワークフロー: https://github.com/kokitsuyuzaki/MahaRank
- デモデータ: https://zenodo.org/records/14166834