events

Pitagora Meetup 2024-11

概要

日時： 2024年11月15日（金） 10:00 〜 16:30
場所：
- オンサイト会場:　みらいのまちをつくる・ラボ - 慶應義塾大学SFC研究所（東京・大井町）
  - 人数制限があるため、オフライン参加を希望する方はお問い合わせください
  - COVID19 感染対策にご協力ください。
- オンライン会場:
  - Discord: Pitagora / Workflow Meetup Japan サーバ

問い合わせ

幹事: 大田 tazro.ohta [at] chiba-u.jp

タイムテーブル

途中参加、途中退出は自由です。初めて参加される方はぜひ過ごし方ガイドをご覧ください。

Time
10:00-10:15	今日の作業確認
10:15-16:00	開発とディスカッション
16:00-16:30	ラップアップ
17:00-	有識者会議

ミートアップの主旨

データ解析ツール・ワークフローを共有する
- ソフトウェアをコンテナ化する
- Galaxy や CWL などを使ってツール定義、ワークフロー定義を書く
- ドキュメントを書いて GitHub で公開する
共有されたツールやワークフローを実行する
- うまくいったこと、うまくいかなかったことを記録する
技術情報を共有する
- SNS に post する
- ブログを書く
関連OSSプロジェクトにコミットする
- SNSで質問する
  - hashtag をつけて twitter で
- プロジェクトの Gitter channel があればそこで聞く
- Issueを立てる
- Pull Request を送る
その他データ解析に関わる人々の日々の暮らしが豊かになる開発を進める

まとめ

鈴木

Bactopiaパイプライン（prokkaでゲノムアノテーション、PIRATEでパンゲノム解析、iqtreeで系統樹推定）を実行するスクリプトを作成中。
- https://bactopia.github.io/latest/bactopia-tools/pangenome/
  - https://github.com/bactopia/bactopia/issues/573
- https://github.com/tseemann/prokka
- https://github.com/SionBayliss/PIRATE
- http://www.iqtree.org/doc/Tutorial
第2回プラスミド研究会「プラスミドの網羅的データベース構築に向けて」 2024年12月24日（火）13:00-18:30／25日（水）9:00-12:30 https://www.nig.ac.jp/nig/research/nig-meetings?id=1614

山中

MetaSub のお話を聞きました

大田

ラボクラスタに入った Open OnDemand のドッグフーディングをしていた
- パッケージが全部 /usr/local 以下に入るっぽいので困る、なんとかする

池田

Variant の解析ツールのデバッグ
- intron 上の insertion のvariantをDBに登録する際の不具合
- hgvsの記述がそもそも誤っていた
  - 例: NM_xxxx.x:c.nnn+3insACGTACGT <=これでエラー
  - 上記の表記がそもそも間違っていて正しい表記はNM_xxxx.x:c.nnn+3_nnn+4insACGTACGT

那須野

午前中、鈴木さんのMetaSub のお話を聞きました
Open OnDemandが実際に便利に使われている運用環境を初めて見ました！（大学内のクラスタ）
- Slurmクラスタと組み合わせた構築ハンズオンは何度もやってましたが…
- @大田: 内部限定公開サーバのLet’s EncryptのSSL証明書をDNS認証で取得するなら、発行時にTXTレコード _acme-challenge.example.jp でドメインの所有権さえ証明できればよいはず。
Google Workspaceでデータの保存先リージョンを指定することができるか？
- リージョンの選択肢は、米国 or ヨーロッパ or 指定なしの3つ
- Business Standard以上のエディションで可能 (最安の Starter では不可)
- マルチリージョンレプリケーションみたいな指示はできない
洋食ブルドック(大井町) https://maps.app.goo.gl/RDV8fvQdAnmCbAnMA

露崎

あるプラスミドがホスト（細菌）内部に取り込まれるかどうかを、実験をせずに塩基配列ベースでまず予測したい
両者の塩基配列をk-mer頻度ベクトルに変換した上で、マハラノビス距離を計算すると、正解ペアが上位にランキングされる（鈴木さんの研究）
この解析を再現するSnakemakeワークフローを構築（大変）

今日やったこと

README.mdの整理（デモデータの用意、実行の仕方等）

リファレンスデータの構築が再現できるか確認（ホスト多すぎ）

[Fri Nov 15 14:09:35 2024]
Finished job 2304.
1 of 44427 steps (0.0%) done
[Fri Nov 15 14:09:35 2024]
Finished job 21317.
2 of 44427 steps (0.0%) done
[Fri Nov 15 14:09:35 2024]
Finished job 6262.
3 of 44427 steps (0.0%) done
...

4コア指定すると1つだけ以下のエラーが出る（~~Singularityが入ってないノードがある？~~、module loadでsingularityのVerを指定するとうまくいった）

    Building DAG of jobs...
WorkflowError:
The singularity command has to be available in order to use singularity integration.

デモデータの用意（Zenodo） - データを追加するためにはVersionを上げないといけない - 前回のVersionでのファイルは、自動的にコピーされない（Importボタンを押さないといけない） - 前々回以降のVersionのファイルはImportできない - => Importを押し忘れたせいで、2.9GBファイルをZenodoからダウンロードし、再度アップロードするというバカみたいな作業に（現在アップロード中、~~5%で止まってる、理研で作業しないとダメかも~~、何回かトライするとうまくいく）
参考
- 実験コード: https://github.com/kokitsuyuzaki/maharank-workflow
- 公開予定のワークフロー: https://github.com/kokitsuyuzaki/MahaRank
- デモデータ: https://zenodo.org/records/14166834