Pitagora Meetup 2023-11
概要
- 日時: 2023年11月2日(木) 13:00 〜 19:00
- 場所:
- オンサイト会場:
- RIVERLD恵比寿A (貸し会議室・東京都渋谷区恵比寿)
- 人数制限があるため、オフライン参加を希望する方はお問い合わせください
- COVID19 感染対策にご協力ください。
- オンライン会場:
- Discord:
Pitagora / Workflow Meetup Japan
サーバ
問い合わせ
- 幹事: 大田
t.ohta [at] dbcls.rois.ac.jp
タイムテーブル
途中参加、途中退出は自由です。初めて参加される方はぜひ 過ごし方ガイド をご覧ください。
Time |
|
12:00-13:00 |
ランチ |
13:00-13:15 |
今日の作業確認 |
13:15-17:30 |
開発とディスカッション |
18:00-18:30 |
ラップアップ |
19:00- |
有識者会議 |
ミートアップの主旨
- データ解析ツール・ワークフローを共有する
- ソフトウェアをコンテナ化する
- Galaxy や CWL などを使ってツール定義、ワークフロー定義を書く
- ドキュメントを書いて GitHub で公開する
- 共有されたツールやワークフローを実行する
- うまくいったこと、うまくいかなかったことを記録する
- 技術情報を共有する
- 関連OSSプロジェクトにコミットする
- SNSで質問する
- プロジェクトの Gitter channel があればそこで聞く
- Issueを立てる
- Pull Request を送る
- その他データ解析に関わる人々の日々の暮らしが豊かになる開発を進める
まとめ
那須野
- しばらく放置してしまっていた cloud.gakunin.jp/ocs で使用しているGitHub Repositoryを整理。アップデート作業。
- mdx.jp で広く活用してもらうための対応、など
大田
- 来月のミートアップのことを考える
- 3pm- 志波さんと ナノポア現場の会 の打ち合わせをします
- 二人で分担して NanoGalaxy の話をします
- 会場の情報が Tokyo, Japan としか書いてないので離島でやる可能性も否定できない
- yevis/tataki の打ち合わせ
末竹
- Datamodel 周りについての discussion
- OWL -> TypeScript Interface -> jsonschema -> Web Form -> JSON -> JSON-LD という黒魔術をやっている
- Datamodel 層である OWL <-> TypeScript Interface <-> jsonschema の可換性は自明
- jsonschema -> Web Form は https://github.com/rjsf-team/react-jsonschema-form とかがある
- Web Form -> JSON も自明だし、その JSON は Datamodel に従っている
- JSON -> JSON-LD?
- 単に JSON-LD context を差し込んだだけだと、何がしたいのかよくわからなくなる
- Mapper (args: JSON and datamodel def.) を書く必要がある
@id
の取扱いをどうするか迷っていたが、それぞれ適当に UUID などを発行して link することにした
- Spr/Yevis/Tonkaz/Neko-Punch/Tomato 周り
- やることが多い
- 一個一個片付けていくために TODO list を書いた
丹生
- Singularity で Spark クラスター作って hail で解析する、というアクロバティックなことをしている
- hail 部分の動作確認ができていない
- クラスターは動いているっぽい。デプロイはすごく楽になった
- hail を動かすたびにホストにログインできなくなるので調査し辛い
- Ganglia から何も送られなくなるため、リアルタイムのメトリクス監視もできない
- ホスト OS が Ubuntu 22.04 にアップデートされたら問題が雲散霧消するのでは?と淡い期待を抱いている
- 久々に shaft いじり
山中
- DuckDB を学ぶ
- 例:SQL on Pandas
- SQLite のような組み込み用リレーショナル DB の OLAP 特化型
- 列指向、パーティショニング、ウィンドウ関数、などに対応
- Pitagora Galaxy でも SQLite ツールを作ってたな…
- Python で対話的に使える(Pandas DF に対してクエリ実行など)
- データロードの最適化 Parquet や Arrow の利用
- DuckPGQ という(CSR を用いた)グラフ DB 実装に興味を持った
- pgvector のような LLM/RAG 用途の発展がありそう?
- DuckDB の名前の由来
- イルカまだいます
福井
tataki
(入力ファイルのフォーマット判定ツール) のハイレベルな設計をほぼほぼ確定させた
- まず、これを元にインターフェースのローレベル設計を実装しつつ考えていく予定
- ハイレベル設計
- 2段階の判定モード
- noodles crate等の外部crateを利用しつつフォーマット判定するスタンドアローンモード
- 別途用意したCWL定義ファイルを使って、外部ツールで直にファイルフォーマットを判定する拡張モード
- CWL定義ファイルのスキーマは、今回オレオレでガッツリ制限して特定のパラメータ (
baseCommand
など) しか使用できないようにする
- PRで拡張用のCWL定義ファイルをチェック
- お仕事でお客さんからきたQA対応をしていた