Skip to content

meeting_20160303

Kodama Yuichi edited this page Mar 3, 2016 · 22 revisions

2016年03月03日打合せ

  • 日時: 2016年03月03日(木) 10:00-
  • 場所: W207
  • メンバ: 大石、岡別府 (skype) 、児玉、李、大田、山本(skype)、藤澤

アジェンダ

  • 開発進捗
  • ウェブアプリケーション開発
  • BioSample Validator開発
  • DDBJ-Validation-Rules 定義
  • DDBJ-Annotated-Sequence-Validator 開発
  • BioSample Validator開発からのフィードバック - 岡別府 BioSample Validatorの実装検討
  • BioSampleルールの追加について - 児玉
  • BioSample Package定義について - 藤澤 資料
  • Annotated Seuqence Validatorテスト用データについて - 藤澤
  • BioSample PostgreSQLインタフェース開発用の手配について
  • Todo確認

内容

開発進捗

  • ウェブアプリケーション開発
  • ウェブアプリケーション実装状況と予定 のrender htmlまでは実装
  • エラーの起こるXMLを用意してlocalhostでデモ
  • 遺伝研内のネットワークから動作不具合、外部ネットワークを利用して正常動作
  • Checkボタンでバリデーション動作を確認、非同期処理はまだ
  • エラー表示方法などUIについて、児玉さんらと詳細詰める【Todo】 - 大石、児玉、藤澤
  • BioSample Validator開発
  • 3つのルールを定義して、SPARQLを利用したルールを含めて実行
  • BioSample ルール定義
  • locus_tag_prefix attributeについてルールを追加希望 - Todo 児玉 ルールシートに記載
  • チェックする範囲
  • sample - json
  • submission (SSUB) - json multi post
  • アカウント - rdb
  • DDBJ BioSample 全体 - rdb
  • Annotated Seuqence Validator開発
  • DDBJ登録フォーマットからJSONを設計した
  • バリデーター実装を開始した
  • TogoAnnotatorの呼び出し部分はこれから実装【Todo】
  • locationの記法としてJSONPathが候補

BioSample Validator開発からのフィードバック

  • ルールの実行順序の定義
  • ルール定義から順序を決めるには、”location”や”multiple”によりだいたい判定できると思いますが、追加が必要になるかもしれません。
  • 各ルールに対して、どのメソッドで検査実行するかの情報
  • アプリケーション依存の情報なので、ルールに載せるべきでないのであれば、別途JSONファイルなどでルールとメソッド(引数)のマッピンングデータを作っておくと、メンテナンス(更新)がしやすくなります。
  • → NCBI tagのようにルール毎のユニークラベルの生成ルールとメソッド名を紐づけることで、別定義は持たなくても対応可能と考えている - 藤澤
  • 各属性に対して、どのメソッドで検査実行するかの情報
  • rule_id:90において、個々の属性に対して定義された general な formatのチェックを行いますが、それぞれの属性にどのようなチェックを実施するのかの定義が必要になります。
  • Rubyのメソッド名と引数に渡すformatを定義があればよいですが、これもアプリケーション依存の情報になるため、BioSampleOWL等での定義を避けたければ別途マッピングデータを作成します。
  • Value formatはNCBI定義のユーザフレンドリーな記述目的の流用なので、Validation目的でDDBJ value formatを見直し、更新は可能 - Todo 児玉
  • チェック方法の分類 3. 汎用チェックが難しいものについては今期の開発は厳しい
  • 今期の開発のルール対象は既存のCGIルール+NCBIルールの対応なので、2. 汎用チェックが可能なものについてのみ対応する
  • 2-2. Controlled vocabularyがValue formatに定義されている場合については、別途Excelで定義する【Todo】- 児玉
  • 1行1attributeで、項目としては、attribute_key, format, "['','value1','value2',...]"
  • value毎に説明、ロジックがあるのでもしかしたら、value毎に行を分けた方がよいかも、後で検討 - 藤澤
  • {term} 全般については、Excel + Ontology (3-2. 別のリソースからControlled vocabularyを抽出しなければならない場合) を統合したインデックスを生成し、Validatorに食わせる事で対応する方向性もありかもしれない。 - 藤澤

BioSampleルールの追加について

  • MIGS.ba, MIGS.eu Package groupにおいて、locus_tag_prefix がグローバルにユニーク出ない場合、エラーを返すルールの追加
  • DDBJ Ruleスプレッドシートに追加する【Todo】 - 児玉
  • Ruleスプレッドシートの権限は児玉、福田、藤澤が編集権限あり、その他はURLを知っている場合、リード権限
  • 現状アクセス権限を見直す【Todo】- 児玉、藤澤

BioSample Package定義について

  • NCBI と DDBJとのBioSample Packageとの違いをNCBI XML調査した
  • NCBI Standard Packages = DDBJ Generic packageとして1つにまとめている
  • DDBJでは、NCBI Pathogen Packagesがない
  • DDBJでは、Environmental PackageのBuilt Environmental Packageがない
  • MIGS/MIMS/MIMARKS関連Packageにおいて、NCBIでは、MIMS.meのみNo Environmental packageがないが、DDBJにはある
  • NCBIでは、Package Nameにversionが含まれている
  • NCBIは105 Packages
  • 確認事項
  • NCBI と DDBJ のBioSample Packageの差異について他にあるか? → ない
  • DDBJ D-way では NCBI 同様 MIMS.me のみ No Environmental package が提示していない
  • Environmental PackageおよびPackage groupについては定義を共通化が可能か? →可能
  • Standard Package Group → Generic Package
  • 今後のPackage変更の方向性について? → Built EnvPackageの追加など→基本的にNCBIにそろえる。ただし、Pathogenは、GMI関連Packageなので要検討
  • NCBIの定義では、Attribute要素のuse属性およびgroup_name属性はPackage毎に変わる
  • Attribute要素のuse属性およびgroup_name属性についてDDBJ定義としてExcelに記載する【Todo】 - 藤澤、児玉

Annotated Seuqence Validatorテスト用データについて

  • ルール毎の失敗するデータをルール項目に追加した方が良いか?
  • Validatorのテストは、RSpec、minitestなどを使う方がよさそう
  • BioSample Validator側で実装はminitestを考えている
  • 登録システムDeasyではRSpecを使っている
  • Annotated Seuqence Validatorはperl実装
  • 現状の李さんのテストデータを利用するにとどめる

RDFおよび開発環境SPARQLエンドポイントの準備

  • 前回打ち合わせ後の内容を以下の通り。
  • OWL/RDFはスパコンでw3swアカウントで岡別府さんと共有【Todo】-藤澤
  • 来週前半ぐらいまでにはなんとか
  • スパコン上のDDBJエントリーRDFインポート済みの既存とは別にvirtuosoをたてる
  • 開発時にvirtuosoを立ててもらった方がよさそう
  • スパコンendpointが外から見えないため、当面 大量研ep (http://staging-genome.annotation.jp/sparql) を利用する
  • http://ddbj.nig.ac.jp/xxx なグラフ名を利用する http://goo.gl/lJQBue
  • エンドポイントの開発OWL/RDFを更新、追加する【Todo】- 藤澤

RDB へのアクセス部分の開発

  • 出しても問題ない public なデータを含む dump、postgres rdb のスキーマの提供を運用Tに相談、大石さんに提供 - Todo 児玉

前回までのTodo

  • 入力データはBioSample XMLをJSONに変換 - 大石【Todo】 → 【Done】
  • Annotated_sequenceのJSON変換の検討 - 藤澤【Todo】 → 【Done】
  • Annotated_Sequenceのバリデーション、TogoAnnotatorの組み込みを相談する - 山本、藤澤【Todo】 → 【Done】
  • いくつかのルールでBioSample Validatorの実装に着手 - 大石【Todo】 → 【Done】
  • スパコン、t013,t014のSPARQL ep.を準備の相談する - 岡別府、藤澤【Todo】 → 【Done】

BH15.15中のエフォート

  • 大石さん 60-70%程度
  • 岡別府さん 打合せ程度
  • 山本 いくらでも
  • 藤澤 50%程度
  • 真島さん、李さんとは3/7事前に打合せ

次回の打合せ

  • BH15.15開催中 3月14日(月)15:00- 児玉さんとコンタクト

次次回

  • 日時: 2016年 3月 28日(月)10:00-
  • 場所: W207 (遺伝研W棟リフレッシュルーム)

submission/validation api

Clone this wiki locally