-
Notifications
You must be signed in to change notification settings - Fork 0
meeting_20170627
日時: 2017-06-27(水)15:00-
場所: W207
参加: 岡別府、大石、藤澤、児玉、渡邊、藤本
- 現行 BioSample 登録システムへの組み込み、D-way から validator へのアカウント情報の伝達 資料
- 現行 BioSample パッケージとの相違点
- 現行 BioProject への組み込み可能か?
- 現行 BioProject 入力画面の簡素化と統合
- 現行 BioSample 入力画面 Publication の廃止
- 現行 BioProject/BioSample 入力画面簡素化案 redmine #6494
- private tax dump → RDF の daily 更新フロー
- サーバ構成
- A.Iの進捗確認
- BioSampleValidationについて、現状システムではユーザ向けに適用できないルールがあるのでその除外分を洗い出す(児玉)【Done】
- BioSampleルール 0.9策定した
- BioProjectが複数あるエラーについては、BioProject側のルールに追記する(児玉)【Done】
- rule37に追加した
- どのエラーがどのobjectに関連するかについてルールを整理する(児玉) 【Done】
- DRA objectカラムを整理、書き下した
- biosample, bioprojectにobjectカラムを追加する【Todo】
- APIの使用はSubmission/Validation/更新系で別れて複雑になる可能性がある。一度状況を整理するための必要APIの洗い出しを行う(岡別府) 【Done】
- 登録システム側にある程度の改修の負担は発生するため、次回の打合せで開発SEさんにも参加して頂いてお伺いを立てる。そのための資料を作成する(岡別府)【Done】
- 現状のBioSampleValidationルールのスナップショットをとりバージョン0.9等としてGitHubに保存する。conf等も含めた形で保存する(岡別府)【Todo】
- エラー画面仕様を修正して確認する(岡別府) 【Todo】
- ルールのlocationの箇所をXPathに書き直す(岡別府) 【Todo】
- rule 28 Duplicate Sample Names
sample name は submission 単位でのチェックになっているので OK
むしろ 1.0 でアカウント単位チェックへの変更が必要
現行パッケージ
http://trace.ddbj.nig.ac.jp/biosample/attribute.html
- rule 26 Unknown Package
- rule 83 package_vs_organism > MIMS Environmental/Metagenome
- rule 84 package_vs_organism > MIGS Cultured Bacterial/Archaeal
- rule 85 package_vs_organism > MIGS Eukaryotic
- rule 86 package_vs_organism > MIGS Viral
- rule 88 package_vs_organism > MIMARKS Survey related
パッケージ名と必須、at least one required 情報は RDF から取得している?
RDF が現行 NCBI BioSample package 名 準拠だと、パッケージ名と属性セットが異なる
現行パッケージの RDF を作成すればよい?
児玉が 0.9 パッケージ、属性表を今のエクセル表形式で定義表を作成
藤澤さんが 0.9 定義エクセルから RDF を作成済み
現行 DDBJ BioSample Package 名
- Generic
- MIGS.ba
- MIGS.eu
- MIGS.vi
- MIMARKS.specimen
- MIMARKS.survey
- MIMS.me
現行 DDBJ BioSample Env package 名 # 上のパッケージ名に付加される (例 MIMS.me.human-oral)
- air
- host-associated
- human-associated
- human-gut
- microbial
- miscellaneous
- no-package
- oral
- plant-associated
- sediment
- skin
- soil
- vaginal
- wastewater
- water
Pathogen # 未使用 Pathogen.ba-cl # 未使用 Pathogen.ba-env # 未使用 Pathogen.vi-cl # 未使用 Pathogen.vi-env # 未使用
version 0.9 の属性-パッケージ定義マスターエクセルを作成
藤澤さん>RDF の生成をお願いします
- ddbj_biosample_definition_table_0.9.xlsx
/blob/master/ykodama/ddbj_packages/ddbj_biosample_definition_table_0.9.xlsx
→ 作成済み
現行では未実装
- rule 36 Missing group of at least one required Attributes スキップ
bioproject_accession → 現行 bioproject_id
BioProject 番号を取得する属性名が異なる
- rule 69 Warning about BioProject increment
- rule 70 Invalid BioProject type
- rule 95 BioProject submission id replacement
前回からの持ち越し
rule 28 Duplicate Sample Names
ユニークネスチェックを submission 単位からアカウント単位に変更
アカウント ID 'account' の killed (5600), cancelled (5700), suppressed (5800) 以外の BioSample の sample_name を取得する SQL
SELECT sample_name FROM mass.submission sub JOIN mass.sample sam USING(submission_id) WHERE sub.submitter_id = 'account' AND sam.status_id NOT IN (5600, 5700, 5800);
現行システムでは primary project として submit された後、コメント or 登録者からの依頼によりキュレータが手動で primary を umbrella に変更している。 次期、システムではマニュアルワーク排除のため umbrella チェックされていれば umbrella として登録する そのため umbrella を考慮した XML 処理が必要になる
Primary
<ProjectType>
<ProjectTypeSubmission>
<Target sample_scope="eMonoisolate" material="eTranscriptome" capture="eWhole">
<Organism taxID="3197">
<OrganismName>Marchantia polymorpha</OrganismName>
</Organism>
</Target>
<Method method_type="eSequencing" />
<Objectives>
<Data data_type="eRawSequenceReads" />
</Objectives>
<ProjectDataTypeSet>
<DataType>Transcriptome or Gene Expression</DataType>
</ProjectDataTypeSet>
</ProjectTypeSubmission>
</ProjectType>
Umbrella
<ProjectType>
<ProjectTypeTopAdmin subtype="eOther">
<Organism taxID="55188">
<OrganismName>Citrus unshiu</OrganismName>
<Strain>Miyagawa wase</Strain>
<Organization>eMulticellular</Organization>
<Reproduction>eSexual</Reproduction>
<RepliconSet>
<Ploidy type="eDiploid" />
</RepliconSet>
<GenomeSize units="Mb">350</GenomeSize>
</Organism>
</ProjectTypeTopAdmin>
</ProjectType>
- Organism の取得 Xpath を ProjectTypeSubmission ProjectTypeTopAdmin 非依存にする
- Umbrella では sample_scope material capture がない (xsd は OK, これらがある場合は~~、というようなチェックしかないので既存 rule には影響無し?)
- Umbrella は primary BioProject をまとめる存在なので、生物名は species レベル以上を許容する(sample_scope = "Multispecies" と同じ扱い、scope は無いが)
- subtype xsd cv check は rule 29 Invalid value for controlled terms: subtype として実装済み
primary 投稿時に当該アカウントで登録されている umbrella を指定できるようにする(現在はキュレータが primary → umbrella の対応付けをリクエストベースで実施している)
primary → umbrella の対応関係整合性チェックは rule 16 Invalid project is selected as an umbrella project. Please select a valid umbrella project. で実装済み
- rule_class BioProject rule 37 error Multiple projects として追加
#all を File とした
rule 1 well-formed, 2 xsd location #file_format
37 location #file
としてみた
#all を書き下した
- DRA 32 error ignore Missing submission Submission XML is required for submitting Experiment, Run and Analysis 追加
いくつかの error に ignore を追加
[todo 藤澤]
biosample package の rdf に tsv での提供順情報を持たせる
M 必須 E どれか一つ必須 O 任意グループの中で順序持たせ、指定されてないものはアルファベット順
RDF で対応されれば XML 定義は使用せず登録用 excel tsv は sparql 取得情報から生成するようにする(児玉)
処理フロー
- 登録システムでは RDB table に登録途中のデータを保持し、submit された時点で BIOSAMPLE_SET でまとめた XML を生成している(藤本)
- 重複属性は submit 時点でエラーになる
- validator に xml を投げるに辺り、登録システムでのチェック、処理の整理と見直しを実施(運用T)
- XML をつくれないようなエラーに対するチェックは登録システムと validator で重複して持たざるを得ない
submitter id
- アカウント情報は xml のBIOSAMPLE_SETに属性として埋め込んで渡す token は使わない
submission id
- validator は BIOSAMPLE 属性に submitter_id submission_id を埋め込んでいる、rdb から登録済みデータを抽出するため
- 登録途中データは SSUB で取得できないので、以下の処理フローにする
- 登録システムは BIOSAMPLE_SET にsubmitter_id を埋め込む、submission id は埋め込まない
- validator は SET を SSUB submission 単位として処理する(既にそうなっている)
auto correct
- auto-correct された xml そのものを利用するか、json から読み取って登録システムで xml 修正するか、検討(運用T)
- ユーザによる項目ごとの採用は不要、全部受け入れて submit するか、嫌ならオリジナルの tsv を直すかどちらか(児玉)
- auto correctが返す xml にはsubmiter idが含まれるので xml を利用する場合には除去処理必要
APIのレスポンス
- 処理時間が掛かるようであれば非同期で実行状況を問い合わせることは可能(藤本?)
- 実測値を測ってみて、必要であればAPIに実行状況を返すようなメソッドを追加する(岡別府)
internal_ignore フラグ
- ignore フラグエラーは dsm で無視する、つまり dsm で無視する例外を認めるエラー、フラグがないのは例外を認めないエラー(児玉)
- 既存データ全件に validator をかけることが必要(児玉)
- 当面 D-way での biosample 更新は実装しないので、それまでにユーザ向けの ignore を検討(児玉)
チェック結果表示方法と場所
- response json をテーブル形式でウェブ表示すればいいように json に必要な情報をすべて持たせている(藤澤)
- それをそのまま利用する方向で(渡邊)
- biosample PUBLICATION タブ廃止、ATTRIBUTE タブで結果を表示してその場で直せるようにする(児玉)
500 エラー
- ncbi utility での pubmed id 実在チェックは warning なので、通信エラーになったらその旨を返すようにして 500 エラーでストップさせない biosample rule 11 bioproject rule 14 (児玉) [todo 岡別府]
- サーバのメンテ体制どうするか....
[todo 藤澤、岡別府]
-
スパコンに endpoint を準備
-
private tax dump - rdf - import を daily で回す処理構築、import に 20 min 程度かかるので二式切り替え方式
-
db 参照するのでアクセス制限必要
-
テスト用と本番用環境を用意、方法を検討
会議後に藤澤、小笠原、児玉で話し合い
- DDBJ ウェブサービス用の 12 台サーバの一つに KVM たてる、ubuntu OS、Open Grid Scheduler でジョブ管理、か?
- deasy 用業務アカウント使って準備、岡別府さん、大石さんと共有 OK (小笠原)
- biosample への組み込み by 岡別府 資料
- json 仕様 Validator-API