meeting_20170627

2017-06-27 打合せ

日時: 2017-06-27（水）15:00-
場所: W207
参加: 岡別府、大石、藤澤、児玉、渡邊、藤本

アジェンダ

現行 BioSample 登録システムへの組み込み、D-way から validator へのアカウント情報の伝達資料
現行 BioSample パッケージとの相違点
現行 BioProject への組み込み可能か？
現行 BioProject 入力画面の簡素化と統合
現行 BioSample 入力画面 Publication の廃止
現行 BioProject/BioSample 入力画面簡素化案 redmine #6494
private tax dump → RDF の daily 更新フロー
サーバ構成
A.Iの進捗確認

内容

前回確認したA.I.

BioSampleValidationについて、現状システムではユーザ向けに適用できないルールがあるのでその除外分を洗い出す(児玉)【Done】
- BioSampleルール 0.9策定した
BioProjectが複数あるエラーについては、BioProject側のルールに追記する(児玉)【Done】
- rule37に追加した
どのエラーがどのobjectに関連するかについてルールを整理する(児玉) 【Done】
- DRA objectカラムを整理、書き下した
- biosample, bioprojectにobjectカラムを追加する【Todo】
APIの使用はSubmission/Validation/更新系で別れて複雑になる可能性がある。一度状況を整理するための必要APIの洗い出しを行う(岡別府) 【Done】
登録システム側にある程度の改修の負担は発生するため、次回の打合せで開発SEさんにも参加して頂いてお伺いを立てる。そのための資料を作成する(岡別府)【Done】
現状のBioSampleValidationルールのスナップショットをとりバージョン0.9等としてGitHubに保存する。conf等も含めた形で保存する(岡別府)【Todo】
エラー画面仕様を修正して確認する(岡別府) 【Todo】
ルールのlocationの箇所をXPathに書き直す(岡別府) 【Todo】

現行 BioSample 登録システムへの組み込み

現行 BioSample パッケージとの相違点

sample name アカウント単位ではなく submission 単位でユニーク要求

rule 28 Duplicate Sample Names

sample name は submission 単位でのチェックになっているので OK
むしろ 1.0 でアカウント単位チェックへの変更が必要

パッケージが異なる

現行パッケージ
http://trace.ddbj.nig.ac.jp/biosample/attribute.html

rule 26 Unknown Package
rule 83 package_vs_organism > MIMS Environmental/Metagenome
rule 84 package_vs_organism > MIGS Cultured Bacterial/Archaeal
rule 85 package_vs_organism > MIGS Eukaryotic
rule 86 package_vs_organism > MIGS Viral
rule 88 package_vs_organism > MIMARKS Survey related

パッケージ名と必須、at least one required 情報は RDF から取得している？
RDF が現行 NCBI BioSample package 名準拠だと、パッケージ名と属性セットが異なる
現行パッケージの RDF を作成すればよい？
児玉が 0.9 パッケージ、属性表を今のエクセル表形式で定義表を作成
藤澤さんが 0.9 定義エクセルから RDF を作成済み

現行 DDBJ BioSample Package 名

Generic
MIGS.ba
MIGS.eu
MIGS.vi
MIMARKS.specimen
MIMARKS.survey
MIMS.me

現行 DDBJ BioSample Env package 名 # 上のパッケージ名に付加される (例 MIMS.me.human-oral)

air
host-associated
human-associated
human-gut
microbial
miscellaneous
no-package
oral
plant-associated
sediment
skin
soil
vaginal
wastewater
water

Pathogen # 未使用 Pathogen.ba-cl # 未使用 Pathogen.ba-env # 未使用 Pathogen.vi-cl # 未使用 Pathogen.vi-env # 未使用

version 0.9 の属性-パッケージ定義マスターエクセルを作成
藤澤さん＞RDF の生成をお願いします

ddbj_biosample_definition_table_0.9.xlsx
/blob/master/ykodama/ddbj_packages/ddbj_biosample_definition_table_0.9.xlsx

→ 作成済み

at least one required

現行では未実装

rule 36 Missing group of at least one required Attributes スキップ

属性名

bioproject_accession → 現行 bioproject_id

BioProject 番号を取得する属性名が異なる

rule 69 Warning about BioProject increment
rule 70 Invalid BioProject type
rule 95 BioProject submission id replacement

1.0 rule

locus tag prefix

前回からの持ち越し

sample name

rule 28 Duplicate Sample Names

ユニークネスチェックを submission 単位からアカウント単位に変更

アカウント ID 'account' の killed (5600), cancelled (5700), suppressed (5800) 以外の BioSample の sample_name を取得する SQL

SELECT sample_name FROM mass.submission sub JOIN mass.sample sam USING(submission_id) WHERE sub.submitter_id = 'account' AND sam.status_id NOT IN (5600, 5700, 5800);

アンブレラプロジェクト

現行システムでは primary project として submit された後、コメント or 登録者からの依頼によりキュレータが手動で primary を umbrella に変更している。次期、システムではマニュアルワーク排除のため umbrella チェックされていれば umbrella として登録するそのため umbrella を考慮した XML 処理が必要になる

Primary

<ProjectType>
	<ProjectTypeSubmission>
		<Target sample_scope="eMonoisolate" material="eTranscriptome" capture="eWhole">
			<Organism taxID="3197">
				<OrganismName>Marchantia polymorpha</OrganismName>
			</Organism>
		</Target>
		<Method method_type="eSequencing" />
		<Objectives>
			<Data data_type="eRawSequenceReads" />
		</Objectives>
		<ProjectDataTypeSet>
			<DataType>Transcriptome or Gene Expression</DataType>
		</ProjectDataTypeSet>
	</ProjectTypeSubmission>
</ProjectType>

Umbrella

<ProjectType>
	<ProjectTypeTopAdmin subtype="eOther">
		<Organism taxID="55188">
			<OrganismName>Citrus unshiu</OrganismName>
			<Strain>Miyagawa wase</Strain>
			<Organization>eMulticellular</Organization>
			<Reproduction>eSexual</Reproduction>
			<RepliconSet>
				<Ploidy type="eDiploid" />
			</RepliconSet>
			<GenomeSize units="Mb">350</GenomeSize>
		</Organism>
	</ProjectTypeTopAdmin>
</ProjectType>

Organism の取得 Xpath を ProjectTypeSubmission ProjectTypeTopAdmin 非依存にする
Umbrella では sample_scope material capture がない (xsd は OK, これらがある場合は～～、というようなチェックしかないので既存 rule には影響無し？）
Umbrella は primary BioProject をまとめる存在なので、生物名は species レベル以上を許容する（sample_scope = "Multispecies" と同じ扱い、scope は無いが）
subtype xsd cv check は rule 29 Invalid value for controlled terms: subtype として実装済み

primary 投稿時に当該アカウントで登録されている umbrella を指定できるようにする（現在はキュレータが primary → umbrella の対応付けをリクエストベースで実施している）
primary → umbrella の対応関係整合性チェックは rule 16 Invalid project is selected as an umbrella project. Please select a valid umbrella project. で実装済み

object File チェック

1 project - 1 bioproject xml

rule_class BioProject rule 37 error Multiple projects として追加

#all を File とした rule 1 well-formed, 2 xsd location #file_format
37 location #file
としてみた

DRA all

#all を書き下した

file 単位チェック

DRA 32 error ignore Missing submission Submission XML is required for submitting Experiment, Run and Analysis 追加

ignore 見直し

いくつかの error に ignore を追加

次回

7/11（火）13:30- W207

メモ

RDF 定義

[todo 藤澤]
biosample package の rdf に tsv での提供順情報を持たせる
M 必須 E どれか一つ必須 O 任意グループの中で順序持たせ、指定されてないものはアルファベット順　　

RDF で対応されれば XML 定義は使用せず登録用 excel tsv は sparql 取得情報から生成するようにする（児玉）

現行 biosample への組み込み

処理フロー

登録システムでは RDB table に登録途中のデータを保持し、submit された時点で BIOSAMPLE_SET でまとめた XML を生成している（藤本）
重複属性は submit 時点でエラーになる
validator に xml を投げるに辺り、登録システムでのチェック、処理の整理と見直しを実施（運用T）
XML をつくれないようなエラーに対するチェックは登録システムと validator で重複して持たざるを得ない

submitter id

アカウント情報は xml のBIOSAMPLE_SETに属性として埋め込んで渡す token は使わない

submission id

validator は BIOSAMPLE 属性に submitter_id submission_id を埋め込んでいる、rdb から登録済みデータを抽出するため
登録途中データは SSUB で取得できないので、以下の処理フローにする
- 登録システムは BIOSAMPLE_SET にsubmitter_id を埋め込む、submission id は埋め込まない
- validator は SET を SSUB submission 単位として処理する（既にそうなっている）

auto correct

auto-correct された xml そのものを利用するか、json から読み取って登録システムで xml 修正するか、検討（運用T)
ユーザによる項目ごとの採用は不要、全部受け入れて submit するか、嫌ならオリジナルの tsv を直すかどちらか（児玉）
auto correctが返す xml にはsubmiter idが含まれるので　xml を利用する場合には除去処理必要

APIのレスポンス

処理時間が掛かるようであれば非同期で実行状況を問い合わせることは可能(藤本?)
実測値を測ってみて、必要であればAPIに実行状況を返すようなメソッドを追加する(岡別府)

internal_ignore フラグ

ignore フラグエラーは dsm で無視する、つまり dsm で無視する例外を認めるエラー、フラグがないのは例外を認めないエラー（児玉）
既存データ全件に validator をかけることが必要（児玉）
当面 D-way での biosample 更新は実装しないので、それまでにユーザ向けの ignore を検討（児玉）

チェック結果表示方法と場所

response json をテーブル形式でウェブ表示すればいいように json に必要な情報をすべて持たせている（藤澤）
それをそのまま利用する方向で（渡邊）
biosample PUBLICATION タブ廃止、ATTRIBUTE タブで結果を表示してその場で直せるようにする（児玉）

500 エラー

ncbi utility での pubmed id 実在チェックは warning なので、通信エラーになったらその旨を返すようにして 500 エラーでストップさせない biosample rule 11 bioproject rule 14 （児玉） [todo 岡別府]
サーバのメンテ体制どうするか....

endpointとサーバ準備

[todo 藤澤、岡別府]

スパコンに endpoint を準備
private tax dump - rdf - import を daily で回す処理構築、import に 20 min 程度かかるので二式切り替え方式
db 参照するのでアクセス制限必要
テスト用と本番用環境を用意、方法を検討

ジョブ管理システム

会議後に藤澤、小笠原、児玉で話し合い

DDBJ ウェブサービス用の 12 台サーバの一つに KVM たてる、ubuntu OS、Open Grid Scheduler でジョブ管理、か？
deasy 用業務アカウント使って準備、岡別府さん、大石さんと共有 OK （小笠原）

資料

biosample への組み込み by 岡別府資料
json 仕様 Validator-API

submission/validation api

meeting_20190412

Provide feedback

Saved searches

Use saved searches to filter your results more quickly