Skip to content

meeting_20170627

Takatomo Fujisawa edited this page Jun 27, 2017 · 28 revisions

2017-06-27 打合せ

日時: 2017-06-27(水)15:00-
場所: W207
参加: 岡別府、大石、藤澤、児玉、渡邊、藤本

アジェンダ

  • 現行 BioSample 登録システムへの組み込み、D-way から validator へのアカウント情報の伝達 資料
  • 現行 BioSample パッケージとの相違点
  • 現行 BioProject への組み込み可能か?
  • 現行 BioProject 入力画面の簡素化と統合
  • 現行 BioSample 入力画面 Publication の廃止
  • 現行 BioProject/BioSample 入力画面簡素化案 redmine #6494
  • private tax dump → RDF の daily 更新フロー
  • サーバ構成
  • A.Iの進捗確認

内容

前回確認したA.I.

  • BioSampleValidationについて、現状システムではユーザ向けに適用できないルールがあるのでその除外分を洗い出す(児玉)【Done】
    • BioSampleルール 0.9策定した
  • BioProjectが複数あるエラーについては、BioProject側のルールに追記する(児玉)【Done】
    • rule37に追加した
  • どのエラーがどのobjectに関連するかについてルールを整理する(児玉) 【Done】
    • DRA objectカラムを整理、書き下した
    • biosample, bioprojectにobjectカラムを追加する【Todo】
  • APIの使用はSubmission/Validation/更新系で別れて複雑になる可能性がある。一度状況を整理するための必要APIの洗い出しを行う(岡別府) 【Done】
  • 登録システム側にある程度の改修の負担は発生するため、次回の打合せで開発SEさんにも参加して頂いてお伺いを立てる。そのための資料を作成する(岡別府)【Done】
  • 現状のBioSampleValidationルールのスナップショットをとりバージョン0.9等としてGitHubに保存する。conf等も含めた形で保存する(岡別府)【Todo】
  • エラー画面仕様を修正して確認する(岡別府) 【Todo】
  • ルールのlocationの箇所をXPathに書き直す(岡別府) 【Todo】

現行 BioSample 登録システムへの組み込み

現行 BioSample パッケージとの相違点

sample name アカウント単位ではなく submission 単位でユニーク要求

  • rule 28 Duplicate Sample Names

sample name は submission 単位でのチェックになっているので OK
むしろ 1.0 でアカウント単位チェックへの変更が必要

パッケージが異なる

現行パッケージ
http://trace.ddbj.nig.ac.jp/biosample/attribute.html

  • rule 26 Unknown Package
  • rule 83 package_vs_organism > MIMS Environmental/Metagenome
  • rule 84 package_vs_organism > MIGS Cultured Bacterial/Archaeal
  • rule 85 package_vs_organism > MIGS Eukaryotic
  • rule 86 package_vs_organism > MIGS Viral
  • rule 88 package_vs_organism > MIMARKS Survey related

パッケージ名と必須、at least one required 情報は RDF から取得している?
RDF が現行 NCBI BioSample package 名 準拠だと、パッケージ名と属性セットが異なる
現行パッケージの RDF を作成すればよい?
児玉が 0.9 パッケージ、属性表を今のエクセル表形式で定義表を作成
藤澤さんが 0.9 定義エクセルから RDF を作成済み

現行 DDBJ BioSample Package 名

  • Generic
  • MIGS.ba
  • MIGS.eu
  • MIGS.vi
  • MIMARKS.specimen
  • MIMARKS.survey
  • MIMS.me

現行 DDBJ BioSample Env package 名 # 上のパッケージ名に付加される (例 MIMS.me.human-oral)

  • air
  • host-associated
  • human-associated
  • human-gut
  • microbial
  • miscellaneous
  • no-package
  • oral
  • plant-associated
  • sediment
  • skin
  • soil
  • vaginal
  • wastewater
  • water

Pathogen # 未使用 Pathogen.ba-cl # 未使用 Pathogen.ba-env # 未使用 Pathogen.vi-cl # 未使用 Pathogen.vi-env # 未使用

version 0.9 の属性-パッケージ定義マスターエクセルを作成
藤澤さん>RDF の生成をお願いします

  • ddbj_biosample_definition_table_0.9.xlsx
    /blob/master/ykodama/ddbj_packages/ddbj_biosample_definition_table_0.9.xlsx

→ 作成済み

at least one required

現行では未実装

  • rule 36 Missing group of at least one required Attributes スキップ

属性名

bioproject_accession → 現行 bioproject_id

BioProject 番号を取得する属性名が異なる

  • rule 69 Warning about BioProject increment
  • rule 70 Invalid BioProject type
  • rule 95 BioProject submission id replacement

1.0 rule

locus tag prefix

前回からの持ち越し

sample name

rule 28 Duplicate Sample Names

ユニークネスチェックを submission 単位からアカウント単位に変更

アカウント ID 'account' の killed (5600), cancelled (5700), suppressed (5800) 以外の BioSample の sample_name を取得する SQL

SELECT sample_name FROM mass.submission sub JOIN mass.sample sam USING(submission_id) WHERE sub.submitter_id = 'account' AND sam.status_id NOT IN (5600, 5700, 5800);

アンブレラプロジェクト

現行システムでは primary project として submit された後、コメント or 登録者からの依頼によりキュレータが手動で primary を umbrella に変更している。 次期、システムではマニュアルワーク排除のため umbrella チェックされていれば umbrella として登録する そのため umbrella を考慮した XML 処理が必要になる

Primary

<ProjectType>
	<ProjectTypeSubmission>
		<Target sample_scope="eMonoisolate" material="eTranscriptome" capture="eWhole">
			<Organism taxID="3197">
				<OrganismName>Marchantia polymorpha</OrganismName>
			</Organism>
		</Target>
		<Method method_type="eSequencing" />
		<Objectives>
			<Data data_type="eRawSequenceReads" />
		</Objectives>
		<ProjectDataTypeSet>
			<DataType>Transcriptome or Gene Expression</DataType>
		</ProjectDataTypeSet>
	</ProjectTypeSubmission>
</ProjectType>

Umbrella

<ProjectType>
	<ProjectTypeTopAdmin subtype="eOther">
		<Organism taxID="55188">
			<OrganismName>Citrus unshiu</OrganismName>
			<Strain>Miyagawa wase</Strain>
			<Organization>eMulticellular</Organization>
			<Reproduction>eSexual</Reproduction>
			<RepliconSet>
				<Ploidy type="eDiploid" />
			</RepliconSet>
			<GenomeSize units="Mb">350</GenomeSize>
		</Organism>
	</ProjectTypeTopAdmin>
</ProjectType>
  • Organism の取得 Xpath を ProjectTypeSubmission ProjectTypeTopAdmin 非依存にする
  • Umbrella では sample_scope material capture がない (xsd は OK, これらがある場合は~~、というようなチェックしかないので既存 rule には影響無し?)
  • Umbrella は primary BioProject をまとめる存在なので、生物名は species レベル以上を許容する(sample_scope = "Multispecies" と同じ扱い、scope は無いが)
  • subtype xsd cv check は rule 29 Invalid value for controlled terms: subtype として実装済み

primary 投稿時に当該アカウントで登録されている umbrella を指定できるようにする(現在はキュレータが primary → umbrella の対応付けをリクエストベースで実施している)
primary → umbrella の対応関係整合性チェックは rule 16 Invalid project is selected as an umbrella project. Please select a valid umbrella project. で実装済み

object File チェック

1 project - 1 bioproject xml

  • rule_class BioProject rule 37 error Multiple projects として追加

#all を File とした rule 1 well-formed, 2 xsd location #file_format
37 location #file
としてみた

DRA all

#all を書き下した

file 単位チェック

  • DRA 32 error ignore Missing submission Submission XML is required for submitting Experiment, Run and Analysis 追加

ignore 見直し

いくつかの error に ignore を追加

次回

メモ

submission/validation api

Clone this wiki locally