Skip to content

meeting_20170926

okbp edited this page Sep 29, 2017 · 15 revisions

2017-09-26 打合せ

日時: 2017-09-26(火)13:00-
場所: W207
参加: 岡別府、大石、藤澤、児玉、 福田、 藤本、 渡辺、左近(DOR)

アジェンダ

  • 運用チームとの調整事項
  • 進捗確認
  • スパコンチームとの調整事項

運用チームとの調整事項

  • サーバ構成と死活監視方法 資料
  • ValidatorAPIのステージング版からアクセスする、ステージング用PostgreSQLの準備依頼
  • ValidationAPIの仕様説明 資料
    • D-Wayから送られるBioSampleXMLの形式について 参照
  • D-way組み込みにあたってのValidationの仕様調整
    • 新規OrganismとしてTaxID:1(taxid不明)が入力された場合に、rule4(Taxonomy name and id not match)でerrorが発生し、submitできなくなる
    • 一部XMLデータで"sample_name"属性の記載がないデータがある(SSUB000263, SSUB000358).要素には記載があるが、このようなデータになる操作経路があるか(両方に同じ値)

進捗確認

  • BioProject Validationの実装(岡別府) (27/27ルール)
  • DRA Validationの実装(岡別府) (29/32ルール)
  • biosample package の rdf に tsv での提供順情報を持たせる (藤澤)
  • テスト
    • 現状登録中のBioSampleSubmission(6533件)のデータに対して一括でValidation(v0.9.0)を実施 結果
  • 安定稼働対策
    • unicornの自動起動設定/unicorn-worker-killerの導入?
    • validatorの死活監視と通知メール設定
    • セキュリティ対応(インジェクション等)
  • 更新手順書等ドキュメント作成

スパコンチームとの調整事項

  • t013/t014のValidatorAPIを管理者(キュレータ)から閲覧できるようにする => スパコンTに依頼

会議後追加(児玉)

SQL でのステータス

一括 validation 対象は private と public のレコードのみ

  • BioSample 5400, 5500
  • BioProject 5400, 5500
  • DRA 700, 750, 800

参照先 BioProject, BioSample ステータスは公開予定日見過ごしで一時的に suppressed になっている場合があるので許容ステータスは 5600, 5700 以外と広くなる

メモ

★ マークはAcition Item

staging環境のPostgreSQLについて

DBは既にあるがテスト用データしか入っていない。本番と同等のデータはセキュリティ上保持できない。(藤本)
Validatorに必要なデータをそこにインサートして検証するようにする(児玉)
ユニットテストの段階で必要データをinsertして終わったらdeleteするようにすればよい(藤澤)
接続情報を渡す(藤本) ★

死活監視について

t013,t014にグローバルIPを振ればNagiosから各サービスの死活監視は可能。指定時間だけを除外することも可能(渡辺) Nagiosでシェルを指定して、戻り値の結果をチェックして対応することは可能。あるいはスパコンTで死活監視をしてもらうか(渡辺)
スパコンチームにグローバルIP付与かスパコンT死活監視のどちらにするか聴きながら依頼する(藤澤)★

TaxIDが記述できない場合の挙動

今後はTaxID必須項目から外すので、TaxID:1で指定されることはない(児玉)
OrganismNameだけ書かれた場合に、単なるスペルミスか新規生物種登録かが判断できない(岡別府)
errorではなくwarningにして、エラーメッセージの文言を変えて"入力ミスでなければ新規生物種として申請します"というユーザに注意を促すメッセージにする(児玉)
(BioSample rule 45)[https://docs.google.com/spreadsheets/d/15pENGHA9hkl6QIueFb44fhQfQMThRB2tbvSE6hItHEU/edit?ts=56a1c03e#gid=0] が新規生物用の warning rule。ミススペルの確認を、新規であればそのまま submit してください、が分かりようなメッセージに修正(児玉)

sample_name属性がないデータ

古いものだと思うので、一括修正する(児玉)
SubmissionIDの一覧を渡す(岡別府)

一括validationの結果について

次回はAuto-annotaionで解決できるデータ件数を算出する

rule4(Taxonomy name and id not match)

TaxID:1のデータが多く残るのはおかしい。curation中のデータがある可能性がある。ValidationをかけるべきDB上のステータスを連絡する(児玉) ★ (done)
MergedのTaxIDであるケースも見られた(岡別府)
=> Mergedの場合はMerge先のOrganismが変更されていても、登録データを自動修正する。Validator側でのMergedチェックは不要になる(児玉)

rule5(Invalid BioProject accession)

BioProjectDBのデータが古いのが主原因だと思われる(岡別府)
最新のBioSample, BioProjectのデータを渡す(児玉)
複数のBioProjectが記載されていたケースもあり、その場合はエラーになる(岡別府)
=> sampleを多数のプロジェクトで使い回したケースだが、その場合はprimaryを記載して欲しいのでerrorのままでOK(児玉)    => 最新 project sample rdb dump 提供済み、bioproject_id には primary 1つ記載するようにマニュアル変更済み(児玉)

rule18(Missing Sample name)

対象のSubmissionIDの一覧を渡す(岡別府) ★
5800番のデータ21件
SSUB000263,SSUB000358,SSUB000393,SSUB000450,SSUB000536,SSUB000575,SSUB000709,SSUB000880,SSUB001184,SSUB001461,SSUB001480,SSUB001504,SSUB001708,SSUB001735,SSUB001756,SSUB001810,SSUB001863,SSUB001973,SSUB002055,SSUB002208,SSUB002372

rule48(Package versus Organism)

過去に環境サンプル系パッケージで uncultured xxx を許容していた経緯があり、過去データでerrorが出るのは仕方ない。ただし、新規データは xxx metagenome のみでエラーにならないためルールはこのまま(福田)

rule14(Not predefined Attribute name)

"sample comment"はDRA sampleのデータをBioSampleに移した際に使用した属性。Descriptionに移す(児玉)★ (いずれレトロフィットします)

rule24(Identical Attributes)

SampleNameやSamleTitle以外の属性が全く一緒であるケースは認識しており直せない(児玉)

rule73(Redundant taxonomy attributes)

"organism"と"host"の両方が"Homo sapiens"なのは不正。見直す(児玉)

rule93(Attribute value is not integer)

必須項目でない場合に、整数の値が入れられないなら"missing"等の記述も消してもらっている(福田)
ルールの詳細を見直す(児玉) ★ (done)
=> BioSample rule 93
整数指定属性での整数チェックを warning から error (internal ignore) に変更。

BioSample rule 100
任意属性で accepted null values が記入されている場合、warning で null values を削除するという auto-correction を追加。

外部 api を使っているチェック

外部 api (ncbi e-utilities, google geocoding api) から応答がないなどの場合は「api でチェックできませんでした」のようなメッセージにする

DOR validation

ArrayExpress validator を使うが本 api 仕様にあわせることを検討(児玉)

submission/validation api

Clone this wiki locally