-
Notifications
You must be signed in to change notification settings - Fork 0
meeting_20170926
日時: 2017-09-26(火)13:00-
場所: W207
参加: 岡別府、大石、藤澤、児玉、 福田、 藤本、 渡辺、左近(DOR)
- 運用チームとの調整事項
- 進捗確認
- スパコンチームとの調整事項
- サーバ構成と死活監視方法 資料
- ValidatorAPIのステージング版からアクセスする、ステージング用PostgreSQLの準備依頼
- ValidationAPIの仕様説明 資料
- D-Wayから送られるBioSampleXMLの形式について 参照
- D-way組み込みにあたってのValidationの仕様調整
- 新規OrganismとしてTaxID:1(taxid不明)が入力された場合に、rule4(Taxonomy name and id not match)でerrorが発生し、submitできなくなる
- 一部XMLデータで"sample_name"属性の記載がないデータがある(SSUB000263, SSUB000358).要素には記載があるが、このようなデータになる操作経路があるか(両方に同じ値)
- BioProject Validationの実装(岡別府) (27/27ルール)
- DRA Validationの実装(岡別府) (29/32ルール)
- biosample package の rdf に tsv での提供順情報を持たせる (藤澤)
- テスト
- 現状登録中のBioSampleSubmission(6533件)のデータに対して一括でValidation(v0.9.0)を実施 結果
- 安定稼働対策
- unicornの自動起動設定/unicorn-worker-killerの導入?
- validatorの死活監視と通知メール設定
- セキュリティ対応(インジェクション等)
- 更新手順書等ドキュメント作成
- t013/t014のValidatorAPIを管理者(キュレータ)から閲覧できるようにする => スパコンTに依頼
一括 validation 対象は private と public のレコードのみ
- BioSample 5400, 5500
- BioProject 5400, 5500
- DRA 700, 750, 800
参照先 BioProject, BioSample ステータスは公開予定日見過ごしで一時的に suppressed になっている場合があるので許容ステータスは 5600, 5700 以外と広くなる
★ マークはAcition Item
DBは既にあるがテスト用データしか入っていない。本番と同等のデータはセキュリティ上保持できない。(藤本)
Validatorに必要なデータをそこにインサートして検証するようにする(児玉)
ユニットテストの段階で必要データをinsertして終わったらdeleteするようにすればよい(藤澤)
接続情報を渡す(藤本) ★
t013,t014にグローバルIPを振ればNagiosから各サービスの死活監視は可能。指定時間だけを除外することも可能(渡辺)
Nagiosでシェルを指定して、戻り値の結果をチェックして対応することは可能。あるいはスパコンTで死活監視をしてもらうか(渡辺)
スパコンチームにグローバルIP付与かスパコンT死活監視のどちらにするか聴きながら依頼する(藤澤)★
今後はTaxID必須項目から外すので、TaxID:1で指定されることはない(児玉)
OrganismNameだけ書かれた場合に、単なるスペルミスか新規生物種登録かが判断できない(岡別府)
errorではなくwarningにして、エラーメッセージの文言を変えて"入力ミスでなければ新規生物種として申請します"というユーザに注意を促すメッセージにする(児玉)
(BioSample rule 45)[https://docs.google.com/spreadsheets/d/15pENGHA9hkl6QIueFb44fhQfQMThRB2tbvSE6hItHEU/edit?ts=56a1c03e#gid=0] が新規生物用の warning rule。ミススペルの確認を、新規であればそのまま submit してください、が分かりようなメッセージに修正(児玉)
古いものだと思うので、一括修正する(児玉)
SubmissionIDの一覧を渡す(岡別府)
次回はAuto-annotaionで解決できるデータ件数を算出する
TaxID:1のデータが多く残るのはおかしい。curation中のデータがある可能性がある。ValidationをかけるべきDB上のステータスを連絡する(児玉) ★ (done)
MergedのTaxIDであるケースも見られた(岡別府)
=> Mergedの場合はMerge先のOrganismが変更されていても、登録データを自動修正する。Validator側でのMergedチェックは不要になる(児玉)
BioProjectDBのデータが古いのが主原因だと思われる(岡別府)
最新のBioSample, BioProjectのデータを渡す(児玉)
複数のBioProjectが記載されていたケースもあり、その場合はエラーになる(岡別府)
=> sampleを多数のプロジェクトで使い回したケースだが、その場合はprimaryを記載して欲しいのでerrorのままでOK(児玉)
=> 最新 project sample rdb dump 提供済み、bioproject_id には primary 1つ記載するようにマニュアル変更済み(児玉)
対象のSubmissionIDの一覧を渡す(岡別府) ★
5800番のデータ21件
SSUB000263,SSUB000358,SSUB000393,SSUB000450,SSUB000536,SSUB000575,SSUB000709,SSUB000880,SSUB001184,SSUB001461,SSUB001480,SSUB001504,SSUB001708,SSUB001735,SSUB001756,SSUB001810,SSUB001863,SSUB001973,SSUB002055,SSUB002208,SSUB002372
過去に環境サンプル系パッケージで uncultured xxx を許容していた経緯があり、過去データでerrorが出るのは仕方ない。ただし、新規データは xxx metagenome のみでエラーにならないためルールはこのまま(福田)
"sample comment"はDRA sampleのデータをBioSampleに移した際に使用した属性。Descriptionに移す(児玉)★ (いずれレトロフィットします)
SampleNameやSamleTitle以外の属性が全く一緒であるケースは認識しており直せない(児玉)
"organism"と"host"の両方が"Homo sapiens"なのは不正。見直す(児玉)
必須項目でない場合に、整数の値が入れられないなら"missing"等の記述も消してもらっている(福田)
ルールの詳細を見直す(児玉) ★ (done)
=> BioSample rule 93
整数指定属性での整数チェックを warning から error (internal ignore) に変更。
BioSample rule 100
任意属性で accepted null values が記入されている場合、warning で null values を削除するという auto-correction を追加。
外部 api (ncbi e-utilities, google geocoding api) から応答がないなどの場合は「api でチェックできませんでした」のようなメッセージにする
ArrayExpress validator を使うが本 api 仕様にあわせることを検討(児玉)