clinical-genomics-uppsala · padraicc · Jan 3, 2024 · Jan 2, 2024 · Jan 2, 2024 · Jan 2, 2024
@@ -332,5 +332,9 @@ vep_trio:
   vep_cache: "reference/VEP/"
   extra: "--assembly GRCh38 --check_existing --pick --max_af --buffer_size 50000"
 
+verifybamid2:
+  container: "docker://hydragenetics/verifybamid2:2.0.1"
+  svd_mu: "reference/1000g.phase3.100k.b38.vcf.gz.dat.mu"
+
 vt_decompose:
   container: "docker://hydragenetics/vt:2015.11.10"
@@ -22,7 +22,7 @@ modules:
   snv_indels: "v0.5.0"
 
 reference:
-  coverage_bed: "/beegfs-storage/data/ref_data/refseq/refseq_select_mane_20230828.bed"   #Created bed with https://github.com/zezzipa/UCSCtable2bed
+  coverage_bed: "/beegfs-storage/data/ref_data/refseq/refseq_select_mane_with_MT_20240102.bed"   #Created bed with https://github.com/zezzipa/UCSCtable2bed
   design_bed: "/beegfs-storage/data/ref_genomes/GRCh38/reference_grasnatter/homo_sapiens.wgs.bed"
   exome_bed: "/beegfs-storage/projects/wp3/Reference_files/Manifest/Clinical_research_exome/TWIST/Twist_Comprehensive_Exome_Covered_Targets_hg38.bed"
   exome_intervals: "/beegfs-storage/projects/wp3/Reference_files/Manifest/Clinical_research_exome/TWIST/Twist_Comprehensive_Exome_Covered_Targets_hg38_interval_list.bed"
@@ -236,6 +236,7 @@ multiqc:
         - "qc/picard_collect_wgs_metrics/{sample}_{type}.txt"
         - "qc/samtools_stats/{sample}_{type}.samtools-stats.txt"
         - "qc/samtools_idxstats/{sample}_{type}.samtools-idxstats.txt"
+        - "qc/verifybamid2/{sample}_{type}.selfSM"
 
 mt_reference:
   mt: "/beegfs-storage/data/ref_data/gatk_mito/Homo_sapiens_assembly38.chrM.fasta"
@@ -332,5 +333,9 @@ vep_trio:
   vep_cache: "/beegfs-storage/data/ref_genomes/VEP/"
   extra: "--assembly GRCh38 --check_existing --pick --max_af --buffer_size 50000"
 
+verifybamid2:
+  container: "docker://hydragenetics/verifybamid2:2.0.1"
+  svd_mu: "/beegfs-storage/data/ref_data/verifybamid2/1000g.phase3.100k.b38.vcf.gz.dat.mu"
+
 vt_decompose:
   container: "docker://hydragenetics/vt:2015.11.10"
@@ -23,7 +23,7 @@ modules:
   snv_indels: "v0.5.0"
 
 reference:
-  coverage_bed: /castor/project/proj/poirot_pipeline/reference_files/refseq_select_mane_20230828.bed
+  coverage_bed: /castor/project/proj/poirot_pipeline/reference_files/refseq_select_mane_with_MT_20240102.bed
   design_bed: /castor/project/proj/poirot_pipeline/reference_files/homo_sapiens.wgs.bed
   exome_bed: /castor/project/proj/poirot_pipeline/reference_files/Twist_Comprehensive_Exome_Covered_Targets_hg38.bed
   exome_intervals: /castor/project/proj/poirot_pipeline/reference_files/Twist_Comprehensive_Exome_Covered_Targets_hg38_interval_list.bed
@@ -344,6 +344,10 @@ vep_trio:
   extra: --assembly GRCh38 --check_existing --pick --max_af --buffer_size 50000
   vep_cache: /castor/project/proj/poirot_pipeline/reference_files/VEP/
 
+verifybamid2:
+  container: /castor/project/proj/poirot_pipeline/singularity_files/hydragenetics_verifybamid2_2.0.1.sif
+  svd_mu: /castor/project/proj/poirot_pipeline/reference_files/verifybamid2/1000g.phase3.100k.b38.vcf.gz.dat.mu
+
 vt_decompose:
   container: /castor/project/proj/poirot_pipeline/singularity_files/hydragenetics_vt_2015.11.10.sif
 
@@ -92,6 +92,12 @@ gatk_sort_sam:
 glnexus:
   threads: 20
 
+manta_run_workflow_n:
+  threads: 20
+  mem_mb: 122880
+  mem_per_cpu: 6144
+  time: "20:00:00"
+
 mosdepth:
   mem_mb: 36864
   threads: 4
@@ -154,3 +160,8 @@ tiddit:
 
 vep:
   threads: 4
+
+verifybamid2:
+  mem_mb: 49152
+  mem_per_cpu: 6144
+  threads: 8
@@ -86,6 +86,11 @@ glnexus:
   mem_per_cpu: 7168
   threads: 16
 
+manta_run_workflow_n:
+  mem_mb: 57344
+  mem_per_cpu: 7168
+  threads: 16
+
 mosdepth:
   mem_mb: 57344
   mem_per_cpu: 7168
@@ -159,3 +164,8 @@ vep:
   mem_mb: 28672
   mem_per_cpu: 7168
   threads: 4
+
+verifybamid2:
+  mem_mb: 49152
+  mem_per_cpu: 6144
+  threads: 8
@@ -419,6 +419,14 @@ use rule samtools_idxstats from qc as qc_samtools_idxstats with:
         temp("qc/samtools_idxstats/{sample}_{type}.samtools-idxstats.txt"),
 
 
+use rule verifybamid2 from qc as qc_verifybamid2 with:
+    input:
+        bam=lambda wildcards: get_bam_input(wildcards)[0],
+        bai=lambda wildcards: get_bam_input(wildcards)[1],
+        ref=config.get("reference", {}).get("fasta", ""),
+        svd_mu=config.get("verifybamid2", {}).get("svd_mu", ""),
+
+
 module snv_indels:
     snakefile:
         get_module_snakefile(config, "hydra-genetics/snv_indels", path="workflow/Snakefile", tag=config["modules"]["snv_indels"])

@@ -76,8 +76,12 @@
         line = lline.strip().split('\t')
         length = int(line[2])-int(line[1])
         gene = line[3].split("_")[0]
-        exon = line[3].split("_")[3]
-        transcript = "NM_"+line[3].split("_")[2]
+        if line[3].split("_")[1] == "NM":
+            transcript = "NM_"+line[3].split("_")[2]
+            exon = line[3].split("_")[3]
+        else:
+            transcript = line[3].split("_")[1]
+            exon = line[3].split("_")[2]
         covRow = [gene, transcript, exon, line[4], length]
         tableLinesCov_unsorted.append(covRow)
         bedfile.append(line[0:4])