add TIN score calculation

- add rule for input preparation (GTF to BED12) - add rule for TIN score calculation - update rule graph and DAG image - update Slurm cluster config

add TIN score calculation
c538fe8b · BIOPZ-Bak Maciej · Alex Kanitz · a654943c · c538fe8b · c538fe8b
Commit c538fe8b authored 5 years ago by BIOPZ-Bak Maciej Committed by Alex Kanitz 5 years ago
--- a/Snakefile
+++ b/Snakefile
@@ -29,10 +29,6 @@ rule finish:
 			zip,
 			sample= [i for i in list(samples_table.index.values)], 
 			seqmode= [samples_table.loc[i,"seqmode"] for i in list(samples_table.index.values)]),
-		bai_index_map = expand(os.path.join(config["output_dir"], "{seqmode}", "{sample}", "map_genome", "{sample}_Aligned.sortedByCoord.out.bam.bai"),
-			zip,
-			sample= [i for i in list(samples_table.index.values)], 
-			seqmode= [samples_table.loc[i,"seqmode"] for i in list(samples_table.index.values)]), 
 		salmon_gn_estimates = expand(os.path.join(config["output_dir"],"{seqmode}","{sample}","salmon_quant","quant.genes.sf"),
 			zip,
 			sample= [i for i in list(samples_table.index.values)], 
@@ -41,6 +37,10 @@ rule finish:
 			zip,
 			sample= [i for i in list(samples_table.index.values)], 
 			seqmode= [samples_table.loc[i,"seqmode"] for i in list(samples_table.index.values)]),
+		TIN_score = expand(os.path.join(config["output_dir"], "{seqmode}", "{sample}", "TIN", "TIN_score.tsv"),
+			zip,
+			sample= [i for i in list(samples_table.index.values)], 
+			seqmode= [samples_table.loc[i,"seqmode"] for i in list(samples_table.index.values)]), 


 rule create_index_star:
@@ -139,3 +139,66 @@ rule create_index_kallisto:
 		chmod -R 777 {params.output_dir}; \
 		kallisto index -i {output.index} {input.transcriptome}) &> {log}"

+
+rule extract_transcripts_as_bed12:
+	''' Extract transcripts: from GTF into BED12 format'''
+	input:
+		gtf =lambda wildcards: samples_table["gtf"][0]
+	output:
+		bed12 = os.path.join(
+			config["output_dir"],
+			"full_transcripts_protein_coding.bed")
+	singularity:
+		"docker://zavolab/gtf_transcript_type_to_bed12:0.1.0"
+	threads: 1
+	log:
+		os.path.join( config["local_log"], "extract_transcripts_as_bed12.log")
+	shell:
+		"gtf_transcript_type_to_bed12.pl \
+        --anno={input.gtf} \
+        --type=protein_coding \
+        1> {output.bed12} \
+        2> {log}"
+
+
+rule calculate_TIN_scores:
+	'''Calculate TIN score'''
+	input:
+		bai = os.path.join(
+			config["output_dir"],
+			"{seqmode}",
+			"{sample}",
+			"map_genome",
+			"{sample}_Aligned.sortedByCoord.out.bam.bai"),
+		transcripts_bed12 = os.path.join(
+			config["output_dir"],
+			"full_transcripts_protein_coding.bed")
+	output:
+		TIN_score = os.path.join(
+			config["output_dir"],
+			"{seqmode}",
+			"{sample}",
+			"TIN",
+			"TIN_score.tsv")
+	params:
+		bam = os.path.join(
+			config["output_dir"],
+			"{seqmode}",
+			"{sample}",
+			"map_genome",
+			"{sample}_Aligned.sortedByCoord.out.bam"),
+		sample = "{sample}"
+	log:
+		os.path.join(config["local_log"], "{seqmode}", "{sample}", "calculate_TIN_scores.log")
+	threads:	8
+	singularity:
+		"docker://zavolab/tin_score_calculation:0.1.0"
+	shell:
+		"tin_score_calculation.py \
+        -i {params.bam} \
+        -r {input.transcripts_bed12} \
+        -c 0 \
+        --names {params.sample} \
+        -n 100 \
+        1> {output.TIN_score} \
+        2> {log}"
--- a/images/dag_test_workflow.svg
+++ b/images/dag_test_workflow.svg
--- a/images/rule_graph.svg
+++ b/images/rule_graph.svg
--- a/tests/input_files/cluster.json
+++ b/tests/input_files/cluster.json
@@ -37,5 +37,11 @@
    "time": "02:00:00",
    "threads":"6",
    "mem":"32G"
+  },
+  "calculate_TIN_scores":
+  {
+    "time": "06:00:00",
+    "threads":"8",
+    "mem":"32G"
  }
 }
--- a/workflow/rules/paired_end.snakefile.smk
+++ b/workflow/rules/paired_end.snakefile.smk
@@ -339,10 +339,3 @@ rule pe_genome_quantification_kallisto:
 		{params.directionality} \
 		{input.reads1} {input.reads2} > {output.pseudoalignment}) &> {log}"

-
-
-
-
-
-
-