Merge pull request #32 from maize-genetics/fasta-gzip-ext

tcasstevens · web-flow · commit dd77d4e29902 · 2024-07-02T16:42:43.000-04:00
Fasta gzip ext
diff --git a/src/main/kotlin/biokotlin/genome/GenomicFeatures.kt b/src/main/kotlin/biokotlin/genome/GenomicFeatures.kt
@@ -3,9 +3,12 @@ package biokotlin.genome
 
 import biokotlin.seq.NucSeqRecord
 import biokotlin.seqIO.NucSeqIO
-import org.jetbrains.kotlinx.dataframe.*
+import biokotlin.util.bufferedReader
+import org.jetbrains.kotlinx.dataframe.ColumnsContainer
+import org.jetbrains.kotlinx.dataframe.DataColumn
+import org.jetbrains.kotlinx.dataframe.DataFrame
+import org.jetbrains.kotlinx.dataframe.DataRow
 import org.jetbrains.kotlinx.dataframe.api.*
-import java.io.File
 
 /**
  * The GenomicFeatures class processes data from a GFF formatted file.
@@ -97,7 +100,7 @@ class GenomicFeatures(val gffFile:String, val refFasta:String? = null) {
 
         var totalCount = 0
         var batchCount = 0
-        val gffLines =  File(gffFile).bufferedReader().readLines()
+        val gffLines =  bufferedReader(gffFile).readLines()
         println("readGffToLists: number of file lines read: ${gffLines.size}")
         for (line in gffLines) {
             totalCount++
diff --git a/src/main/kotlin/biokotlin/genome/MAFProcessingUtils.kt b/src/main/kotlin/biokotlin/genome/MAFProcessingUtils.kt
@@ -6,7 +6,6 @@ import com.google.common.collect.RangeMap
 import com.google.common.collect.Sets
 import com.google.common.collect.TreeRangeMap
 import io.github.oshai.kotlinlogging.KotlinLogging
-import io.github.oshai.kotlinlogging.KotlinLogging.logger
 import org.jetbrains.kotlinx.dataframe.DataFrame
 import org.jetbrains.kotlinx.dataframe.api.toDataFrame
 import java.io.BufferedReader
@@ -87,8 +86,8 @@ fun mergeWiggleFiles(file1:String, file2:String, contig:String,  outputFile:Stri
     // Take 2 wiggle files - must be the same length.  Merge the values from the 2
     // into a new file.
 
-    val file1Lines = File(file1).bufferedReader().readLines()
-    val file2Lines = File(file2).bufferedReader().readLines()
+    val file1Lines = bufferedReader(file1).readLines()
+    val file2Lines = bufferedReader(file2).readLines()
 
     check(file1Lines.size == file2Lines.size) {"mergeWiggleFiles: ERROR, ${file1} size ${file1Lines.size} does not match ${file2} size ${file2Lines.size}"}
 
diff --git a/src/main/kotlin/biokotlin/genome/Ranges.kt b/src/main/kotlin/biokotlin/genome/Ranges.kt
@@ -9,14 +9,13 @@ import biokotlin.seq.NucSeq
 import biokotlin.seq.NucSeqRecord
 import biokotlin.seq.ProteinSeq
 import biokotlin.seq.SeqRecord
+import biokotlin.util.bufferedReader
 import com.google.common.collect.*
 import org.jetbrains.kotlinx.dataframe.DataFrame
 import org.jetbrains.kotlinx.dataframe.api.toDataFrame
 import java.io.ByteArrayOutputStream
 import java.io.File
 import java.util.*
-import kotlin.Comparator
-import kotlin.collections.HashMap
 
 /**
  * This class defines  Biokotlin ranges as well as functions that may be run against
@@ -860,8 +859,7 @@ fun findNegativePeaks(positive: NucSeq, rangeList: List<SRange>, pairingFunc: (N
 fun fastaToNucSeq (fasta: String): Map<String, NucSeq> {
     val chromNucSeqMap  = HashMap<String,NucSeq>()
     try {
-        val file = File(fasta)
-        file.bufferedReader().use { br ->
+        bufferedReader(fasta).use { br ->
             var currChrom: String = "-1"
             var currSeq = ByteArrayOutputStream()
             var line = br.readLine()
diff --git a/src/main/kotlin/biokotlin/kmer/KmerIO.kt b/src/main/kotlin/biokotlin/kmer/KmerIO.kt
@@ -1,5 +1,6 @@
 package biokotlin.kmer
 
+import biokotlin.util.bufferedReader
 import it.unimi.dsi.fastutil.BigArrays
 import net.jpountz.lz4.LZ4FrameInputStream
 import net.jpountz.lz4.LZ4FrameOutputStream
@@ -28,7 +29,7 @@ class KmerIO(filename: String, isCompressed: Boolean = true): Iterator<Pair<Kmer
         reader = if (isCompressed) {
             BufferedReader(InputStreamReader(LZ4FrameInputStream(FileInputStream(File(filename)))))
         } else {
-            File(filename).bufferedReader()
+            bufferedReader(filename)
         }
 
         /*
diff --git a/src/main/kotlin/biokotlin/seqIO/FastqIO.kt b/src/main/kotlin/biokotlin/seqIO/FastqIO.kt
@@ -3,11 +3,11 @@ package biokotlin.seqIO
 import biokotlin.seq.NucSeqRecord
 import biokotlin.seq.Seq
 import biokotlin.seq.SeqRecord
+import biokotlin.util.bufferedReader
 import com.google.common.collect.ImmutableMap
 import kotlinx.coroutines.*
 import kotlinx.coroutines.channels.Channel
 import java.io.BufferedReader
-import java.io.File
 
 /**
 [FastqIO] implements a [SequenceIterator] for a FASTQ file at path [filename]
@@ -100,7 +100,7 @@ class FastqIO(val filename: String) : SequenceIterator {
                 String, String>>) {
 
             try {
-                File(filename).bufferedReader().use { reader ->
+                bufferedReader(filename).use { reader ->
                     var line = reader.readLine()
                     var lineNumber = 1
                     while (line != null) {
diff --git a/src/main/kotlin/biokotlin/seqIO/SeqIO.kt b/src/main/kotlin/biokotlin/seqIO/SeqIO.kt
@@ -6,7 +6,28 @@ import java.io.File
 
 
 enum class SeqFormat(val suffixes: List<String>) {
-    fasta(listOf("fa", "fasta", "fa.gz", "fasta.gz")),
+    // https://en.wikipedia.org/wiki/FASTA_format
+    // .fasta, .fas, .fa, .fna, .ffn, .faa, .mpfa, .frn
+    fasta(
+        listOf(
+            "fa",
+            "fasta",
+            "fa.gz",
+            "fasta.gz",
+            "fas",
+            "fas.gz",
+            "fna",
+            "fna.gz",
+            "ffn",
+            "ffn.gz",
+            "faa",
+            "faa.gz",
+            "mpfa",
+            "mpfa.gz",
+            "frn",
+            "frn.gz"
+        )
+    ),
     fastq(listOf("fq", "fastq", "fq.gz", "fastq.gz"))
 }