kmer

pone7 · pone7 · commit 99413d05f495 · 2023-02-28T23:37:20.000Z
diff --git a/.gitignore b/.gitignore
@@ -137,4 +137,5 @@ configs/selfsup/processed
 # configs/selfsup
 *.json
 *.toml
-*.ipynb
+*.ipynb
+pretrained_model/
diff --git a/configs/regression/DNA/transformer/deit/deit_t_dim64_l512_bs256_ep100.py b/configs/regression/DNA/transformer/deit/deit_t_dim64_l512_bs256_ep100.py
@@ -16,7 +16,7 @@
               'num_layers': 12,
               'num_heads': embed_dim // 16,
               'feedforward_channels': embed_dim * 4},
-        in_channels=4,
+        in_channels=4096,
         padding_index=0,
         seq_len=seq_len,
         norm_cfg=dict(type='LN', eps=1e-6),
@@ -27,6 +27,7 @@
         out_indices=-1,  # last layer
         with_cls_token=False,
         output_cls_token=False,
+        with_embedding=True,
     ),
     head=dict(
         type='RegHead',
@@ -41,19 +42,19 @@
 data_source_cfg = dict(
     type='DNASeqDataset',
     file_list=None,  # use all splits
-    word_splitor="", data_splitor=",", mapping_name="ACGT",  # gRNA tokenize
+    word_splitor=" ", data_splitor=",",  # gRNA tokenize
     data_type="regression", target_type='total',
-    filter_condition=20, max_seq_length=512,
+    max_seq_length=512,
 )
 data = dict(
-    samples_per_gpu=64,  # bs64 x 8gpu x 2 accu = bs1024
+    samples_per_gpu=128,  # 256
     workers_per_gpu=4,
     train=dict(
         data_source=dict(root=data_root+"train", **data_source_cfg)),
     val=dict(
         data_source=dict(root=data_root+"test", **data_source_cfg)),
 )
-update_interval = 2
+update_interval = 1
 
 # optimizer
 optimizer = dict(
diff --git a/configs/regression/DNA/transformer/deit/deit_t_dim64_l512_f80_bs1024_ep50.py b/configs/regression/DNA/transformer/deit/deit_t_dim64_l512_f80_bs1024_ep50.py
diff --git a/configs/regression/_base_/datasets/DNA/dna.py b/configs/regression/_base_/datasets/DNA/dna.py
@@ -2,10 +2,9 @@
 data_root = 'data/dna/'
 data_source_cfg = dict(
     type='DNASeqDataset',
-    file_list=None,  # use all splits
-    word_splitor="", data_splitor=",", mapping_name="ACGT",  # gRNA tokenize
-    data_type="regression", target_type='total',
-    filter_condition=5, max_seq_length=512
+    file_list=None, k=6, padding_idx=0,
+    word_splitor=" ", data_splitor=",",
+    data_type="regression", target_type='total', max_seq_length=512
 )
 
 dataset_type = 'RegressionDataset'
@@ -44,7 +43,7 @@
     initial=True,
     interval=1,
     samples_per_gpu=100,
-    workers_per_gpu=2,
+    workers_per_gpu=4,
     eval_param=dict(
         metric=['mse', 'spearman', 'pearson'],
         metric_options=dict(average_mode='mean')
diff --git a/openbioseq/datasets/data_sources/dna_seq_source.py b/openbioseq/datasets/data_sources/dna_seq_source.py
@@ -1,6 +1,6 @@
 import os
 import torch
-
+from itertools import product
 from tqdm import tqdm
 from openbioseq.utils import print_log
 from ..registry import DATASOURCES
@@ -17,14 +17,12 @@ class DNASeqDataset(object):
             validation training, e.g., file_list=['train_1.txt',].
         word_splitor (str): Split the data string.
         data_splitor (str): Split each seqence in the data.
-        mapping_name (str): Predefined mapping for the bio string.
         return_label (bool): Whether to return supervised labels.
         data_type (str): Type of the data.
     """
 
     CLASSES = None
-
-    ACGT = dict(N=0, A=1, C=2, G=3, T=4)
+    toks = ['A', 'C', 'G', 'T']
     col_names = ['pos1', 
                  'pos2', 
                  'pos3', 
@@ -39,26 +37,24 @@ class DNASeqDataset(object):
                  'seq', 
                  'umi', 
                  'total']
-    AminoAcids = dict()
 
     def __init__(self,
                  root,
                  file_list=None,
                  word_splitor="",
                  data_splitor=" ",
-                 mapping_name="ACGT",
                  has_labels=True,
                  return_label=True,
                  target_type='',
-                 filter_condition=0,
+                 k=6,
+                 padding_idx=0,
                  data_type="classification",
                  max_seq_length=1024,
                  max_data_length=None):
         assert file_list is None or isinstance(file_list, list)
         assert word_splitor in ["", " ", ",", ";", ".",]
         assert data_splitor in [" ", ",", ";", ".", "\t",]
         assert word_splitor != data_splitor
-        assert mapping_name in ["ACGT", "AminoAcids",]
         assert data_type in ["classification", "regression",]
         assert target_type in ['umi', 'total']
 
@@ -75,46 +71,39 @@ def __init__(self,
         self.return_label = return_label
         self.data_type = data_type
         self.max_seq_length = max_seq_length
-        self.filter_condition = filter_condition
         self.target_type = target_type
-
+        self.padding_idx = padding_idx
+        self.kmer2idx = {''.join(x) : i for i, x in enumerate(product(self.toks, repeat=k), start=1)}
         print_log("Total file length: {}".format(len(lines)), logger='root')
 
         # preprocesing
-        mapping = getattr(self, mapping_name) # mapping str to ints
         self.data_list, self.labels = [], []
         for l in tqdm(lines, desc='Data preprocessing:'):
             l = l.strip().split(data_splitor)
+            kmer_seq = l[self.col_names.index('seq')].split(word_splitor)
+            kmer_idx_seq = list(map(self.kmer2idx.get, kmer_seq))
+            padding = self.max_seq_length - len(kmer_idx_seq)
 
-            # filtering
-            con_g = int(l[self.col_names.index('g_total_count')]) > self.filter_condition
-            con_r = int(l[self.col_names.index('r_total_count')]) > self.filter_condition
-            con = con_g & con_r
-
-            if con:
-                if self.has_labels:
-                    # data = [mapping[tok] for tok in l[self.col_names.index('seq')]] + [0] * padding
-                    data_list = list(map(mapping.get, l[self.col_names.index('seq')]))
-                    padding = self.max_seq_length - len(data_list)
-                    if padding < 0:
-                        data = data_list[:self.max_seq_length]
-                    else:
-                        data = data_list + [0] * padding
+            if padding < 0:
+                data = kmer_idx_seq[:self.max_seq_length]
+            else:
+                data = kmer_idx_seq + [padding_idx] * padding
 
-                    label = l[self.col_names.index(self.target_type)]
-                    
-                    if self.data_type == "classification":
-                        label = torch.tensor(float(label)).type(torch.LongTensor)
-                    else:
-                        label = torch.tensor(float(label)).type(torch.float32)
-
-                    self.labels.append(label)
+            if self.has_labels:
+                label = l[self.col_names.index(self.target_type)]
+                
+                if self.data_type == "classification":
+                    label = torch.tensor(float(label)).type(torch.LongTensor)
                 else:
-                    # assert self.return_label is False
-                    label = None
-                    data = l.strip()[self.col_names.index['seq']]
+                    label = torch.tensor(float(label)).type(torch.float32)
+
+                self.labels.append(label)
+            else:
+                # assert self.return_label is False
+                label = None
+                data = l.strip()[self.col_names.index['seq']]
 
-                self.data_list.append(data)
+            self.data_list.append(data)
                 
         if max_data_length is not None:
             assert isinstance(max_data_length, (int, float))