add lstm generation with docs

liugangcode · liugangcode · commit 35767e17b485 · 2025-05-14T16:21:24.000-04:00
diff --git a/docs/source/api/generator.rst b/docs/source/api/generator.rst
@@ -67,11 +67,18 @@ Modeling Molecules as Graphs with Heuristic-based Generators
    :undoc-members:
    :show-inheritance:
 
-Modeling Molecules as Sequences with Transformer-based Generators
------------------------------------------------------------------
+Modeling Molecules as Sequences
+--------------------------------
 
 .. rubric:: MolGPT for Unconditional Molecular Generation
 .. autoclass:: torch_molecule.generator.molgpt.modeling_molgpt.MolGPTMolecularGenerator
+   :exclude-members: fitting_epoch, fitting_loss, model_name, model_class
+   :members: fit, generate
+   :undoc-members:
+   :show-inheritance:
+
+.. rubric:: LSTM for Unconditional/Conditional Molecular Generation
+.. autoclass:: torch_molecule.generator.lstm.modeling_lstm.LSTMMolecularGenerator
    :exclude-members: fitting_epoch, fitting_loss, model_name, model_class
    :members: fit, generate
    :undoc-members:
diff --git a/tests/generator/run_lstm.py b/tests/generator/run_lstm.py
@@ -0,0 +1,127 @@
+import os
+import numpy as np
+import pandas as pd
+from tqdm import tqdm
+
+import torch
+from torch_molecule.generator.lstm import LSTMMolecularGenerator
+
+EPOCHS = 1000  # Reduced for faster testing
+BATCH_SIZE = 24
+
+def test_lstm_generator():
+    # Load data from polymer100.csv
+    data_path = os.path.join(os.path.dirname(os.path.dirname(os.path.dirname(__file__))), 
+                            "data", "polymer100.csv")
+    print(f"Loading data from: {data_path}")
+    
+    df = pd.read_csv(data_path)
+    smiles_list = df['smiles'].tolist()
+    
+    # Extract property columns (all columns except 'smiles')
+    property_columns = [col for col in df.columns if col != 'smiles']
+    properties = df[property_columns].values.tolist()
+    
+    print(f"Loaded {len(smiles_list)} molecules with {len(property_columns)} properties")
+    print(f"Property columns: {property_columns}")
+    print(f"First 3 SMILES: {smiles_list[:3]}")
+    print(f"First 3 properties: {properties[:3]}")
+    
+    # 1. Basic initialization test - Unconditional Model
+    print("\n=== Testing Unconditional LSTM model initialization ===")
+    unconditional_model = LSTMMolecularGenerator(
+        num_layer=3,
+        hidden_size=128,
+        max_len=64,
+        batch_size=BATCH_SIZE,
+        epochs=EPOCHS,
+        verbose=True
+    )
+    print("Unconditional LSTM Model initialized successfully")
+
+    # 2. Basic fitting test - Unconditional Model
+    print("\n=== Testing Unconditional LSTM model fitting ===")
+    unconditional_model.fit(smiles_list)
+    print("Unconditional LSTM Model fitting completed")
+
+    # 3. Unconditional generation test
+    print("\n=== Testing Unconditional LSTM generation ===")
+    generated_smiles_uncond = unconditional_model.generate(batch_size=BATCH_SIZE)
+    print(f"Unconditionally generated {len(generated_smiles_uncond)} molecules")
+    print("Example unconditionally generated SMILES:", generated_smiles_uncond[:10])
+    
+    # 4. Model saving and loading test - Unconditional Model
+    print("\n=== Testing Unconditional LSTM model saving and loading ===")
+    save_path = "unconditional_lstm_test_model.pt"
+    unconditional_model.save_to_local(save_path)
+    print(f"Unconditional LSTM Model saved to {save_path}")
+
+    new_unconditional_model = LSTMMolecularGenerator()
+    new_unconditional_model.load_from_local(save_path)
+    print("Unconditional LSTM Model loaded successfully")
+
+    # Test generation with loaded unconditional model
+    generated_smiles_uncond = new_unconditional_model.generate(batch_size=5)
+    print("Generated molecules with loaded unconditional model:", len(generated_smiles_uncond))
+    print("Example generated SMILES:", generated_smiles_uncond[:10])
+
+    # Clean up unconditional model
+    if os.path.exists(save_path):
+        os.remove(save_path)
+        print(f"Cleaned up {save_path}")
+    
+    # 5. Basic initialization test - Property Conditional Model
+    print("\n=== Testing Property Conditional LSTM model initialization ===")
+    prop_conditional_model = LSTMMolecularGenerator(
+        num_layer=2,
+        hidden_size=128,
+        max_len=64,
+        num_task=len(property_columns),  # Set number of properties
+        batch_size=BATCH_SIZE,
+        epochs=EPOCHS,
+        verbose=True
+    )
+    print("Property Conditional LSTM Model initialized successfully")
+
+    # 6. Basic fitting test - Property Conditional Model
+    print("\n=== Testing Property Conditional LSTM model fitting ===")
+    prop_conditional_model.fit(smiles_list, properties)
+    print("Property Conditional LSTM Model fitting completed")
+
+    # 7. Property conditional generation test
+    print("\n=== Testing Property Conditional LSTM generation ===")
+    # Create some target properties (using mean values from the dataset as a starting point)
+    mean_properties = np.mean(properties, axis=0).tolist()
+    target_properties = []
+    for i in range(5):
+        # Create variations around the mean
+        target_prop = [p * (0.8 + 0.4 * np.random.random()) for p in mean_properties]
+        target_properties.append(target_prop)
+    
+    print(f"Target properties for generation: {target_properties}")
+    generated_smiles = prop_conditional_model.generate(labels=target_properties)
+    print(f"Property conditionally generated {len(generated_smiles)} molecules")
+    print("Example property conditionally generated SMILES:", generated_smiles[:2])
+    
+    # 8. Model saving and loading test - Property Conditional Model
+    print("\n=== Testing Property Conditional LSTM model saving and loading ===")
+    save_path = "prop_conditional_lstm_test_model.pt"
+    prop_conditional_model.save_to_local(save_path)
+    print(f"Property Conditional LSTM Model saved to {save_path}")
+
+    new_prop_conditional_model = LSTMMolecularGenerator()
+    new_prop_conditional_model.load_from_local(save_path)
+    print("Property Conditional LSTM Model loaded successfully")
+
+    # Test generation with loaded property conditional model
+    generated_smiles = new_prop_conditional_model.generate(labels=target_properties)
+    print("Generated molecules with loaded property conditional model:", len(generated_smiles))
+    print("Example generated SMILES:", generated_smiles[:2])
+
+    # Clean up property conditional model
+    if os.path.exists(save_path):
+        os.remove(save_path)
+        print(f"Cleaned up {save_path}")
+
+if __name__ == "__main__":
+    test_lstm_generator()
diff --git a/torch_molecule/__init__.py b/torch_molecule/__init__.py
@@ -31,6 +31,7 @@
 from .generator.digress import DigressMolecularGenerator
 from .generator.molgpt import MolGPTMolecularGenerator
 from .generator.gdss import GDSSMolecularGenerator
+from .generator.lstm import LSTMMolecularGenerator
 
 __all__ = [
     # 'BaseMolecularPredictor',
@@ -59,4 +60,5 @@
     'DigressMolecularGenerator',
     'MolGPTMolecularGenerator',
     'GDSSMolecularGenerator',
+    'LSTMMolecularGenerator',
 ]
diff --git a/torch_molecule/generator/lstm/__init__.py b/torch_molecule/generator/lstm/__init__.py
@@ -1,3 +1,3 @@
 from .modeling_lstm import LSTMMolecularGenerator
 
-# __all__ = ['LSTMMolecularGenerator']
+__all__ = ['LSTMMolecularGenerator']
diff --git a/torch_molecule/generator/lstm/action_sampler.py b/torch_molecule/generator/lstm/action_sampler.py
@@ -4,8 +4,8 @@
 import torch.nn.functional as F
 from torch.distributions import Categorical, Distribution
 
-from lstm import LSTM
-from utils import rnn_start_token_vector
+from .lstm import LSTM
+from .utils import rnn_start_token_vector
 
 class ActionSampler:
     """
diff --git a/torch_molecule/generator/lstm/lstm.py b/torch_molecule/generator/lstm/lstm.py
@@ -1,65 +1,26 @@
-# import os
-# import time
-# from glob import glob
-# from functools import total_ordering
-# from typing import List, Set
-# from tqdm import tqdm
-
 import torch
 import torch.nn as nn
-# from torch.utils.data import DataLoader
-# import numpy as np
-
-# from .utils import canonicalize_list
-# from .utils import get_tensor_dataset, load_smiles_from_list
-# from .utils import save_model, time_since
-
-# from .action_sampler import ActionSampler
-# from .smiles_char_dict import SmilesCharDictionary
-
-# import logging
-# logger = logging.getLogger(__name__)
-# logger.addHandler(logging.NullHandler())
-
-# this file contains:
-# SmilesRnn
-# SmilesRnnTrainer 
-# SmilesRnnSampler
-
-# @total_ordering
-# class OptResult:
-#     def __init__(self, smiles: str, score: float) -> None:
-#         self.smiles = smiles
-#         self.score = score
-
-#     def __eq__(self, other):
-#         return (self.score, self.smiles) == (other.score, other.smiles)
-
-#     def __lt__(self, other):
-#         return (self.score, self.smiles) < (other.score, other.smiles)
 
 class LSTM(nn.Module):
-    """
-    character-based RNN language model optimized by with hill-climbing
-    """
-    def __init__(self, num_task, input_size, hidden_size, output_size, num_layer, dropout) -> None:
-        self.num_task = num_task
+    def __init__(self, num_task, input_size, hidden_size, output_size, num_layer, dropout):
+        super().__init__()
         self.input_size = input_size
         self.hidden_size = hidden_size
         self.output_size = output_size
         self.num_layer = num_layer
         self.dropout = dropout
-        self.hidden_transform = nn.Linear(num_task, num_layer * hidden_size)
-        self.cell_transform = nn.Linear(num_task, num_layer * hidden_size)
+        if num_task == 0:
+            self.input_dim = 1
+        else:
+            self.input_dim = num_task
+        self.hidden_transform = nn.Linear(self.input_dim, num_layer * hidden_size)
+        self.cell_transform = nn.Linear(self.input_dim, num_layer * hidden_size)
         self.encoder = nn.Embedding(input_size, hidden_size)
         self.decoder = nn.Linear(hidden_size, output_size)
 
         self.rnn = nn.LSTM(hidden_size, hidden_size, batch_first=True, num_layers=num_layer, dropout=dropout)
         self.initialize_parameters()
-        # self.criterion = nn.CrossEntropyLoss()
-        # self.sampler = SmilesRnnSampler(device=self.device, batch_size=512)
-        # self.max_len = max_len
-        
+
     def initialize_parameters(self):
         # encoder / decoder
         nn.init.xavier_uniform_(self.encoder.weight)
@@ -78,7 +39,7 @@ def initialize_parameters(self):
 
     def forward(self, input, hidden, cell):
         embeds = self.encoder(input)
-        output, hidden, cell = self.rnn(embeds, (hidden, cell))
+        output, (hidden, cell) = self.rnn(embeds, (hidden, cell))
         output = self.decoder(output)
         return output, hidden, cell
 
diff --git a/torch_molecule/generator/lstm/modeling_lstm.py b/torch_molecule/generator/lstm/modeling_lstm.py
diff --git a/torch_molecule/generator/lstm/smiles_char_dict.py b/torch_molecule/generator/lstm/smiles_char_dict.py
diff --git a/torch_molecule/generator/lstm/utils.py b/torch_molecule/generator/lstm/utils.py

Original file line number	Diff line number	Diff line change
`@@ -1,3 +1,3 @@`
`1`	`1`	`from .modeling_lstm import LSTMMolecularGenerator`
`2`	`2`
`3`		`-# __all__ = ['LSTMMolecularGenerator']`
	`3`	`+__all__ = ['LSTMMolecularGenerator']`