Merge pull request #3 from patelrajnath/optim-criterion

patelrajnath · web-flow · commit bba1c594026a · 2020-01-11T23:08:21.000Z
Optim criterion
diff --git a/dl4nlp/models/transformer_att.py b/dl4nlp/models/transformer_att.py
@@ -165,10 +165,10 @@ def forward(self, x, mask):
 @register_model_architecture('transformer', 'transformer')
 def base_architecture(args):
     args.encoder_embed_path = getattr(args, 'encoder_embed_path', None)
-    args.encoder_embed_dim = getattr(args, 'encoder_embed_dim', 512)
-    args.encoder_ffn_embed_dim = getattr(args, 'encoder_ffn_embed_dim', 2048)
-    args.encoder_layers = getattr(args, 'encoder_layers', 1)
-    args.encoder_attention_heads = getattr(args, 'encoder_attention_heads', 4)
+    args.encoder_embed_dim = getattr(args, 'encoder_embed_dim', 128)
+    args.encoder_ffn_embed_dim = getattr(args, 'encoder_ffn_embed_dim', 512)
+    args.encoder_layers = getattr(args, 'encoder_layers', 6)
+    args.encoder_attention_heads = getattr(args, 'encoder_attention_heads', 8)
     args.encoder_normalize_before = getattr(args, 'encoder_normalize_before', False)
     args.encoder_learned_pos = getattr(args, 'encoder_learned_pos', False)
     args.attention_dropout = getattr(args, 'attention_dropout', 0.)