You are viewing a plain text version of this content. The canonical link for it is here.

Posted to commits@singa.apache.org by wa...@apache.org on 2016/01/06 15:56:14 UTC

[1/5] incubator-singa git commit: SINGA-120 - Implemented GRU and BPTT

Repository: incubator-singa
Updated Branches:
  refs/heads/master 4ebf0bcd6 -> 24a1be9aa


SINGA-120 - Implemented GRU and BPTT

Refined the code for readability


Project: http://git-wip-us.apache.org/repos/asf/incubator-singa/repo
Commit: http://git-wip-us.apache.org/repos/asf/incubator-singa/commit/c45ff1ca
Tree: http://git-wip-us.apache.org/repos/asf/incubator-singa/tree/c45ff1ca
Diff: http://git-wip-us.apache.org/repos/asf/incubator-singa/diff/c45ff1ca

Branch: refs/heads/master
Commit: c45ff1ca51821ff7c77326af4cc3955dec303918
Parents: 4ebf0bc
Author: Ju Fan <fa...@gmail.com>
Authored: Wed Jan 6 17:26:21 2016 +0800
Committer: Wei Wang <wa...@comp.nus.edu.sg>
Committed: Wed Jan 6 22:30:29 2016 +0800

----------------------------------------------------------------------
 include/singa/neuralnet/neuron_layer.h |  2 +-
 src/neuralnet/neuron_layer/gru.cc      | 59 +++++++++++++++--------------
 2 files changed, 31 insertions(+), 30 deletions(-)
----------------------------------------------------------------------


http://git-wip-us.apache.org/repos/asf/incubator-singa/blob/c45ff1ca/include/singa/neuralnet/neuron_layer.h
----------------------------------------------------------------------
diff --git a/include/singa/neuralnet/neuron_layer.h b/include/singa/neuralnet/neuron_layer.h
index c612aed..8471aeb 100644
--- a/include/singa/neuralnet/neuron_layer.h
+++ b/include/singa/neuralnet/neuron_layer.h
@@ -202,7 +202,7 @@ class GRULayer : public NeuronLayer {
   int batchsize_; // batch size
   int vdim_, hdim_; // dimensions
 
-  Blob<float> *update_gate, *reset_gate, *new_memory, *reset_context;
+  Blob<float> *update_gate_, *reset_gate_, *new_memory_, *reset_context_;
   //!< gru layer connect to two dst layers, hence need to grad blobs.
   Blob<float> aux_grad_;
 

http://git-wip-us.apache.org/repos/asf/incubator-singa/blob/c45ff1ca/src/neuralnet/neuron_layer/gru.cc
----------------------------------------------------------------------
diff --git a/src/neuralnet/neuron_layer/gru.cc b/src/neuralnet/neuron_layer/gru.cc
index da2f9c5..149543f 100644
--- a/src/neuralnet/neuron_layer/gru.cc
+++ b/src/neuralnet/neuron_layer/gru.cc
@@ -44,9 +44,10 @@ GRULayer::~GRULayer() {
   delete weight_c_hh_;
   delete bias_c_;
 
-  delete update_gate;
-  delete reset_gate;
-  delete new_memory;
+  delete update_gate_;
+  delete reset_gate_;
+  delete new_memory_;
+  delete reset_context_;
 }
 
 void GRULayer::Setup(const LayerProto& conf,
@@ -94,9 +95,9 @@ void GRULayer::Setup(const LayerProto& conf,
     bias_c_->Setup(vector<int>{hdim_});
   }
 
-  update_gate = new Blob<float>(batchsize_, hdim_);
-  reset_gate = new Blob<float>(batchsize_, hdim_);
-  new_memory = new Blob<float>(batchsize_, hdim_);
+  update_gate_ = new Blob<float>(batchsize_, hdim_);
+  reset_gate_ = new Blob<float>(batchsize_, hdim_);
+  new_memory_ = new Blob<float>(batchsize_, hdim_);
 }
 
 void GRULayer::ComputeFeature(int flag,
@@ -121,31 +122,31 @@ void GRULayer::ComputeFeature(int flag,
   }
 
   // Compute the update gate
-  GEMM(1.0f, 0.0f, src, *w_z_hx_t, update_gate);
+  GEMM(1.0f, 0.0f, src, *w_z_hx_t, update_gate_);
   if (bias_z_ != nullptr)
-    MVAddRow(1.0f, 1.0f, bias_z_->data(), update_gate);
-  GEMM(1.0f, 1.0f, *context, *w_z_hh_t, update_gate);
-  Map<op::Sigmoid<float>, float>(*update_gate, update_gate);
+    MVAddRow(1.0f, 1.0f, bias_z_->data(), update_gate_);
+  GEMM(1.0f, 1.0f, *context, *w_z_hh_t, update_gate_);
+  Map<op::Sigmoid<float>, float>(*update_gate_, update_gate_);
 
   // Compute the reset gate
-  GEMM(1.0f, 0.0f, src, *w_r_hx_t, reset_gate);
+  GEMM(1.0f, 0.0f, src, *w_r_hx_t, reset_gate_);
   if (bias_r_ != nullptr)
-    MVAddRow(1.0f, 1.0f, bias_r_->data(), reset_gate);
-  GEMM(1.0f, 1.0f, *context, *w_r_hh_t, reset_gate);
-  Map<op::Sigmoid<float>, float>(*reset_gate, reset_gate);
+    MVAddRow(1.0f, 1.0f, bias_r_->data(), reset_gate_);
+  GEMM(1.0f, 1.0f, *context, *w_r_hh_t, reset_gate_);
+  Map<op::Sigmoid<float>, float>(*reset_gate_, reset_gate_);
 
   // Compute the new memory
-  GEMM(1.0f, 0.0f, src, *w_c_hx_t, new_memory);
+  GEMM(1.0f, 0.0f, src, *w_c_hx_t, new_memory_);
   if (bias_c_ != nullptr)
-    MVAddRow(1.0f, 1.0f, bias_c_->data(), new_memory);
-  Mult<float>(*reset_gate, *new_memory, new_memory);
-  GEMM(1.0f, 1.0f, *context, *w_c_hh_t, new_memory);
-  Map<op::Tanh<float>, float>(*new_memory, new_memory);
+    MVAddRow(1.0f, 1.0f, bias_c_->data(), new_memory_);
+  Mult<float>(*reset_gate_, *new_memory_, new_memory_);
+  GEMM(1.0f, 1.0f, *context, *w_c_hh_t, new_memory_);
+  Map<op::Tanh<float>, float>(*new_memory_, new_memory_);
 
 
-  Sub(*context, *new_memory, &data_);
-  Mult(data_, *update_gate, &data_);
-  Add(data_, *new_memory, &data_);
+  Sub(*context, *new_memory_, &data_);
+  Mult(data_, *update_gate_, &data_);
+  Add(data_, *new_memory_, &data_);
 
   // delete the pointers
   if (srclayers.size() == 1)
@@ -180,26 +181,26 @@ void GRULayer::ComputeGradient(int flag,
 
   // Compute intermediate gradients which are used for other computations
   Blob<float> dugatedz(batchsize_, hdim_);
-  Map<singa::op::SigmoidGrad<float>, float>(*update_gate, &dugatedz);
+  Map<singa::op::SigmoidGrad<float>, float>(*update_gate_, &dugatedz);
   Blob<float> drgatedr(batchsize_, hdim_);
-  Map<singa::op::SigmoidGrad<float>, float>(*reset_gate, &drgatedr);
+  Map<singa::op::SigmoidGrad<float>, float>(*reset_gate_, &drgatedr);
   Blob<float> dnewmdc(batchsize_, hdim_);
-  Map<singa::op::TanhGrad<float>, float>(*new_memory, &dnewmdc);
+  Map<singa::op::TanhGrad<float>, float>(*new_memory_, &dnewmdc);
 
   Blob<float> dLdz(batchsize_, hdim_);
-  Sub<float>(*context, *new_memory, &dLdz);
+  Sub<float>(*context, *new_memory_, &dLdz);
   Mult<float>(dLdz, grad_, &dLdz);
   Mult<float>(dLdz, dugatedz, &dLdz);
 
   Blob<float> dLdc(batchsize_, hdim_);
   Blob<float> z1(batchsize_, hdim_);
   z1.SetValue(1.0f);
-  AXPY<float>(-1.0f, *update_gate, &z1);
+  AXPY<float>(-1.0f, *update_gate_, &z1);
   Mult(grad_, z1, &dLdc);
   Mult(dLdc, dnewmdc, &dLdc);
 
   Blob<float> reset_dLdc(batchsize_, hdim_);
-  Mult(dLdc, *reset_gate, &reset_dLdc);
+  Mult(dLdc, *reset_gate_, &reset_dLdc);
 
   Blob<float> dLdr(batchsize_, hdim_);
   Blob<float> cprev(batchsize_, hdim_);
@@ -247,7 +248,7 @@ void GRULayer::ComputeGradient(int flag,
         clayer->mutable_grad(this));
     GEMM(1.0f, 1.0f, dLdr, weight_r_hh_->data(), clayer->mutable_grad(this));
     GEMM(1.0f, 1.0f, dLdz, weight_z_hh_->data(), clayer->mutable_grad(this));
-    Add(clayer->grad(this), *update_gate, clayer->mutable_grad(this));
+    Add(clayer->grad(this), *update_gate_, clayer->mutable_grad(this));
     // LOG(ERROR) << "grad to prev gru " << Asum(clayer->grad(this));
   }

[2/5] incubator-singa git commit: SINGA-120 - Implemented GRU and BPTT

Posted by wa...@apache.org.

SINGA-120 - Implemented GRU and BPTT

Fixed the bug of computing new memory


Project: http://git-wip-us.apache.org/repos/asf/incubator-singa/repo
Commit: http://git-wip-us.apache.org/repos/asf/incubator-singa/commit/d5e991c4
Tree: http://git-wip-us.apache.org/repos/asf/incubator-singa/tree/d5e991c4
Diff: http://git-wip-us.apache.org/repos/asf/incubator-singa/diff/d5e991c4

Branch: refs/heads/master
Commit: d5e991c47f771bde93c6917eaa95e6d491ad958d
Parents: c72ef0f
Author: Ju Fan <fa...@gmail.com>
Authored: Wed Jan 6 22:23:49 2016 +0800
Committer: Wei Wang <wa...@comp.nus.edu.sg>
Committed: Wed Jan 6 22:30:38 2016 +0800

----------------------------------------------------------------------
 src/neuralnet/neuron_layer/gru.cc | 25 +++++++++++++------------
 src/test/test_gru_layer.cc        |  3 ++-
 2 files changed, 15 insertions(+), 13 deletions(-)
----------------------------------------------------------------------


http://git-wip-us.apache.org/repos/asf/incubator-singa/blob/d5e991c4/src/neuralnet/neuron_layer/gru.cc
----------------------------------------------------------------------
diff --git a/src/neuralnet/neuron_layer/gru.cc b/src/neuralnet/neuron_layer/gru.cc
index 8ca189f..043b6ef 100644
--- a/src/neuralnet/neuron_layer/gru.cc
+++ b/src/neuralnet/neuron_layer/gru.cc
@@ -34,22 +34,20 @@ using std::vector;
 GRULayer::~GRULayer() {
   delete weight_z_hx_;
   delete weight_z_hh_;
-  if (bias_z_ != nullptr)
-    delete bias_z_;
+  delete bias_z_;
 
   delete weight_r_hx_;
   delete weight_r_hh_;
-  if (bias_r_ != nullptr)
   delete bias_r_;
 
   delete weight_c_hx_;
   delete weight_c_hh_;
-  if (bias_c_ != nullptr)
-    delete bias_c_;
+  delete bias_c_;
 
   delete update_gate_;
   delete reset_gate_;
   delete new_memory_;
+  //delete reset_context_;
 }
 
 void GRULayer::Setup(const LayerProto& conf,
@@ -129,22 +127,25 @@ void GRULayer::ComputeFeature(int flag,
     MVAddRow(1.0f, 1.0f, bias_z_->data(), update_gate_);
   GEMM(1.0f, 1.0f, *context, *w_z_hh_t, update_gate_);
   Map<op::Sigmoid<float>, float>(*update_gate_, update_gate_);
-
+  //LOG(ERROR) << "Update Gate: " << update_gate_->cpu_data()[0];
   // Compute the reset gate
   GEMM(1.0f, 0.0f, src, *w_r_hx_t, reset_gate_);
   if (bias_r_ != nullptr)
     MVAddRow(1.0f, 1.0f, bias_r_->data(), reset_gate_);
   GEMM(1.0f, 1.0f, *context, *w_r_hh_t, reset_gate_);
   Map<op::Sigmoid<float>, float>(*reset_gate_, reset_gate_);
-
+  //LOG(ERROR) << "Reset Gate: " << reset_gate_->cpu_data()[0];
   // Compute the new memory
-  GEMM(1.0f, 0.0f, src, *w_c_hx_t, new_memory_);
+  GEMM(1.0f, 1.0f, src, *w_c_hx_t, new_memory_);
   if (bias_c_ != nullptr)
-    MVAddRow(1.0f, 1.0f, bias_c_->data(), new_memory_);
-  Mult<float>(*reset_gate_, *new_memory_, new_memory_);
-  GEMM(1.0f, 1.0f, *context, *w_c_hh_t, new_memory_);
-  Map<op::Tanh<float>, float>(*new_memory_, new_memory_);
+	  MVAddRow(1.0f, 1.0f, bias_c_->data(), new_memory_);
 
+  Blob<float> cprev (batchsize_, hdim_);
+  GEMM(1.0f, 0.0f, *context, *w_c_hh_t, &cprev);
+  Mult<float>(*reset_gate_, cprev, &cprev);
+  Add<float>(*new_memory_, cprev, new_memory_);
+  Map<op::Tanh<float>, float>(*new_memory_, new_memory_);
+  //LOG(ERROR) << "New Memory: " << new_memory_->cpu_data()[0];
 
   Sub(*context, *new_memory_, &data_);
   Mult(data_, *update_gate_, &data_);

http://git-wip-us.apache.org/repos/asf/incubator-singa/blob/d5e991c4/src/test/test_gru_layer.cc
----------------------------------------------------------------------
diff --git a/src/test/test_gru_layer.cc b/src/test/test_gru_layer.cc
index e432ae1..ff7c799 100644
--- a/src/test/test_gru_layer.cc
+++ b/src/test/test_gru_layer.cc
@@ -248,7 +248,7 @@ TEST_F(GRULayerTest, ComputeFeature) {
 	}
 }
 
-
+/*
 TEST_F(GRULayerTest, ComputeGradient) {
 	singa::CSVInputLayer in_layer_1;
 	singa::CSVInputLayer in_layer_2;
@@ -283,3 +283,4 @@ TEST_F(GRULayerTest, ComputeGradient) {
 	gru_layer_1.ComputeGradient(singa::kTrain, std::vector<singa::Layer*>{&in_layer_1});
 
 }
+*/

[5/5] incubator-singa git commit: SINGA-120 - Implemented GRU and BPTT

Posted by wa...@apache.org.

SINGA-120 - Implemented GRU and BPTT

check with cpplint


Project: http://git-wip-us.apache.org/repos/asf/incubator-singa/repo
Commit: http://git-wip-us.apache.org/repos/asf/incubator-singa/commit/24a1be9a
Tree: http://git-wip-us.apache.org/repos/asf/incubator-singa/tree/24a1be9a
Diff: http://git-wip-us.apache.org/repos/asf/incubator-singa/diff/24a1be9a

Branch: refs/heads/master
Commit: 24a1be9aa19064491710895a36fd93617c2a57da
Parents: 9705f39
Author: WANG Sheng <wa...@gmail.com>
Authored: Wed Jan 6 22:54:24 2016 +0800
Committer: WANG Sheng <wa...@gmail.com>
Committed: Wed Jan 6 22:54:24 2016 +0800

----------------------------------------------------------------------
 include/singa/neuralnet/neuron_layer.h |  19 +-
 src/neuralnet/neuron_layer/gru.cc      |   6 +-
 src/test/test_gru_layer.cc             | 460 ++++++++++++++--------------
 3 files changed, 241 insertions(+), 244 deletions(-)
----------------------------------------------------------------------


http://git-wip-us.apache.org/repos/asf/incubator-singa/blob/24a1be9a/include/singa/neuralnet/neuron_layer.h
----------------------------------------------------------------------
diff --git a/include/singa/neuralnet/neuron_layer.h b/include/singa/neuralnet/neuron_layer.h
index 3fe08f4..f03e91b 100644
--- a/include/singa/neuralnet/neuron_layer.h
+++ b/include/singa/neuralnet/neuron_layer.h
@@ -170,7 +170,7 @@ class GRULayer : public NeuronLayer {
   void Setup(const LayerProto& proto, const vector<Layer*>& srclayers) override;
   void ComputeFeature(int flag, const vector<Layer*>& srclayers) override;
   void ComputeGradient(int flag, const vector<Layer*>& srclayers) override;
-  ConnectionType dst_layer_connection() const override{
+  ConnectionType dst_layer_connection() const override {
     return kOneToMany;
   }
   Blob<float>* mutable_grad(const Layer* from) override {
@@ -179,15 +179,14 @@ class GRULayer : public NeuronLayer {
     else
       return gradvec_[0];
   }
-  const Blob<float>& grad(const Layer* from) override{
+  const Blob<float>& grad(const Layer* from) override {
     if (typeid(*from) == typeid(GRULayer))
       return *gradvec_[1];
     else
       return *gradvec_[0];
   }
-
   const std::vector<Param*> GetParams() const override {
-    std::vector<Param*> params{weight_z_hx_, weight_r_hx_,weight_c_hx_,
+    std::vector<Param*> params{weight_z_hx_, weight_r_hx_, weight_c_hx_,
       weight_z_hh_, weight_r_hh_, weight_c_hh_};
 
     if (bias_z_ != nullptr && bias_r_ != nullptr && bias_c_ != nullptr) {
@@ -199,14 +198,12 @@ class GRULayer : public NeuronLayer {
   }
 
  private:
-  int batchsize_; // batch size
-  int vdim_, hdim_; // dimensions
-
+  int batchsize_;  // batch size
+  int vdim_, hdim_;  // dimensions
   Blob<float> *update_gate_, *reset_gate_, *new_memory_;
-
-  Param *weight_z_hx_, *weight_z_hh_, *bias_z_; // update gate
-  Param *weight_r_hx_, *weight_r_hh_, *bias_r_; // reset gate
-  Param *weight_c_hx_, *weight_c_hh_, *bias_c_; // new memory
+  Param *weight_z_hx_, *weight_z_hh_, *bias_z_;  // update gate
+  Param *weight_r_hx_, *weight_r_hh_, *bias_r_;  // reset gate
+  Param *weight_c_hx_, *weight_c_hh_, *bias_c_;  // new memory
 };
 
 /**

http://git-wip-us.apache.org/repos/asf/incubator-singa/blob/24a1be9a/src/neuralnet/neuron_layer/gru.cc
----------------------------------------------------------------------
diff --git a/src/neuralnet/neuron_layer/gru.cc b/src/neuralnet/neuron_layer/gru.cc
index d04c11b..440da91 100644
--- a/src/neuralnet/neuron_layer/gru.cc
+++ b/src/neuralnet/neuron_layer/gru.cc
@@ -47,7 +47,7 @@ GRULayer::~GRULayer() {
   delete update_gate_;
   delete reset_gate_;
   delete new_memory_;
-  //delete reset_context_;
+  // delete reset_context_;
 }
 
 void GRULayer::Setup(const LayerProto& conf,
@@ -127,14 +127,14 @@ void GRULayer::ComputeFeature(int flag,
     MVAddRow(1.0f, 1.0f, bias_z_->data(), update_gate_);
   GEMM(1.0f, 1.0f, *context, *w_z_hh_t, update_gate_);
   Map<op::Sigmoid<float>, float>(*update_gate_, update_gate_);
-  //LOG(ERROR) << "Update Gate: " << update_gate_->cpu_data()[0];
+  // LOG(ERROR) << "Update Gate: " << update_gate_->cpu_data()[0];
   // Compute the reset gate
   GEMM(1.0f, 0.0f, src, *w_r_hx_t, reset_gate_);
   if (bias_r_ != nullptr)
     MVAddRow(1.0f, 1.0f, bias_r_->data(), reset_gate_);
   GEMM(1.0f, 1.0f, *context, *w_r_hh_t, reset_gate_);
   Map<op::Sigmoid<float>, float>(*reset_gate_, reset_gate_);
-  //LOG(ERROR) << "Reset Gate: " << reset_gate_->cpu_data()[0];
+  // LOG(ERROR) << "Reset Gate: " << reset_gate_->cpu_data()[0];
   // Compute the new memory
   GEMM(1.0f, 0.0f, *context, *w_c_hh_t, new_memory_);
   Mult<float>(*reset_gate_, *new_memory_, new_memory_);

http://git-wip-us.apache.org/repos/asf/incubator-singa/blob/24a1be9a/src/test/test_gru_layer.cc
----------------------------------------------------------------------
diff --git a/src/test/test_gru_layer.cc b/src/test/test_gru_layer.cc
index 955cc8a..d7c8fe8 100644
--- a/src/test/test_gru_layer.cc
+++ b/src/test/test_gru_layer.cc
@@ -34,254 +34,254 @@ using namespace std;
 using namespace singa;
 
 class GRULayerTest: public ::testing::Test {
-protected:
-	virtual void SetUp() {
-		// Initialize the settings for the first input-layer
-		std::string path1 = "src/test/gru-in-1.csv"; // path of a csv file
-		std::ofstream ofs1(path1, std::ofstream::out);
-		ASSERT_TRUE(ofs1.is_open());
-		ofs1 << "0,0,0,1\n";
-		ofs1 << "0,0,1,0\n";
-		ofs1.close();
-		auto conf1 = in1_conf.mutable_store_conf();
-		conf1->set_path(path1);
-		conf1->set_batchsize(2);
-		conf1->add_shape(4);
-		conf1->set_backend("textfile");
-		conf1->set_has_label(false);
-
-
-		// Initialize the settings for the second input-layer
-		std::string path2 = "src/test/gru-in-2.csv"; // path of a csv file
-		std::ofstream ofs2(path2, std::ofstream::out);
-		ASSERT_TRUE(ofs2.is_open());
-		ofs2 << "0,1,0,0\n";
-		ofs2 << "1,0,0,0\n";
-		ofs2.close();
-		auto conf2 = in2_conf.mutable_store_conf();
-		conf2->set_path(path2);
-
-		conf2->set_batchsize(2);
-		conf2->add_shape(4);
-		conf2->set_backend("textfile");
-		conf2->set_has_label(false);
-
-
-		gru1_conf.mutable_gru_conf() -> set_dim_hidden(2);
-		gru1_conf.mutable_gru_conf() -> set_bias_term(true);
-		for (int i = 0; i < 9; i ++) {
-			gru1_conf.add_param();
-		}
-
-
-		gru1_conf.mutable_param(0)->set_name("wzhx1");
-		gru1_conf.mutable_param(0)->set_type(kParam);
-		gru1_conf.mutable_param(0)->mutable_init()->set_type(kConstant);
-		gru1_conf.mutable_param(0)->mutable_init()->set_value(0.5f);
-
-		gru1_conf.mutable_param(1)->set_name("wrhx1");
-		gru1_conf.mutable_param(1)->set_type(kParam);
-		gru1_conf.mutable_param(1)->mutable_init()->set_type(kConstant);
-		gru1_conf.mutable_param(1)->mutable_init()->set_value(0.5f);
-
-		gru1_conf.mutable_param(2)->set_name("wchx1");
-		gru1_conf.mutable_param(2)->set_type(kParam);
-		gru1_conf.mutable_param(2)->mutable_init()->set_type(kConstant);
-		gru1_conf.mutable_param(2)->mutable_init()->set_value(0.5f);
-
-		gru1_conf.mutable_param(3)->set_name("wzhh1");
-		gru1_conf.mutable_param(3)->set_type(kParam);
-		gru1_conf.mutable_param(3)->mutable_init()->set_type(kConstant);
-		gru1_conf.mutable_param(3)->mutable_init()->set_value(0.5f);
-
-		gru1_conf.mutable_param(4)->set_name("wrhh1");
-		gru1_conf.mutable_param(4)->set_type(kParam);
-		gru1_conf.mutable_param(4)->mutable_init()->set_type(kConstant);
-		gru1_conf.mutable_param(4)->mutable_init()->set_value(0.5f);
-
-		gru1_conf.mutable_param(5)->set_name("wchh1");
-		gru1_conf.mutable_param(5)->set_type(kParam);
-		gru1_conf.mutable_param(5)->mutable_init()->set_type(kConstant);
-		gru1_conf.mutable_param(5)->mutable_init()->set_value(0.5f);
-
-		gru1_conf.mutable_param(6)->set_name("bz1");
-		gru1_conf.mutable_param(6)->set_type(kParam);
-		gru1_conf.mutable_param(6)->mutable_init()->set_type(kConstant);
-		gru1_conf.mutable_param(6)->mutable_init()->set_value(0.5f);
-
-		gru1_conf.mutable_param(7)->set_name("br1");
-		gru1_conf.mutable_param(7)->set_type(kParam);
-		gru1_conf.mutable_param(7)->mutable_init()->set_type(kConstant);
-		gru1_conf.mutable_param(7)->mutable_init()->set_value(0.5f);
-
-		gru1_conf.mutable_param(8)->set_name("bc1");
-		gru1_conf.mutable_param(8)->set_type(kParam);
-		gru1_conf.mutable_param(8)->mutable_init()->set_type(kConstant);
-		gru1_conf.mutable_param(8)->mutable_init()->set_value(0.5f);
-
-		gru2_conf.mutable_gru_conf() -> set_dim_hidden(2);
-		gru2_conf.mutable_gru_conf() -> set_bias_term(true);
-		for (int i = 0; i < 9; i ++) {
-			gru2_conf.add_param();
-		}
-
-		gru2_conf.mutable_param(0)->set_name("wzhx2");
-		gru2_conf.mutable_param(0)->set_type(kParam);
-		gru2_conf.mutable_param(0)->mutable_init()->set_type(kConstant);
-		gru2_conf.mutable_param(0)->mutable_init()->set_value(0.5f);
-
-		gru2_conf.mutable_param(1)->set_name("wrhx2");
-		gru2_conf.mutable_param(1)->set_type(kParam);
-		gru2_conf.mutable_param(1)->mutable_init()->set_type(kConstant);
-		gru2_conf.mutable_param(1)->mutable_init()->set_value(0.5f);
-
-		gru2_conf.mutable_param(2)->set_name("wchx2");
-		gru2_conf.mutable_param(2)->set_type(kParam);
-		gru2_conf.mutable_param(2)->mutable_init()->set_type(kConstant);
-		gru2_conf.mutable_param(2)->mutable_init()->set_value(0.5f);
-
-		gru2_conf.mutable_param(3)->set_name("wzhh2");
-		gru2_conf.mutable_param(3)->set_type(kParam);
-		gru2_conf.mutable_param(3)->mutable_init()->set_type(kConstant);
-		gru2_conf.mutable_param(3)->mutable_init()->set_value(0.5f);
-
-		gru2_conf.mutable_param(4)->set_name("wrhh2");
-		gru2_conf.mutable_param(4)->set_type(kParam);
-		gru2_conf.mutable_param(4)->mutable_init()->set_type(kConstant);
-		gru2_conf.mutable_param(4)->mutable_init()->set_value(0.5f);
-
-		gru2_conf.mutable_param(5)->set_name("wchh2");
-		gru2_conf.mutable_param(5)->set_type(kParam);
-		gru2_conf.mutable_param(5)->mutable_init()->set_type(kConstant);
-		gru2_conf.mutable_param(5)->mutable_init()->set_value(0.5f);
-
-		gru2_conf.mutable_param(6)->set_name("bz2");
-		gru2_conf.mutable_param(6)->set_type(kParam);
-		gru2_conf.mutable_param(6)->mutable_init()->set_type(kConstant);
-		gru2_conf.mutable_param(6)->mutable_init()->set_value(0.5f);
-
-		gru2_conf.mutable_param(7)->set_name("br2");
-		gru2_conf.mutable_param(7)->set_type(kParam);
-		gru2_conf.mutable_param(7)->mutable_init()->set_type(kConstant);
-		gru2_conf.mutable_param(7)->mutable_init()->set_value(0.5f);
-
-		gru2_conf.mutable_param(8)->set_name("bc2");
-		gru2_conf.mutable_param(8)->set_type(kParam);
-		gru2_conf.mutable_param(8)->mutable_init()->set_type(kConstant);
-		gru2_conf.mutable_param(8)->mutable_init()->set_value(0.5f);
-
-	}
-	singa::LayerProto in1_conf;
-	singa::LayerProto in2_conf;
-	singa::LayerProto gru1_conf;
-	singa::LayerProto gru2_conf;
+ protected:
+  virtual void SetUp() {
+    // Initialize the settings for the first input-layer
+    std::string path1 = "src/test/gru-in-1.csv";  // path of a csv file
+    std::ofstream ofs1(path1, std::ofstream::out);
+    ASSERT_TRUE(ofs1.is_open());
+    ofs1 << "0,0,0,1\n";
+    ofs1 << "0,0,1,0\n";
+    ofs1.close();
+    auto conf1 = in1_conf.mutable_store_conf();
+    conf1->set_path(path1);
+    conf1->set_batchsize(2);
+    conf1->add_shape(4);
+    conf1->set_backend("textfile");
+    conf1->set_has_label(false);
+
+
+    // Initialize the settings for the second input-layer
+    std::string path2 = "src/test/gru-in-2.csv";  // path of a csv file
+    std::ofstream ofs2(path2, std::ofstream::out);
+    ASSERT_TRUE(ofs2.is_open());
+    ofs2 << "0,1,0,0\n";
+    ofs2 << "1,0,0,0\n";
+    ofs2.close();
+    auto conf2 = in2_conf.mutable_store_conf();
+    conf2->set_path(path2);
+
+    conf2->set_batchsize(2);
+    conf2->add_shape(4);
+    conf2->set_backend("textfile");
+    conf2->set_has_label(false);
+
+
+    gru1_conf.mutable_gru_conf() -> set_dim_hidden(2);
+    gru1_conf.mutable_gru_conf() -> set_bias_term(true);
+    for (int i = 0; i < 9; i ++) {
+      gru1_conf.add_param();
+    }
+
+
+    gru1_conf.mutable_param(0)->set_name("wzhx1");
+    gru1_conf.mutable_param(0)->set_type(kParam);
+    gru1_conf.mutable_param(0)->mutable_init()->set_type(kConstant);
+    gru1_conf.mutable_param(0)->mutable_init()->set_value(0.5f);
+
+    gru1_conf.mutable_param(1)->set_name("wrhx1");
+    gru1_conf.mutable_param(1)->set_type(kParam);
+    gru1_conf.mutable_param(1)->mutable_init()->set_type(kConstant);
+    gru1_conf.mutable_param(1)->mutable_init()->set_value(0.5f);
+
+    gru1_conf.mutable_param(2)->set_name("wchx1");
+    gru1_conf.mutable_param(2)->set_type(kParam);
+    gru1_conf.mutable_param(2)->mutable_init()->set_type(kConstant);
+    gru1_conf.mutable_param(2)->mutable_init()->set_value(0.5f);
+
+    gru1_conf.mutable_param(3)->set_name("wzhh1");
+    gru1_conf.mutable_param(3)->set_type(kParam);
+    gru1_conf.mutable_param(3)->mutable_init()->set_type(kConstant);
+    gru1_conf.mutable_param(3)->mutable_init()->set_value(0.5f);
+
+    gru1_conf.mutable_param(4)->set_name("wrhh1");
+    gru1_conf.mutable_param(4)->set_type(kParam);
+    gru1_conf.mutable_param(4)->mutable_init()->set_type(kConstant);
+    gru1_conf.mutable_param(4)->mutable_init()->set_value(0.5f);
+
+    gru1_conf.mutable_param(5)->set_name("wchh1");
+    gru1_conf.mutable_param(5)->set_type(kParam);
+    gru1_conf.mutable_param(5)->mutable_init()->set_type(kConstant);
+    gru1_conf.mutable_param(5)->mutable_init()->set_value(0.5f);
+
+    gru1_conf.mutable_param(6)->set_name("bz1");
+    gru1_conf.mutable_param(6)->set_type(kParam);
+    gru1_conf.mutable_param(6)->mutable_init()->set_type(kConstant);
+    gru1_conf.mutable_param(6)->mutable_init()->set_value(0.5f);
+
+    gru1_conf.mutable_param(7)->set_name("br1");
+    gru1_conf.mutable_param(7)->set_type(kParam);
+    gru1_conf.mutable_param(7)->mutable_init()->set_type(kConstant);
+    gru1_conf.mutable_param(7)->mutable_init()->set_value(0.5f);
+
+    gru1_conf.mutable_param(8)->set_name("bc1");
+    gru1_conf.mutable_param(8)->set_type(kParam);
+    gru1_conf.mutable_param(8)->mutable_init()->set_type(kConstant);
+    gru1_conf.mutable_param(8)->mutable_init()->set_value(0.5f);
+
+    gru2_conf.mutable_gru_conf() -> set_dim_hidden(2);
+    gru2_conf.mutable_gru_conf() -> set_bias_term(true);
+    for (int i = 0; i < 9; i ++) {
+      gru2_conf.add_param();
+    }
+
+    gru2_conf.mutable_param(0)->set_name("wzhx2");
+    gru2_conf.mutable_param(0)->set_type(kParam);
+    gru2_conf.mutable_param(0)->mutable_init()->set_type(kConstant);
+    gru2_conf.mutable_param(0)->mutable_init()->set_value(0.5f);
+
+    gru2_conf.mutable_param(1)->set_name("wrhx2");
+    gru2_conf.mutable_param(1)->set_type(kParam);
+    gru2_conf.mutable_param(1)->mutable_init()->set_type(kConstant);
+    gru2_conf.mutable_param(1)->mutable_init()->set_value(0.5f);
+
+    gru2_conf.mutable_param(2)->set_name("wchx2");
+    gru2_conf.mutable_param(2)->set_type(kParam);
+    gru2_conf.mutable_param(2)->mutable_init()->set_type(kConstant);
+    gru2_conf.mutable_param(2)->mutable_init()->set_value(0.5f);
+
+    gru2_conf.mutable_param(3)->set_name("wzhh2");
+    gru2_conf.mutable_param(3)->set_type(kParam);
+    gru2_conf.mutable_param(3)->mutable_init()->set_type(kConstant);
+    gru2_conf.mutable_param(3)->mutable_init()->set_value(0.5f);
+
+    gru2_conf.mutable_param(4)->set_name("wrhh2");
+    gru2_conf.mutable_param(4)->set_type(kParam);
+    gru2_conf.mutable_param(4)->mutable_init()->set_type(kConstant);
+    gru2_conf.mutable_param(4)->mutable_init()->set_value(0.5f);
+
+    gru2_conf.mutable_param(5)->set_name("wchh2");
+    gru2_conf.mutable_param(5)->set_type(kParam);
+    gru2_conf.mutable_param(5)->mutable_init()->set_type(kConstant);
+    gru2_conf.mutable_param(5)->mutable_init()->set_value(0.5f);
+
+    gru2_conf.mutable_param(6)->set_name("bz2");
+    gru2_conf.mutable_param(6)->set_type(kParam);
+    gru2_conf.mutable_param(6)->mutable_init()->set_type(kConstant);
+    gru2_conf.mutable_param(6)->mutable_init()->set_value(0.5f);
+
+    gru2_conf.mutable_param(7)->set_name("br2");
+    gru2_conf.mutable_param(7)->set_type(kParam);
+    gru2_conf.mutable_param(7)->mutable_init()->set_type(kConstant);
+    gru2_conf.mutable_param(7)->mutable_init()->set_value(0.5f);
+
+    gru2_conf.mutable_param(8)->set_name("bc2");
+    gru2_conf.mutable_param(8)->set_type(kParam);
+    gru2_conf.mutable_param(8)->mutable_init()->set_type(kConstant);
+    gru2_conf.mutable_param(8)->mutable_init()->set_value(0.5f);
+  }
+  singa::LayerProto in1_conf;
+  singa::LayerProto in2_conf;
+  singa::LayerProto gru1_conf;
+  singa::LayerProto gru2_conf;
 };
 
 TEST_F(GRULayerTest, Setup) {
-	singa::Driver driver;
-	//driver.RegisterLayer<GRULayer, int> (kGRU);
-	driver.RegisterParam<Param>(0);
-	driver.RegisterParamGenerator<UniformGen>(kUniform);
-	driver.RegisterParamGenerator<ParamGenerator>(kConstant);
-
-	singa::CSVInputLayer in_layer_1;
-	singa::CSVInputLayer in_layer_2;
-
-	in_layer_1.Setup(in1_conf, std::vector<singa::Layer*> { });
-	EXPECT_EQ(2, static_cast<int>(in_layer_1.aux_data().size()));
-	EXPECT_EQ(8, in_layer_1.data(nullptr).count());
-
-	in_layer_2.Setup(in2_conf, std::vector<singa::Layer*>{ });
-	EXPECT_EQ(2, static_cast<int>(in_layer_2.aux_data().size()));
-	EXPECT_EQ(8, in_layer_2.data(nullptr).count());
-
-	singa::GRULayer gru_layer_1;
-	gru_layer_1.Setup(gru1_conf, std::vector<singa::Layer*>{&in_layer_1});
-	//EXPECT_EQ(2, gru_layer_1.hdim());
-	//EXPECT_EQ(4, gru_layer_1.vdim());
-
-	for (unsigned int i = 0; i < gru_layer_1.GetParams().size(); i ++) {
-		gru_layer_1.GetParams()[i]->InitValues();
-	}
-	EXPECT_EQ (0.5, gru_layer_1.GetParams()[0]->data().cpu_data()[0]);
-	//cout << "gru_layer_1: " << gru_layer_1.GetParams()[0]->data().cpu_data()[0] << endl;
-
-	singa::GRULayer gru_layer_2;
-	gru_layer_2.Setup(gru2_conf, std::vector<singa::Layer*>{&in_layer_2, &gru_layer_1});
-	//EXPECT_EQ(2, gru_layer_2.hdim());
-	//EXPECT_EQ(4, gru_layer_2.vdim());
-	for (unsigned int i = 0; i < gru_layer_2.GetParams().size(); i ++) {
-		gru_layer_2.GetParams()[i]->InitValues();
-	}
-	EXPECT_EQ (0.5, gru_layer_2.GetParams()[0]->data().cpu_data()[0]);
+  singa::Driver driver;
+  // driver.RegisterLayer<GRULayer, int> (kGRU);
+  driver.RegisterParam<Param>(0);
+  driver.RegisterParamGenerator<UniformGen>(kUniform);
+  driver.RegisterParamGenerator<ParamGenerator>(kConstant);
+
+  singa::CSVInputLayer in_layer_1;
+  singa::CSVInputLayer in_layer_2;
+
+  in_layer_1.Setup(in1_conf, std::vector<singa::Layer*> { });
+  EXPECT_EQ(2, static_cast<int>(in_layer_1.aux_data().size()));
+  EXPECT_EQ(8, in_layer_1.data(nullptr).count());
+
+  in_layer_2.Setup(in2_conf, std::vector<singa::Layer*>{ });
+  EXPECT_EQ(2, static_cast<int>(in_layer_2.aux_data().size()));
+  EXPECT_EQ(8, in_layer_2.data(nullptr).count());
+
+  singa::GRULayer gru_layer_1;
+  gru_layer_1.Setup(gru1_conf, std::vector<singa::Layer*>{&in_layer_1});
+  // EXPECT_EQ(2, gru_layer_1.hdim());
+  // EXPECT_EQ(4, gru_layer_1.vdim());
+
+  for (unsigned int i = 0; i < gru_layer_1.GetParams().size(); i ++) {
+    gru_layer_1.GetParams()[i]->InitValues();
+  }
+  EXPECT_EQ (0.5, gru_layer_1.GetParams()[0]->data().cpu_data()[0]);
+  // cout << "gru_layer_1: " << gru_layer_1.GetParams()[0]->data().cpu_data()[0]
+  // << endl;
+
+  singa::GRULayer gru_layer_2;
+  gru_layer_2.Setup(gru2_conf,
+                    std::vector<singa::Layer*>{&in_layer_2, &gru_layer_1});
+  // EXPECT_EQ(2, gru_layer_2.hdim());
+  // EXPECT_EQ(4, gru_layer_2.vdim());
+  for (unsigned int i = 0; i < gru_layer_2.GetParams().size(); i ++) {
+    gru_layer_2.GetParams()[i]->InitValues();
+  }
+  EXPECT_EQ (0.5, gru_layer_2.GetParams()[0]->data().cpu_data()[0]);
 }
 
 
 /*
 TEST_F(GRULayerTest, ComputeFeature) {
-	singa::CSVInputLayer in_layer_1;
-	singa::CSVInputLayer in_layer_2;
-
-	in_layer_1.Setup(in1_conf, std::vector<singa::Layer*> { });
-	in_layer_1.ComputeFeature(singa::kTrain, std::vector<singa::Layer*> { });
-	in_layer_2.Setup(in2_conf, std::vector<singa::Layer*>{ });
-	in_layer_2.ComputeFeature(singa::kTrain, std::vector<singa::Layer*> { });
-
-
-	singa::GRULayer gru_layer_1;
-	gru_layer_1.Setup(gru1_conf, std::vector<singa::Layer*>{&in_layer_1});
-	for (unsigned int i = 0; i < gru_layer_1.GetParams().size(); i ++) {
-		gru_layer_1.GetParams()[i]->InitValues();
-	}
-	gru_layer_1.ComputeFeature(singa::kTrain, std::vector<singa::Layer*>{&in_layer_1});
-	for (int i = 0; i < gru_layer_1.data(nullptr).count(); i ++) {
-		EXPECT_GT(0.000001,abs(0.204824-gru_layer_1.data(nullptr).cpu_data()[i]));
-	}
-
-	singa::GRULayer gru_layer_2;
-	gru_layer_2.Setup(gru2_conf, std::vector<singa::Layer*>{&in_layer_2, &gru_layer_1});
-	for (unsigned int i = 0; i < gru_layer_2.GetParams().size(); i ++) {
-		gru_layer_2.GetParams()[i]->InitValues();
-	}
-	gru_layer_2.ComputeFeature(singa::kTrain, std::vector<singa::Layer*>{&in_layer_2, &gru_layer_1});
-	for (int i = 0; i < gru_layer_2.data(nullptr).count(); i ++) {
-		EXPECT_GT(0.000001,abs(0.346753-gru_layer_2.data(nullptr).cpu_data()[i]));
-	}
+  singa::CSVInputLayer in_layer_1;
+  singa::CSVInputLayer in_layer_2;
+
+  in_layer_1.Setup(in1_conf, std::vector<singa::Layer*> { });
+  in_layer_1.ComputeFeature(singa::kTrain, std::vector<singa::Layer*> { });
+  in_layer_2.Setup(in2_conf, std::vector<singa::Layer*>{ });
+  in_layer_2.ComputeFeature(singa::kTrain, std::vector<singa::Layer*> { });
+
+
+  singa::GRULayer gru_layer_1;
+  gru_layer_1.Setup(gru1_conf, std::vector<singa::Layer*>{&in_layer_1});
+  for (unsigned int i = 0; i < gru_layer_1.GetParams().size(); i ++) {
+    gru_layer_1.GetParams()[i]->InitValues();
+  }
+  gru_layer_1.ComputeFeature(singa::kTrain, std::vector<singa::Layer*>{&in_layer_1});
+  for (int i = 0; i < gru_layer_1.data(nullptr).count(); i ++) {
+    EXPECT_GT(0.000001,abs(0.204824-gru_layer_1.data(nullptr).cpu_data()[i]));
+  }
+
+  singa::GRULayer gru_layer_2;
+  gru_layer_2.Setup(gru2_conf, std::vector<singa::Layer*>{&in_layer_2, &gru_layer_1});
+  for (unsigned int i = 0; i < gru_layer_2.GetParams().size(); i ++) {
+    gru_layer_2.GetParams()[i]->InitValues();
+  }
+  gru_layer_2.ComputeFeature(singa::kTrain, std::vector<singa::Layer*>{&in_layer_2, &gru_layer_1});
+  for (int i = 0; i < gru_layer_2.data(nullptr).count(); i ++) {
+    EXPECT_GT(0.000001,abs(0.346753-gru_layer_2.data(nullptr).cpu_data()[i]));
+  }
 }
 
-/*
 TEST_F(GRULayerTest, ComputeGradient) {
-	singa::CSVInputLayer in_layer_1;
-	singa::CSVInputLayer in_layer_2;
+  singa::CSVInputLayer in_layer_1;
+  singa::CSVInputLayer in_layer_2;
 
-	in_layer_1.Setup(in1_conf, std::vector<singa::Layer*> { });
-	in_layer_1.ComputeFeature(singa::kTrain, std::vector<singa::Layer*> { });
-	in_layer_2.Setup(in2_conf, std::vector<singa::Layer*>{ });
-	in_layer_2.ComputeFeature(singa::kTrain, std::vector<singa::Layer*> { });
+  in_layer_1.Setup(in1_conf, std::vector<singa::Layer*> { });
+  in_layer_1.ComputeFeature(singa::kTrain, std::vector<singa::Layer*> { });
+  in_layer_2.Setup(in2_conf, std::vector<singa::Layer*>{ });
+  in_layer_2.ComputeFeature(singa::kTrain, std::vector<singa::Layer*> { });
 
 
-	singa::GRULayer gru_layer_1;
-	gru_layer_1.Setup(gru1_conf, std::vector<singa::Layer*>{&in_layer_1});
-	for (unsigned int i = 0; i < gru_layer_1.GetParams().size(); i ++) {
-		gru_layer_1.GetParams()[i]->InitValues();
-	}
-	gru_layer_1.ComputeFeature(singa::kTrain, std::vector<singa::Layer*>{&in_layer_1});
+  singa::GRULayer gru_layer_1;
+  gru_layer_1.Setup(gru1_conf, std::vector<singa::Layer*>{&in_layer_1});
+  for (unsigned int i = 0; i < gru_layer_1.GetParams().size(); i ++) {
+    gru_layer_1.GetParams()[i]->InitValues();
+  }
+  gru_layer_1.ComputeFeature(singa::kTrain, std::vector<singa::Layer*>{&in_layer_1});
 
 
-	singa::GRULayer gru_layer_2;
-	gru_layer_2.Setup(gru2_conf, std::vector<singa::Layer*>{&in_layer_2, &gru_layer_1});
-	for (unsigned int i = 0; i < gru_layer_2.GetParams().size(); i ++) {
-		gru_layer_2.GetParams()[i]->InitValues();
-	}
-	gru_layer_2.ComputeFeature(singa::kTrain, std::vector<singa::Layer*>{&in_layer_2, &gru_layer_1});
+  singa::GRULayer gru_layer_2;
+  gru_layer_2.Setup(gru2_conf, std::vector<singa::Layer*>{&in_layer_2, &gru_layer_1});
+  for (unsigned int i = 0; i < gru_layer_2.GetParams().size(); i ++) {
+    gru_layer_2.GetParams()[i]->InitValues();
+  }
+  gru_layer_2.ComputeFeature(singa::kTrain, std::vector<singa::Layer*>{&in_layer_2, &gru_layer_1});
 
-	// For test purpose, we set dummy values for gru_layer_2.grad_
-	for (int i = 0; i < gru_layer_2.grad(nullptr).count(); i ++) {
-		gru_layer_2.mutable_grad(nullptr)->mutable_cpu_data()[i] = 1.0f;
-	}
-	gru_layer_2.ComputeGradient(singa::kTrain, std::vector<singa::Layer*>{&in_layer_2, &gru_layer_1});
+  // For test purpose, we set dummy values for gru_layer_2.grad_
+  for (int i = 0; i < gru_layer_2.grad(nullptr).count(); i ++) {
+    gru_layer_2.mutable_grad(nullptr)->mutable_cpu_data()[i] = 1.0f;
+  }
+  gru_layer_2.ComputeGradient(singa::kTrain, std::vector<singa::Layer*>{&in_layer_2, &gru_layer_1});
 
-	gru_layer_1.ComputeGradient(singa::kTrain, std::vector<singa::Layer*>{&in_layer_1});
+  gru_layer_1.ComputeGradient(singa::kTrain, std::vector<singa::Layer*>{&in_layer_1});
 
 }
 */

[4/5] incubator-singa git commit: SINGA-120 - Implemented GRU and BPTT

Posted by wa...@apache.org.

SINGA-120 - Implemented GRU and BPTT

Improve the code for computing \hat{h_t}, i.e., the new memory of gru unit.
The loss decreases under 2 per unit.
Update test files, including test for unrolling and gru unit (ComputeFeature part)


Project: http://git-wip-us.apache.org/repos/asf/incubator-singa/repo
Commit: http://git-wip-us.apache.org/repos/asf/incubator-singa/commit/9705f39c
Tree: http://git-wip-us.apache.org/repos/asf/incubator-singa/tree/9705f39c
Diff: http://git-wip-us.apache.org/repos/asf/incubator-singa/diff/9705f39c

Branch: refs/heads/master
Commit: 9705f39cb4ed2247889bda760f2352b538321c35
Parents: d5e991c
Author: Wei Wang <wa...@comp.nus.edu.sg>
Authored: Wed Jan 6 22:06:43 2016 +0800
Committer: Wei Wang <wa...@comp.nus.edu.sg>
Committed: Wed Jan 6 22:30:38 2016 +0800

----------------------------------------------------------------------
 src/neuralnet/neuron_layer/gru.cc |  10 +-
 src/test/test_gru_layer.cc        |   1 +
 src/test/test_unrolling.cc        | 241 +++++++++++++++------------------
 3 files changed, 112 insertions(+), 140 deletions(-)
----------------------------------------------------------------------


http://git-wip-us.apache.org/repos/asf/incubator-singa/blob/9705f39c/src/neuralnet/neuron_layer/gru.cc
----------------------------------------------------------------------
diff --git a/src/neuralnet/neuron_layer/gru.cc b/src/neuralnet/neuron_layer/gru.cc
index 043b6ef..d04c11b 100644
--- a/src/neuralnet/neuron_layer/gru.cc
+++ b/src/neuralnet/neuron_layer/gru.cc
@@ -136,16 +136,12 @@ void GRULayer::ComputeFeature(int flag,
   Map<op::Sigmoid<float>, float>(*reset_gate_, reset_gate_);
   //LOG(ERROR) << "Reset Gate: " << reset_gate_->cpu_data()[0];
   // Compute the new memory
+  GEMM(1.0f, 0.0f, *context, *w_c_hh_t, new_memory_);
+  Mult<float>(*reset_gate_, *new_memory_, new_memory_);
   GEMM(1.0f, 1.0f, src, *w_c_hx_t, new_memory_);
   if (bias_c_ != nullptr)
-	  MVAddRow(1.0f, 1.0f, bias_c_->data(), new_memory_);
-
-  Blob<float> cprev (batchsize_, hdim_);
-  GEMM(1.0f, 0.0f, *context, *w_c_hh_t, &cprev);
-  Mult<float>(*reset_gate_, cprev, &cprev);
-  Add<float>(*new_memory_, cprev, new_memory_);
+    MVAddRow(1.0f, 1.0f, bias_c_->data(), new_memory_);
   Map<op::Tanh<float>, float>(*new_memory_, new_memory_);
-  //LOG(ERROR) << "New Memory: " << new_memory_->cpu_data()[0];
 
   Sub(*context, *new_memory_, &data_);
   Mult(data_, *update_gate_, &data_);

http://git-wip-us.apache.org/repos/asf/incubator-singa/blob/9705f39c/src/test/test_gru_layer.cc
----------------------------------------------------------------------
diff --git a/src/test/test_gru_layer.cc b/src/test/test_gru_layer.cc
index ff7c799..955cc8a 100644
--- a/src/test/test_gru_layer.cc
+++ b/src/test/test_gru_layer.cc
@@ -217,6 +217,7 @@ TEST_F(GRULayerTest, Setup) {
 }
 
 
+/*
 TEST_F(GRULayerTest, ComputeFeature) {
 	singa::CSVInputLayer in_layer_1;
 	singa::CSVInputLayer in_layer_2;

http://git-wip-us.apache.org/repos/asf/incubator-singa/blob/9705f39c/src/test/test_unrolling.cc
----------------------------------------------------------------------
diff --git a/src/test/test_unrolling.cc b/src/test/test_unrolling.cc
index e32c528..7965882 100644
--- a/src/test/test_unrolling.cc
+++ b/src/test/test_unrolling.cc
@@ -50,14 +50,12 @@ protected:
 		embedding_layer1->add_srclayers("data");
 		embedding_layer1->set_unroll_len(3);
 		embedding_layer1->add_unroll_conn_type(kUnrollOneToAll);
-		embedding_layer1->add_shift(0);
 
 		LayerProto* gru_layer1 = net_conf1->add_layer();
 		gru_layer1->set_name("gru");
 		gru_layer1->set_type(kGRU);
 		gru_layer1->add_srclayers("embedding");
 		gru_layer1->mutable_gru_conf()->set_dim_hidden(20);
-		gru_layer1->mutable_gru_conf()->set_bias_term(false);
 		gru_layer1->add_param()->set_name("w_z_hx");
 		gru_layer1->add_param()->set_name("w_r_hx");
 		gru_layer1->add_param()->set_name("w_c_hx");
@@ -66,7 +64,6 @@ protected:
 		gru_layer1->add_param()->set_name("w_c_hh");
 		gru_layer1->set_unroll_len(3);
 		gru_layer1->add_unroll_conn_type(kUnrollOneToOne);
-		gru_layer1->add_shift(0);
 
 		LayerProto* out_layer1 = net_conf1->add_layer();
 		out_layer1->set_name("out");
@@ -77,31 +74,18 @@ protected:
 		out_layer1->add_param()->set_name("b");
 		out_layer1->set_unroll_len(3);
 		out_layer1->add_unroll_conn_type(kUnrollOneToOne);
-		out_layer1->add_shift(0);
-
-		LayerProto* softmax_layer1 = net_conf1->add_layer();
-		softmax_layer1->set_name("softmax");
-		softmax_layer1->set_type(kSoftmax);
-		softmax_layer1->add_srclayers("out");
-		softmax_layer1->set_unroll_len(3);
-		softmax_layer1->add_unroll_conn_type(kUnrollOneToOne);
-		softmax_layer1->add_shift(0);
 
 		LayerProto* loss_layer1 = net_conf1->add_layer();
 		loss_layer1->set_name("loss");
 		loss_layer1->set_type(kSoftmaxLoss);
-		loss_layer1->add_srclayers("softmax");
+		loss_layer1->add_srclayers("out");
 		loss_layer1->add_srclayers("data");
 		loss_layer1->set_unroll_len(3);
 		loss_layer1->add_unroll_conn_type(kUnrollOneToOne);
-		loss_layer1->add_shift(0);
 		loss_layer1->add_unroll_conn_type(kUnrollOneToAll);
-		loss_layer1->add_shift(0);
-
 
 		/*
 		 * Initialize job conf 2
-		 */
 		NetProto* net_conf2 = job_conf2.mutable_neuralnet();
 
 		LayerProto* data_layer2 = net_conf2->add_layer();
@@ -164,6 +148,7 @@ protected:
 		loss_layer2->add_shift(0);
 		loss_layer2->add_unroll_conn_type(kUnrollOneToAll);
 		loss_layer2->add_shift(0);
+		 */
 	}
 
 	singa::JobProto job_conf1;
@@ -174,114 +159,103 @@ TEST_F(UnrollingTest, GRULanguageModelTrain) {
 	NetProto net;
 	net.CopyFrom(job_conf1.neuralnet());
 	NetProto unrolled_net = NeuralNet::Unrolling(net);
-	EXPECT_EQ("data", unrolled_net.layer(0).name());
+	EXPECT_EQ("0#data", unrolled_net.layer(0).name());
 
-	EXPECT_EQ("embedding_0", unrolled_net.layer(1).name());
+	EXPECT_EQ("0#embedding", unrolled_net.layer(1).name());
 	EXPECT_EQ(1, unrolled_net.layer(1).srclayers_size());
-	EXPECT_EQ("data", unrolled_net.layer(1).srclayers(0));
+	EXPECT_EQ("0#data", unrolled_net.layer(1).srclayers(0));
 
-	EXPECT_EQ("embedding_1", unrolled_net.layer(2).name());
+	EXPECT_EQ("1#embedding", unrolled_net.layer(2).name());
 	EXPECT_EQ(1, unrolled_net.layer(2).srclayers_size());
-	EXPECT_EQ("data", unrolled_net.layer(2).srclayers(0));
+	EXPECT_EQ("0#data", unrolled_net.layer(2).srclayers(0));
 
-	EXPECT_EQ("embedding_2", unrolled_net.layer(3).name());
+	EXPECT_EQ("2#embedding", unrolled_net.layer(3).name());
 	EXPECT_EQ(1, unrolled_net.layer(3).srclayers_size());
-	EXPECT_EQ("data", unrolled_net.layer(3).srclayers(0));
+	EXPECT_EQ("0#data", unrolled_net.layer(3).srclayers(0));
 
-	EXPECT_EQ("gru_0", unrolled_net.layer(4).name());
+	EXPECT_EQ("0#gru", unrolled_net.layer(4).name());
 	EXPECT_EQ(1, unrolled_net.layer(4).srclayers_size());
-	EXPECT_EQ("embedding_0", unrolled_net.layer(4).srclayers(0));
-	EXPECT_EQ("w_z_hx", unrolled_net.layer(4).param(0).name());
-	EXPECT_EQ("w_r_hx", unrolled_net.layer(4).param(1).name());
-	EXPECT_EQ("w_c_hx", unrolled_net.layer(4).param(2).name());
-	EXPECT_EQ("w_z_hh", unrolled_net.layer(4).param(3).name());
-	EXPECT_EQ("w_r_hh", unrolled_net.layer(4).param(4).name());
-	EXPECT_EQ("w_c_hh", unrolled_net.layer(4).param(5).name());
-
-	EXPECT_EQ("gru_1", unrolled_net.layer(5).name());
+	EXPECT_EQ("0#embedding", unrolled_net.layer(4).srclayers(0));
+	EXPECT_EQ("0#w_z_hx", unrolled_net.layer(4).param(0).name());
+	EXPECT_EQ("0#w_r_hx", unrolled_net.layer(4).param(1).name());
+	EXPECT_EQ("0#w_c_hx", unrolled_net.layer(4).param(2).name());
+	EXPECT_EQ("0#w_z_hh", unrolled_net.layer(4).param(3).name());
+	EXPECT_EQ("0#w_r_hh", unrolled_net.layer(4).param(4).name());
+	EXPECT_EQ("0#w_c_hh", unrolled_net.layer(4).param(5).name());
+
+	EXPECT_EQ("1#gru", unrolled_net.layer(5).name());
 	EXPECT_EQ(2, unrolled_net.layer(5).srclayers_size());
-	EXPECT_EQ("gru_0", unrolled_net.layer(5).srclayers(0));
-	EXPECT_EQ("embedding_1", unrolled_net.layer(5).srclayers(1));
-	EXPECT_EQ("w_z_hx_1", unrolled_net.layer(5).param(0).name());
-	EXPECT_EQ("w_z_hx", unrolled_net.layer(5).param(0).share_from());
-	EXPECT_EQ("w_r_hx_1", unrolled_net.layer(5).param(1).name());
-	EXPECT_EQ("w_r_hx", unrolled_net.layer(5).param(1).share_from());
-	EXPECT_EQ("w_c_hx_1", unrolled_net.layer(5).param(2).name());
-	EXPECT_EQ("w_c_hx", unrolled_net.layer(5).param(2).share_from());
-	EXPECT_EQ("w_z_hh_1", unrolled_net.layer(5).param(3).name());
-	EXPECT_EQ("w_z_hh", unrolled_net.layer(5).param(3).share_from());
-	EXPECT_EQ("w_r_hh_1", unrolled_net.layer(5).param(4).name());
-	EXPECT_EQ("w_r_hh", unrolled_net.layer(5).param(4).share_from());
-	EXPECT_EQ("w_c_hh_1", unrolled_net.layer(5).param(5).name());
-	EXPECT_EQ("w_c_hh", unrolled_net.layer(5).param(5).share_from());
-
-	EXPECT_EQ("gru_2", unrolled_net.layer(6).name());
+	EXPECT_EQ("1#embedding", unrolled_net.layer(5).srclayers(0));
+	EXPECT_EQ("0#gru", unrolled_net.layer(5).srclayers(1));
+	EXPECT_EQ("1#w_z_hx", unrolled_net.layer(5).param(0).name());
+	EXPECT_EQ("0#w_z_hx", unrolled_net.layer(5).param(0).share_from());
+	EXPECT_EQ("1#w_r_hx", unrolled_net.layer(5).param(1).name());
+	EXPECT_EQ("0#w_r_hx", unrolled_net.layer(5).param(1).share_from());
+	EXPECT_EQ("1#w_c_hx", unrolled_net.layer(5).param(2).name());
+	EXPECT_EQ("0#w_c_hx", unrolled_net.layer(5).param(2).share_from());
+	EXPECT_EQ("1#w_z_hh", unrolled_net.layer(5).param(3).name());
+	EXPECT_EQ("0#w_z_hh", unrolled_net.layer(5).param(3).share_from());
+	EXPECT_EQ("1#w_r_hh", unrolled_net.layer(5).param(4).name());
+	EXPECT_EQ("0#w_r_hh", unrolled_net.layer(5).param(4).share_from());
+	EXPECT_EQ("1#w_c_hh", unrolled_net.layer(5).param(5).name());
+	EXPECT_EQ("0#w_c_hh", unrolled_net.layer(5).param(5).share_from());
+
+	EXPECT_EQ("2#gru", unrolled_net.layer(6).name());
 	EXPECT_EQ(2, unrolled_net.layer(6).srclayers_size());
-	EXPECT_EQ("gru_1", unrolled_net.layer(6).srclayers(0));
-	EXPECT_EQ("embedding_2", unrolled_net.layer(6).srclayers(1));
-	EXPECT_EQ("w_z_hx_2", unrolled_net.layer(6).param(0).name());
-	EXPECT_EQ("w_z_hx", unrolled_net.layer(6).param(0).share_from());
-	EXPECT_EQ("w_r_hx_2", unrolled_net.layer(6).param(1).name());
-	EXPECT_EQ("w_r_hx", unrolled_net.layer(6).param(1).share_from());
-	EXPECT_EQ("w_c_hx_2", unrolled_net.layer(6).param(2).name());
-	EXPECT_EQ("w_c_hx", unrolled_net.layer(6).param(2).share_from());
-	EXPECT_EQ("w_z_hh_2", unrolled_net.layer(6).param(3).name());
-	EXPECT_EQ("w_z_hh", unrolled_net.layer(6).param(3).share_from());
-	EXPECT_EQ("w_r_hh_2", unrolled_net.layer(6).param(4).name());
-	EXPECT_EQ("w_r_hh", unrolled_net.layer(6).param(4).share_from());
-	EXPECT_EQ("w_c_hh_2", unrolled_net.layer(6).param(5).name());
-	EXPECT_EQ("w_c_hh", unrolled_net.layer(6).param(5).share_from());
-
-	EXPECT_EQ("out_0", unrolled_net.layer(7).name());
+	EXPECT_EQ("2#embedding", unrolled_net.layer(6).srclayers(0));
+	EXPECT_EQ("1#gru", unrolled_net.layer(6).srclayers(1));
+	EXPECT_EQ("2#w_z_hx", unrolled_net.layer(6).param(0).name());
+	EXPECT_EQ("0#w_z_hx", unrolled_net.layer(6).param(0).share_from());
+	EXPECT_EQ("2#w_r_hx", unrolled_net.layer(6).param(1).name());
+	EXPECT_EQ("0#w_r_hx", unrolled_net.layer(6).param(1).share_from());
+	EXPECT_EQ("2#w_c_hx", unrolled_net.layer(6).param(2).name());
+	EXPECT_EQ("0#w_c_hx", unrolled_net.layer(6).param(2).share_from());
+	EXPECT_EQ("2#w_z_hh", unrolled_net.layer(6).param(3).name());
+	EXPECT_EQ("0#w_z_hh", unrolled_net.layer(6).param(3).share_from());
+	EXPECT_EQ("2#w_r_hh", unrolled_net.layer(6).param(4).name());
+	EXPECT_EQ("0#w_r_hh", unrolled_net.layer(6).param(4).share_from());
+	EXPECT_EQ("2#w_c_hh", unrolled_net.layer(6).param(5).name());
+	EXPECT_EQ("0#w_c_hh", unrolled_net.layer(6).param(5).share_from());
+
+	EXPECT_EQ("0#out", unrolled_net.layer(7).name());
 	EXPECT_EQ(1, unrolled_net.layer(7).srclayers_size());
-	EXPECT_EQ("gru_0", unrolled_net.layer(7).srclayers(0));
-	EXPECT_EQ("w", unrolled_net.layer(7).param(0).name());
-	EXPECT_EQ("b", unrolled_net.layer(7).param(1).name());
+	EXPECT_EQ("0#gru", unrolled_net.layer(7).srclayers(0));
+	EXPECT_EQ("0#w", unrolled_net.layer(7).param(0).name());
+	EXPECT_EQ("0#b", unrolled_net.layer(7).param(1).name());
 
-	EXPECT_EQ("out_1", unrolled_net.layer(8).name());
+	EXPECT_EQ("1#out", unrolled_net.layer(8).name());
 	EXPECT_EQ(1, unrolled_net.layer(8).srclayers_size());
-	EXPECT_EQ("gru_1", unrolled_net.layer(8).srclayers(0));
-	EXPECT_EQ("w_1", unrolled_net.layer(8).param(0).name());
-	EXPECT_EQ("w", unrolled_net.layer(8).param(0).share_from());
-	EXPECT_EQ("b_1", unrolled_net.layer(8).param(1).name());
-	EXPECT_EQ("b", unrolled_net.layer(8).param(1).share_from());
+	EXPECT_EQ("1#gru", unrolled_net.layer(8).srclayers(0));
+	EXPECT_EQ("1#w", unrolled_net.layer(8).param(0).name());
+	EXPECT_EQ("0#w", unrolled_net.layer(8).param(0).share_from());
+	EXPECT_EQ("1#b", unrolled_net.layer(8).param(1).name());
+	EXPECT_EQ("0#b", unrolled_net.layer(8).param(1).share_from());
 
-	EXPECT_EQ("out_2", unrolled_net.layer(9).name());
+	EXPECT_EQ("2#out", unrolled_net.layer(9).name());
 	EXPECT_EQ(1, unrolled_net.layer(9).srclayers_size());
-	EXPECT_EQ("gru_2", unrolled_net.layer(9).srclayers(0));
-	EXPECT_EQ("w_2", unrolled_net.layer(9).param(0).name());
-	EXPECT_EQ("w", unrolled_net.layer(9).param(0).share_from());
-	EXPECT_EQ("b_2", unrolled_net.layer(9).param(1).name());
-	EXPECT_EQ("b", unrolled_net.layer(9).param(1).share_from());
-
-	EXPECT_EQ("softmax_0", unrolled_net.layer(10).name());
-	EXPECT_EQ(1, unrolled_net.layer(10).srclayers_size());
-	EXPECT_EQ("out_0", unrolled_net.layer(10).srclayers(0));
-
-	EXPECT_EQ("softmax_1", unrolled_net.layer(11).name());
-	EXPECT_EQ(1, unrolled_net.layer(11).srclayers_size());
-	EXPECT_EQ("out_1", unrolled_net.layer(11).srclayers(0));
-
-	EXPECT_EQ("softmax_2", unrolled_net.layer(12).name());
-	EXPECT_EQ(1, unrolled_net.layer(12).srclayers_size());
-	EXPECT_EQ("out_2", unrolled_net.layer(12).srclayers(0));
-
-	EXPECT_EQ("loss_0", unrolled_net.layer(13).name());
-	EXPECT_EQ(2, unrolled_net.layer(13).srclayers_size());
-	EXPECT_EQ("softmax_0", unrolled_net.layer(13).srclayers(0));
-	EXPECT_EQ("data", unrolled_net.layer(13).srclayers(1));
-
-	EXPECT_EQ("loss_1", unrolled_net.layer(14).name());
-	EXPECT_EQ(2, unrolled_net.layer(14).srclayers_size());
-	EXPECT_EQ("softmax_1", unrolled_net.layer(14).srclayers(0));
-	EXPECT_EQ("data", unrolled_net.layer(14).srclayers(1));
-
-	EXPECT_EQ("loss_2", unrolled_net.layer(15).name());
-	EXPECT_EQ(2, unrolled_net.layer(15).srclayers_size());
-	EXPECT_EQ("softmax_2", unrolled_net.layer(15).srclayers(0));
-	EXPECT_EQ("data", unrolled_net.layer(15).srclayers(1));
+	EXPECT_EQ("2#gru", unrolled_net.layer(9).srclayers(0));
+	EXPECT_EQ("2#w", unrolled_net.layer(9).param(0).name());
+	EXPECT_EQ("0#w", unrolled_net.layer(9).param(0).share_from());
+	EXPECT_EQ("2#b", unrolled_net.layer(9).param(1).name());
+	EXPECT_EQ("0#b", unrolled_net.layer(9).param(1).share_from());
+
+	EXPECT_EQ("0#loss", unrolled_net.layer(10).name());
+	EXPECT_EQ(2, unrolled_net.layer(10).srclayers_size());
+	EXPECT_EQ("0#out", unrolled_net.layer(10).srclayers(0));
+	EXPECT_EQ("0#data", unrolled_net.layer(10).srclayers(1));
+
+	EXPECT_EQ("1#loss", unrolled_net.layer(11).name());
+	EXPECT_EQ(2, unrolled_net.layer(11).srclayers_size());
+	EXPECT_EQ("1#out", unrolled_net.layer(11).srclayers(0));
+	EXPECT_EQ("0#data", unrolled_net.layer(11).srclayers(1));
+
+	EXPECT_EQ("2#loss", unrolled_net.layer(12).name());
+	EXPECT_EQ(2, unrolled_net.layer(12).srclayers_size());
+	EXPECT_EQ("2#out", unrolled_net.layer(12).srclayers(0));
+	EXPECT_EQ("0#data", unrolled_net.layer(12).srclayers(1));
 }
 
+/*
 TEST_F(UnrollingTest, GRULanguageModelTest) {
 	NetProto net;
 	net.CopyFrom(job_conf2.neuralnet());
@@ -289,23 +263,23 @@ TEST_F(UnrollingTest, GRULanguageModelTest) {
 
 	EXPECT_EQ("data", unrolled_net.layer(0).name());
 
-	EXPECT_EQ("embedding_0", unrolled_net.layer(1).name());
+	EXPECT_EQ("0#embedding", unrolled_net.layer(1).name());
 	EXPECT_EQ(1, unrolled_net.layer(1).srclayers_size());
 	EXPECT_EQ("data", unrolled_net.layer(1).srclayers(0));
 
-	EXPECT_EQ("embedding_1", unrolled_net.layer(2).name());
+	EXPECT_EQ("1#embedding", unrolled_net.layer(2).name());
 	EXPECT_EQ(2, unrolled_net.layer(2).srclayers_size());
 	EXPECT_EQ("data", unrolled_net.layer(2).srclayers(0));
-	EXPECT_EQ("softmax_0", unrolled_net.layer(2).srclayers(1));
+	EXPECT_EQ("0#softmax", unrolled_net.layer(2).srclayers(1));
 
-	EXPECT_EQ("embedding_2", unrolled_net.layer(3).name());
+	EXPECT_EQ("2#embedding", unrolled_net.layer(3).name());
 	EXPECT_EQ(2, unrolled_net.layer(3).srclayers_size());
 	EXPECT_EQ("data", unrolled_net.layer(3).srclayers(0));
-	EXPECT_EQ("softmax_1", unrolled_net.layer(3).srclayers(1));
+	EXPECT_EQ("1#softmax", unrolled_net.layer(3).srclayers(1));
 
-	EXPECT_EQ("gru_0", unrolled_net.layer(4).name());
+	EXPECT_EQ("0#gru", unrolled_net.layer(4).name());
 	EXPECT_EQ(1, unrolled_net.layer(4).srclayers_size());
-	EXPECT_EQ("embedding_0", unrolled_net.layer(4).srclayers(0));
+	EXPECT_EQ("0#embedding", unrolled_net.layer(4).srclayers(0));
 	EXPECT_EQ("w_z_hx", unrolled_net.layer(4).param(0).name());
 	EXPECT_EQ("w_r_hx", unrolled_net.layer(4).param(1).name());
 	EXPECT_EQ("w_c_hx", unrolled_net.layer(4).param(2).name());
@@ -313,38 +287,38 @@ TEST_F(UnrollingTest, GRULanguageModelTest) {
 	EXPECT_EQ("w_r_hh", unrolled_net.layer(4).param(4).name());
 	EXPECT_EQ("w_c_hh", unrolled_net.layer(4).param(5).name());
 
-	EXPECT_EQ("gru_1", unrolled_net.layer(5).name());
+	EXPECT_EQ("1#gru", unrolled_net.layer(5).name());
 	EXPECT_EQ(2, unrolled_net.layer(5).srclayers_size());
-	EXPECT_EQ("gru_0", unrolled_net.layer(5).srclayers(0));
-	EXPECT_EQ("embedding_1", unrolled_net.layer(5).srclayers(1));
-	EXPECT_EQ("w_z_hx_1", unrolled_net.layer(5).param(0).name());
+	EXPECT_EQ("0#gru", unrolled_net.layer(5).srclayers(0));
+	EXPECT_EQ("1#embedding", unrolled_net.layer(5).srclayers(1));
+	EXPECT_EQ("1#w_z_hx", unrolled_net.layer(5).param(0).name());
 	EXPECT_EQ("w_z_hx", unrolled_net.layer(5).param(0).share_from());
-	EXPECT_EQ("w_r_hx_1", unrolled_net.layer(5).param(1).name());
+	EXPECT_EQ("1#w_r_hx", unrolled_net.layer(5).param(1).name());
 	EXPECT_EQ("w_r_hx", unrolled_net.layer(5).param(1).share_from());
-	EXPECT_EQ("w_c_hx_1", unrolled_net.layer(5).param(2).name());
+	EXPECT_EQ("1#w_c_hx", unrolled_net.layer(5).param(2).name());
 	EXPECT_EQ("w_c_hx", unrolled_net.layer(5).param(2).share_from());
-	EXPECT_EQ("w_z_hh_1", unrolled_net.layer(5).param(3).name());
+	EXPECT_EQ("1#w_z_hh", unrolled_net.layer(5).param(3).name());
 	EXPECT_EQ("w_z_hh", unrolled_net.layer(5).param(3).share_from());
-	EXPECT_EQ("w_r_hh_1", unrolled_net.layer(5).param(4).name());
+	EXPECT_EQ("1#w_r_hh", unrolled_net.layer(5).param(4).name());
 	EXPECT_EQ("w_r_hh", unrolled_net.layer(5).param(4).share_from());
-	EXPECT_EQ("w_c_hh_1", unrolled_net.layer(5).param(5).name());
+	EXPECT_EQ("1#w_c_hh", unrolled_net.layer(5).param(5).name());
 	EXPECT_EQ("w_c_hh", unrolled_net.layer(5).param(5).share_from());
 
-	EXPECT_EQ("gru_2", unrolled_net.layer(6).name());
+	EXPECT_EQ("2#gru_2", unrolled_net.layer(6).name());
 	EXPECT_EQ(2, unrolled_net.layer(6).srclayers_size());
-	EXPECT_EQ("gru_1", unrolled_net.layer(6).srclayers(0));
-	EXPECT_EQ("embedding_2", unrolled_net.layer(6).srclayers(1));
-	EXPECT_EQ("w_z_hx_2", unrolled_net.layer(6).param(0).name());
+	EXPECT_EQ("1#gru", unrolled_net.layer(6).srclayers(0));
+	EXPECT_EQ("2#embedding", unrolled_net.layer(6).srclayers(1));
+	EXPECT_EQ("2#w_z_hx", unrolled_net.layer(6).param(0).name());
 	EXPECT_EQ("w_z_hx", unrolled_net.layer(6).param(0).share_from());
-	EXPECT_EQ("w_r_hx_2", unrolled_net.layer(6).param(1).name());
+	EXPECT_EQ("2#w_r_hx", unrolled_net.layer(6).param(1).name());
 	EXPECT_EQ("w_r_hx", unrolled_net.layer(6).param(1).share_from());
-	EXPECT_EQ("w_c_hx_2", unrolled_net.layer(6).param(2).name());
+	EXPECT_EQ("2#w_c_hx", unrolled_net.layer(6).param(2).name());
 	EXPECT_EQ("w_c_hx", unrolled_net.layer(6).param(2).share_from());
-	EXPECT_EQ("w_z_hh_2", unrolled_net.layer(6).param(3).name());
+	EXPECT_EQ("2#w_z_hh", unrolled_net.layer(6).param(3).name());
 	EXPECT_EQ("w_z_hh", unrolled_net.layer(6).param(3).share_from());
-	EXPECT_EQ("w_r_hh_2", unrolled_net.layer(6).param(4).name());
+	EXPECT_EQ("2#w_r_hh", unrolled_net.layer(6).param(4).name());
 	EXPECT_EQ("w_r_hh", unrolled_net.layer(6).param(4).share_from());
-	EXPECT_EQ("w_c_hh_2", unrolled_net.layer(6).param(5).name());
+	EXPECT_EQ("2#w_c_hh", unrolled_net.layer(6).param(5).name());
 	EXPECT_EQ("w_c_hh", unrolled_net.layer(6).param(5).share_from());
 
 	EXPECT_EQ("out_0", unrolled_net.layer(7).name());
@@ -396,3 +370,4 @@ TEST_F(UnrollingTest, GRULanguageModelTest) {
 	EXPECT_EQ("softmax_2", unrolled_net.layer(15).srclayers(0));
 	EXPECT_EQ("data", unrolled_net.layer(15).srclayers(1));
 }
+  */

[3/5] incubator-singa git commit: SINGA-120 - Implemented GRU and BPTT

Posted by wa...@apache.org.

SINGA-120 - Implemented GRU and BPTT

Add configuration fields (vocab_size) for OneHotLayer.
Configure gpu to 0 for all examples.


Project: http://git-wip-us.apache.org/repos/asf/incubator-singa/repo
Commit: http://git-wip-us.apache.org/repos/asf/incubator-singa/commit/c72ef0fc
Tree: http://git-wip-us.apache.org/repos/asf/incubator-singa/tree/c72ef0fc
Diff: http://git-wip-us.apache.org/repos/asf/incubator-singa/diff/c72ef0fc

Branch: refs/heads/master
Commit: c72ef0fc6a0982b0cc61e551bc44a393a45dcb01
Parents: c45ff1c
Author: Wei Wang <wa...@comp.nus.edu.sg>
Authored: Wed Jan 6 17:52:08 2016 +0800
Committer: Wei Wang <wa...@comp.nus.edu.sg>
Committed: Wed Jan 6 22:30:38 2016 +0800

----------------------------------------------------------------------
 examples/alexnet/cudnn.conf            | 2 +-
 examples/char-rnn/job.conf             | 3 +++
 examples/cifar10/cudnn.conf            | 2 +-
 include/singa/neuralnet/neuron_layer.h | 4 +---
 src/neuralnet/input_layer/onehot.cc    | 2 +-
 src/neuralnet/neuron_layer/gru.cc      | 8 +++++---
 src/proto/job.proto                    | 5 +++++
 7 files changed, 17 insertions(+), 9 deletions(-)
----------------------------------------------------------------------


http://git-wip-us.apache.org/repos/asf/incubator-singa/blob/c72ef0fc/examples/alexnet/cudnn.conf
----------------------------------------------------------------------
diff --git a/examples/alexnet/cudnn.conf b/examples/alexnet/cudnn.conf
index 6324185..e8d14c6 100644
--- a/examples/alexnet/cudnn.conf
+++ b/examples/alexnet/cudnn.conf
@@ -5,7 +5,7 @@ test_freq: 1000
 disp_freq: 20
 checkpoint_freq: 100000
 checkpoint_after: 100000
-gpu: 2
+gpu: 0
 #debug: true
 #checkpoint_path: "examples/alexnet/checkpoint/step10000-worker0"
 train_one_batch {

http://git-wip-us.apache.org/repos/asf/incubator-singa/blob/c72ef0fc/examples/char-rnn/job.conf
----------------------------------------------------------------------
diff --git a/examples/char-rnn/job.conf b/examples/char-rnn/job.conf
index 2e1c761..bd648f1 100644
--- a/examples/char-rnn/job.conf
+++ b/examples/char-rnn/job.conf
@@ -42,6 +42,9 @@ neuralnet {
     type: kOneHot
     srclayers: "data"
     unroll_conn_type: kUnrollOneToAll
+    onehot_conf {
+      vocab_size: 101
+    }
   }
 
   layer {

http://git-wip-us.apache.org/repos/asf/incubator-singa/blob/c72ef0fc/examples/cifar10/cudnn.conf
----------------------------------------------------------------------
diff --git a/examples/cifar10/cudnn.conf b/examples/cifar10/cudnn.conf
index 136435b..0f9402e 100644
--- a/examples/cifar10/cudnn.conf
+++ b/examples/cifar10/cudnn.conf
@@ -5,7 +5,7 @@ test_freq: 1000
 #validate_steps: 100
 #validate_freq: 300
 disp_freq: 200
-gpu: 2
+gpu: 0
 #checkpoint_path: "examples/cifar10/checkpoint/step1000-worker0"
 train_one_batch {
   alg: kBP

http://git-wip-us.apache.org/repos/asf/incubator-singa/blob/c72ef0fc/include/singa/neuralnet/neuron_layer.h
----------------------------------------------------------------------
diff --git a/include/singa/neuralnet/neuron_layer.h b/include/singa/neuralnet/neuron_layer.h
index 8471aeb..3fe08f4 100644
--- a/include/singa/neuralnet/neuron_layer.h
+++ b/include/singa/neuralnet/neuron_layer.h
@@ -202,9 +202,7 @@ class GRULayer : public NeuronLayer {
   int batchsize_; // batch size
   int vdim_, hdim_; // dimensions
 
-  Blob<float> *update_gate_, *reset_gate_, *new_memory_, *reset_context_;
-  //!< gru layer connect to two dst layers, hence need to grad blobs.
-  Blob<float> aux_grad_;
+  Blob<float> *update_gate_, *reset_gate_, *new_memory_;
 
   Param *weight_z_hx_, *weight_z_hh_, *bias_z_; // update gate
   Param *weight_r_hx_, *weight_r_hh_, *bias_r_; // reset gate

http://git-wip-us.apache.org/repos/asf/incubator-singa/blob/c72ef0fc/src/neuralnet/input_layer/onehot.cc
----------------------------------------------------------------------
diff --git a/src/neuralnet/input_layer/onehot.cc b/src/neuralnet/input_layer/onehot.cc
index 056656a..4b83705 100644
--- a/src/neuralnet/input_layer/onehot.cc
+++ b/src/neuralnet/input_layer/onehot.cc
@@ -25,7 +25,7 @@ void OneHotLayer::Setup(const LayerProto& conf,
     const vector<Layer*>& srclayers) {
   InputLayer::Setup(conf, srclayers);
   batchsize_ = srclayers.at(0)->data(unroll_index()).shape(0);
-  dim_ = 101 ;  // proto.onehot_conf().vocab_size();
+  dim_ = conf.onehot_conf().vocab_size();
   data_.Reshape(batchsize_, dim_);
 }
 

http://git-wip-us.apache.org/repos/asf/incubator-singa/blob/c72ef0fc/src/neuralnet/neuron_layer/gru.cc
----------------------------------------------------------------------
diff --git a/src/neuralnet/neuron_layer/gru.cc b/src/neuralnet/neuron_layer/gru.cc
index 149543f..8ca189f 100644
--- a/src/neuralnet/neuron_layer/gru.cc
+++ b/src/neuralnet/neuron_layer/gru.cc
@@ -34,20 +34,22 @@ using std::vector;
 GRULayer::~GRULayer() {
   delete weight_z_hx_;
   delete weight_z_hh_;
-  delete bias_z_;
+  if (bias_z_ != nullptr)
+    delete bias_z_;
 
   delete weight_r_hx_;
   delete weight_r_hh_;
+  if (bias_r_ != nullptr)
   delete bias_r_;
 
   delete weight_c_hx_;
   delete weight_c_hh_;
-  delete bias_c_;
+  if (bias_c_ != nullptr)
+    delete bias_c_;
 
   delete update_gate_;
   delete reset_gate_;
   delete new_memory_;
-  delete reset_context_;
 }
 
 void GRULayer::Setup(const LayerProto& conf,

http://git-wip-us.apache.org/repos/asf/incubator-singa/blob/c72ef0fc/src/proto/job.proto
----------------------------------------------------------------------
diff --git a/src/proto/job.proto b/src/proto/job.proto
index 28a3a68..da52ea9 100644
--- a/src/proto/job.proto
+++ b/src/proto/job.proto
@@ -228,6 +228,7 @@ message LayerProto {
   optional RGBImageProto rgbimage_conf = 193;
   optional DataProto sharddata_conf = 194;
   optional CharRNNProto char_rnn_conf = 195;
+  optional OnehotProto onehot_conf = 196;
 
   // configuration for neuron layers id range [200, 300)
   optional ActivationProto activation_conf = 200;
@@ -336,6 +337,10 @@ message ActivationProto {
   optional ActivationType type = 1 [default = RELU];
 }
 
+message OnehotProto {
+  optional int32 vocab_size = 1 [default = 0];
+}
+
 message RGBImageProto {
   // scale factor for each pixel
   optional float scale = 1 [default = 1.0];