ryanjulian · jonashen · Jun 8, 2018 · Jun 11, 2018
diff --git a/contrib/ros/envs/example_launchers/trpo_gazebo_sawyer_pnp.py b/contrib/ros/envs/example_launchers/trpo_gazebo_sawyer_pnp.py
@@ -7,9 +7,9 @@
 from rllab.envs.normalized_env import normalize
 from rllab.misc.instrument import run_experiment_lite
 
-from sandbox.rocky.tf.algos.trpo import TRPO
-from sandbox.rocky.tf.policies.gaussian_mlp_policy import GaussianMLPPolicy
-from sandbox.rocky.tf.envs.base import TfEnv
+from rllab.tf.algos.trpo import TRPO
+from rllab.tf.policies.gaussian_mlp_policy import GaussianMLPPolicy
+from rllab.tf.envs.base import TfEnv
 
 from contrib.ros.envs.example_launchers import model_dir
 from contrib.ros.envs.sawyer.pick_and_place_env import PickAndPlaceEnv

diff --git a/contrib/ros/envs/example_launchers/trpo_gazebo_sawyer_push.py b/contrib/ros/envs/example_launchers/trpo_gazebo_sawyer_push.py
@@ -7,9 +7,9 @@
 from rllab.envs.normalized_env import normalize
 from rllab.misc.instrument import run_experiment_lite
 
-from sandbox.rocky.tf.algos.trpo import TRPO
-from sandbox.rocky.tf.policies.gaussian_mlp_policy import GaussianMLPPolicy
-from sandbox.rocky.tf.envs.base import TfEnv
+from rllab.tf.algos.trpo import TRPO
+from rllab.tf.policies.gaussian_mlp_policy import GaussianMLPPolicy
+from rllab.tf.envs.base import TfEnv
 
 from contrib.ros.envs.example_launchers import model_dir
 from contrib.ros.envs.sawyer.push_env import PushEnv
@@ -75,4 +75,4 @@ def run_task(*_):
     run_task,
     n_parallel=1,
     plot=False,
-)
+)
diff --git a/examples/cluster_gym_mujoco_demo.py b/examples/cluster_gym_mujoco_demo.py
@@ -1,8 +1,8 @@
 from rllab.baselines import LinearFeatureBaseline
 from rllab.envs import normalize
-from sandbox.rocky.tf.envs import TfEnv
-from sandbox.rocky.tf.policies import GaussianMLPPolicy
-from sandbox.rocky.tf.algos import TRPO
+from rllab.tf.envs import TfEnv
+from rllab.tf.policies import GaussianMLPPolicy
+from rllab.tf.algos import TRPO
 from rllab.misc import run_experiment_lite
 from rllab.envs import GymEnv
 import sys

diff --git a/examples/trpo_gym_tf_cartpole.py b/examples/trpo_gym_tf_cartpole.py
@@ -3,9 +3,9 @@
 from rllab.envs import normalize
 from rllab.misc import stub, run_experiment_lite
 
-from sandbox.rocky.tf.envs import TfEnv
-from sandbox.rocky.tf.policies import CategoricalMLPPolicy
-from sandbox.rocky.tf.algos import TRPO
+from rllab.tf.envs import TfEnv
+from rllab.tf.policies import CategoricalMLPPolicy
+from rllab.tf.algos import TRPO
 
 stub(globals())
 

diff --git a/sandbox/__init__.py → rllab/tf/__init__.py b/sandbox/__init__.py → rllab/tf/__init__.py
diff --git a/rllab/tf/algos/__init__.py b/rllab/tf/algos/__init__.py
@@ -0,0 +1,4 @@
+from rllab.tf.algos.batch_polopt import BatchPolopt
+from rllab.tf.algos.npo import NPO
+from rllab.tf.algos.trpo import TRPO
+from rllab.tf.algos.vpg import VPG
diff --git a/sandbox/rocky/tf/algos/batch_polopt.py → rllab/tf/algos/batch_polopt.py b/sandbox/rocky/tf/algos/batch_polopt.py → rllab/tf/algos/batch_polopt.py
@@ -1,10 +1,10 @@
 import time
 from rllab.algos import RLAlgorithm
 import rllab.misc.logger as logger
-from sandbox.rocky.tf.policies.base import Policy
+from rllab.tf.policies.base import Policy
 import tensorflow as tf
-from sandbox.rocky.tf.samplers import BatchSampler
-from sandbox.rocky.tf.samplers import VectorizedSampler
+from rllab.tf.samplers import BatchSampler
+from rllab.tf.samplers import VectorizedSampler
 from rllab.sampler.utils import rollout
 
 
@@ -103,7 +103,7 @@ def train(self, sess=None):
         if sess is None:
             sess = tf.Session()
             sess.__enter__()
-            
+
         sess.run(tf.global_variables_initializer())
         self.start_worker()
         start_time = time.time()

diff --git a/sandbox/rocky/tf/algos/npg.py → rllab/tf/algos/npg.py b/sandbox/rocky/tf/algos/npg.py → rllab/tf/algos/npg.py
diff --git a/sandbox/rocky/tf/algos/npo.py → rllab/tf/algos/npo.py b/sandbox/rocky/tf/algos/npo.py → rllab/tf/algos/npo.py
@@ -4,10 +4,10 @@
 from rllab.misc import ext
 from rllab.misc.overrides import overrides
 import rllab.misc.logger as logger
-from sandbox.rocky.tf.optimizers import PenaltyLbfgsOptimizer
-from sandbox.rocky.tf.algos import BatchPolopt
-from sandbox.rocky.tf.misc import tensor_utils
-from sandbox.rocky.tf.misc.tensor_utils import enclosing_scope
+from rllab.tf.optimizers import PenaltyLbfgsOptimizer
+from rllab.tf.algos import BatchPolopt
+from rllab.tf.misc import tensor_utils
+from rllab.tf.misc.tensor_utils import enclosing_scope
 import tensorflow as tf
 
 

diff --git a/sandbox/rocky/tf/algos/trpo.py → rllab/tf/algos/trpo.py b/sandbox/rocky/tf/algos/trpo.py → rllab/tf/algos/trpo.py
@@ -1,7 +1,7 @@
 
 
-from sandbox.rocky.tf.algos import NPO
-from sandbox.rocky.tf.optimizers import ConjugateGradientOptimizer
+from rllab.tf.algos import NPO
+from rllab.tf.optimizers import ConjugateGradientOptimizer
 
 
 class TRPO(NPO):

diff --git a/sandbox/rocky/tf/algos/vpg.py → rllab/tf/algos/vpg.py b/sandbox/rocky/tf/algos/vpg.py → rllab/tf/algos/vpg.py
@@ -3,10 +3,10 @@
 from rllab.misc import logger
 from rllab.misc import ext
 from rllab.misc.overrides import overrides
-from sandbox.rocky.tf.algos import BatchPolopt
-from sandbox.rocky.tf.optimizers import FirstOrderOptimizer
-from sandbox.rocky.tf.misc import tensor_utils
-from sandbox.rocky.tf.misc.tensor_utils import enclosing_scope
+from rllab.tf.algos import BatchPolopt
+from rllab.tf.optimizers import FirstOrderOptimizer
+from rllab.tf.misc import tensor_utils
+from rllab.tf.misc.tensor_utils import enclosing_scope
 from rllab.core import Serializable
 import tensorflow as tf
 

diff --git a/rllab/tf/core/__init__.py b/rllab/tf/core/__init__.py
@@ -0,0 +1,8 @@
+from rllab.tf.core.parameterized import JointParameterized
+from rllab.tf.core.parameterized import Parameterized
+from rllab.tf.core.layers_powered import LayersPowered
+from rllab.tf.core import layers
+from rllab.tf.core.network import MLP
+from rllab.tf.core.network import GRUNetwork
+from rllab.tf.core.network import ConvNetwork
+from rllab.tf.core.network import LSTMNetwork
diff --git a/sandbox/rocky/tf/core/layers.py → rllab/tf/core/layers.py b/sandbox/rocky/tf/core/layers.py → rllab/tf/core/layers.py
diff --git a/sandbox/rocky/tf/core/layers_powered.py → rllab/tf/core/layers_powered.py b/sandbox/rocky/tf/core/layers_powered.py → rllab/tf/core/layers_powered.py
@@ -1,5 +1,5 @@
-from sandbox.rocky.tf.core import Parameterized
-from sandbox.rocky.tf.core import layers as L
+from rllab.tf.core import Parameterized
+from rllab.tf.core import layers as L
 import itertools
 
 

diff --git a/sandbox/rocky/tf/core/network.py → rllab/tf/core/network.py b/sandbox/rocky/tf/core/network.py → rllab/tf/core/network.py
@@ -1,10 +1,10 @@
-from sandbox.rocky.tf.core import layers as L
+from rllab.tf.core import layers as L
 import tensorflow as tf
 import numpy as np
 import itertools
 from rllab.core import Serializable
-from sandbox.rocky.tf.core import Parameterized
-from sandbox.rocky.tf.core import LayersPowered
+from rllab.tf.core import Parameterized
+from rllab.tf.core import LayersPowered
 
 
 class MLP(LayersPowered, Serializable):

diff --git a/sandbox/rocky/tf/core/parameterized.py → rllab/tf/core/parameterized.py b/sandbox/rocky/tf/core/parameterized.py → rllab/tf/core/parameterized.py
diff --git a/rllab/tf/distributions/__init__.py b/rllab/tf/distributions/__init__.py
@@ -0,0 +1,6 @@
+from rllab.tf.distributions.bernoulli import Bernoulli
+from rllab.tf.distributions.categorical import Categorical
+from rllab.tf.distributions.base import Distribution
+from rllab.tf.distributions.diagonal_gaussian import DiagonalGaussian
+from rllab.tf.distributions.recurrent_categorical import RecurrentCategorical
+from rllab.tf.distributions.recurrent_diagonal_gaussian import RecurrentDiagonalGaussian
diff --git a/sandbox/rocky/tf/distributions/base.py → rllab/tf/distributions/base.py b/sandbox/rocky/tf/distributions/base.py → rllab/tf/distributions/base.py
diff --git a/sandbox/rocky/tf/distributions/bernoulli.py → rllab/tf/distributions/bernoulli.py b/sandbox/rocky/tf/distributions/bernoulli.py → rllab/tf/distributions/bernoulli.py
@@ -3,7 +3,7 @@
 from .base import Distribution
 import tensorflow as tf
 import numpy as np
-from sandbox.rocky.tf.misc.tensor_utils import enclosing_scope
+from rllab.tf.misc.tensor_utils import enclosing_scope
 
 TINY = 1e-8
 

diff --git a/...box/rocky/tf/distributions/categorical.py → rllab/tf/distributions/categorical.py b/...box/rocky/tf/distributions/categorical.py → rllab/tf/distributions/categorical.py
@@ -1,7 +1,7 @@
 import numpy as np
 from .base import Distribution
 import tensorflow as tf
-from sandbox.rocky.tf.misc.tensor_utils import enclosing_scope
+from rllab.tf.misc.tensor_utils import enclosing_scope
 
 TINY = 1e-8
 

diff --git a/...cky/tf/distributions/diagonal_gaussian.py → rllab/tf/distributions/diagonal_gaussian.py b/...cky/tf/distributions/diagonal_gaussian.py → rllab/tf/distributions/diagonal_gaussian.py
@@ -3,8 +3,8 @@
 
 import tensorflow as tf
 import numpy as np
-from sandbox.rocky.tf.distributions import Distribution
-from sandbox.rocky.tf.misc.tensor_utils import enclosing_scope
+from rllab.tf.distributions import Distribution
+from rllab.tf.misc.tensor_utils import enclosing_scope
 
 
 class DiagonalGaussian(Distribution):

diff --git a/...tf/distributions/recurrent_categorical.py → ...tf/distributions/recurrent_categorical.py b/...tf/distributions/recurrent_categorical.py → ...tf/distributions/recurrent_categorical.py
@@ -1,8 +1,8 @@
 import tensorflow as tf
 import numpy as np
-from sandbox.rocky.tf.misc.tensor_utils import enclosing_scope
-from sandbox.rocky.tf.distributions import Categorical
-from sandbox.rocky.tf.distributions import Distribution
+from rllab.tf.misc.tensor_utils import enclosing_scope
+from rllab.tf.distributions import Categorical
+from rllab.tf.distributions import Distribution
 
 TINY = 1e-8
 

diff --git a/rllab/tf/distributions/recurrent_diagonal_gaussian.py b/rllab/tf/distributions/recurrent_diagonal_gaussian.py
@@ -0,0 +1,6 @@
+
+
+
+from rllab.tf.distributions import DiagonalGaussian
+
+RecurrentDiagonalGaussian = DiagonalGaussian
diff --git a/rllab/tf/envs/__init__.py b/rllab/tf/envs/__init__.py
@@ -0,0 +1,4 @@
+from rllab.tf.envs.base import TfEnv
+from rllab.tf.envs.base import to_tf_space
+from rllab.tf.envs.parallel_vec_env_executor import ParallelVecEnvExecutor
+from rllab.tf.envs.vec_env_executor import VecEnvExecutor
diff --git a/sandbox/rocky/tf/envs/base.py → rllab/tf/envs/base.py b/sandbox/rocky/tf/envs/base.py → rllab/tf/envs/base.py
@@ -3,9 +3,9 @@
 from rllab.spaces import Box as TheanoBox
 from rllab.spaces import Discrete as TheanoDiscrete
 from rllab.spaces import Product as TheanoProduct
-from sandbox.rocky.tf.spaces import Discrete
-from sandbox.rocky.tf.spaces import Box
-from sandbox.rocky.tf.spaces import Product
+from rllab.tf.spaces import Discrete
+from rllab.tf.spaces import Box
+from rllab.tf.spaces import Product
 from cached_property import cached_property
 
 

diff --git a/...ocky/tf/envs/parallel_vec_env_executor.py → rllab/tf/envs/parallel_vec_env_executor.py b/...ocky/tf/envs/parallel_vec_env_executor.py → rllab/tf/envs/parallel_vec_env_executor.py
@@ -2,7 +2,7 @@
 
 import numpy as np
 import pickle as pickle
-from sandbox.rocky.tf.misc import tensor_utils
+from rllab.tf.misc import tensor_utils
 from rllab.misc import logger
 
 from rllab.sampler import singleton_pool

diff --git a/sandbox/rocky/tf/envs/vec_env_executor.py → rllab/tf/envs/vec_env_executor.py b/sandbox/rocky/tf/envs/vec_env_executor.py → rllab/tf/envs/vec_env_executor.py
@@ -2,7 +2,7 @@
 
 import numpy as np
 import pickle as pickle
-from sandbox.rocky.tf.misc import tensor_utils
+from rllab.tf.misc import tensor_utils
 
 
 class VecEnvExecutor(object):

diff --git a/sandbox/rocky/tf/launchers/__init__.py → rllab/tf/launchers/__init__.py b/sandbox/rocky/tf/launchers/__init__.py → rllab/tf/launchers/__init__.py
diff --git a/sandbox/rocky/tf/launchers/trpo_cartpole.py → rllab/tf/launchers/trpo_cartpole.py b/sandbox/rocky/tf/launchers/trpo_cartpole.py → rllab/tf/launchers/trpo_cartpole.py
@@ -1,11 +1,11 @@
-from sandbox.rocky.tf.algos import TRPO
+from rllab.tf.algos import TRPO
 from rllab.baselines import LinearFeatureBaseline
 from rllab.envs.box2d import CartpoleEnv
 from rllab.envs.normalized_env import normalize
-from sandbox.rocky.tf.optimizers import ConjugateGradientOptimizer
-from sandbox.rocky.tf.optimizers import FiniteDifferenceHvp
-from sandbox.rocky.tf.policies import GaussianMLPPolicy
-from sandbox.rocky.tf.envs import TfEnv
+from rllab.tf.optimizers import ConjugateGradientOptimizer
+from rllab.tf.optimizers import FiniteDifferenceHvp
+from rllab.tf.policies import GaussianMLPPolicy
+from rllab.tf.envs import TfEnv
 from rllab.misc import stub, run_experiment_lite
 
 env = TfEnv(normalize(CartpoleEnv()))

diff --git a/...y/tf/launchers/trpo_cartpole_recurrent.py → ...b/tf/launchers/trpo_cartpole_recurrent.py b/...y/tf/launchers/trpo_cartpole_recurrent.py → ...b/tf/launchers/trpo_cartpole_recurrent.py
@@ -1,12 +1,12 @@
-from sandbox.rocky.tf.algos import TRPO
+from rllab.tf.algos import TRPO
 from rllab.baselines import LinearFeatureBaseline
 from rllab.envs.box2d import CartpoleEnv
 from rllab.envs import normalize
-from sandbox.rocky.tf.policies import GaussianGRUPolicy
-from sandbox.rocky.tf.policies import GaussianLSTMPolicy
-from sandbox.rocky.tf.envs import TfEnv
-import sandbox.rocky.tf.core.layers as L
-from sandbox.rocky.tf.optimizers import ConjugateGradientOptimizer, FiniteDifferenceHvp
+from rllab.tf.policies import GaussianGRUPolicy
+from rllab.tf.policies import GaussianLSTMPolicy
+from rllab.tf.envs import TfEnv
+import rllab.tf.core.layers as L
+from rllab.tf.optimizers import ConjugateGradientOptimizer, FiniteDifferenceHvp
 from rllab.misc import stub, run_experiment_lite
 
 env = TfEnv(normalize(CartpoleEnv()))

diff --git a/sandbox/rocky/tf/launchers/vpg_cartpole.py → rllab/tf/launchers/vpg_cartpole.py b/sandbox/rocky/tf/launchers/vpg_cartpole.py → rllab/tf/launchers/vpg_cartpole.py
@@ -1,9 +1,9 @@
-from sandbox.rocky.tf.algos import VPG
+from rllab.tf.algos import VPG
 from rllab.baselines import LinearFeatureBaseline
 from rllab.envs.box2d import CartpoleEnv
 from rllab.envs import normalize
-from sandbox.rocky.tf.policies import GaussianMLPPolicy
-from sandbox.rocky.tf.envs import TfEnv
+from rllab.tf.policies import GaussianMLPPolicy
+from rllab.tf.envs import TfEnv
 from rllab.misc import stub, run_experiment_lite
 
 env = TfEnv(normalize(CartpoleEnv()))

diff --git a/sandbox/rocky/tf/misc/__init__.py → rllab/tf/misc/__init__.py b/sandbox/rocky/tf/misc/__init__.py → rllab/tf/misc/__init__.py
diff --git a/sandbox/rocky/tf/misc/tensor_utils.py → rllab/tf/misc/tensor_utils.py b/sandbox/rocky/tf/misc/tensor_utils.py → rllab/tf/misc/tensor_utils.py
diff --git a/rllab/tf/optimizers/__init__.py b/rllab/tf/optimizers/__init__.py
@@ -0,0 +1,5 @@
+from rllab.tf.optimizers.conjugate_gradient_optimizer import ConjugateGradientOptimizer
+from rllab.tf.optimizers.conjugate_gradient_optimizer import FiniteDifferenceHvp
+from rllab.tf.optimizers.lbfgs_optimizer import LbfgsOptimizer
+from rllab.tf.optimizers.first_order_optimizer import FirstOrderOptimizer
+from rllab.tf.optimizers.penalty_lbfgs_optimizer import PenaltyLbfgsOptimizer
diff --git a/...ptimizers/conjugate_gradient_optimizer.py → ...ptimizers/conjugate_gradient_optimizer.py b/...ptimizers/conjugate_gradient_optimizer.py → ...ptimizers/conjugate_gradient_optimizer.py
@@ -6,8 +6,8 @@
 import itertools
 import numpy as np
 import tensorflow as tf
-from sandbox.rocky.tf.misc import tensor_utils
-from sandbox.rocky.tf.misc.tensor_utils import enclosing_scope
+from rllab.tf.misc import tensor_utils
+from rllab.tf.misc.tensor_utils import enclosing_scope
 from rllab.misc import sliced_fun
 
 

diff --git a/...ky/tf/optimizers/first_order_optimizer.py → rllab/tf/optimizers/first_order_optimizer.py b/...ky/tf/optimizers/first_order_optimizer.py → rllab/tf/optimizers/first_order_optimizer.py
@@ -7,9 +7,9 @@
 from rllab.misc import ext
 from rllab.misc import logger
 from rllab.optimizers import BatchDataset
-from sandbox.rocky.tf.misc import tensor_utils
+from rllab.tf.misc import tensor_utils
 # from rllab.algo.first_order_method import parse_update_method
-from sandbox.rocky.tf.misc.tensor_utils import enclosing_scope
+from rllab.tf.misc.tensor_utils import enclosing_scope
 
 
 class FirstOrderOptimizer(Serializable):
@@ -146,4 +146,4 @@ def optimize(self, inputs, extra_inputs=None, callback=None):
 
             if abs(last_loss - new_loss) < self._tolerance:
                 break
-            last_loss = new_loss
+            last_loss = new_loss
diff --git a/...ox/rocky/tf/optimizers/lbfgs_optimizer.py → rllab/tf/optimizers/lbfgs_optimizer.py b/...ox/rocky/tf/optimizers/lbfgs_optimizer.py → rllab/tf/optimizers/lbfgs_optimizer.py
@@ -5,8 +5,8 @@
 
 from rllab.core import Serializable
 from rllab.misc import ext
-from sandbox.rocky.tf.misc import tensor_utils
-from sandbox.rocky.tf.misc.tensor_utils import enclosing_scope
+from rllab.tf.misc import tensor_utils
+from rllab.tf.misc.tensor_utils import enclosing_scope
 
 
 class LbfgsOptimizer(Serializable):
@@ -100,4 +100,4 @@ def opt_callback(params):
             x0=self._target.get_param_values(trainable=True),
             maxiter=self._max_opt_itr,
             callback=opt_callback,
-        )
+        )
diff --git a/.../tf/optimizers/penalty_lbfgs_optimizer.py → .../tf/optimizers/penalty_lbfgs_optimizer.py b/.../tf/optimizers/penalty_lbfgs_optimizer.py → .../tf/optimizers/penalty_lbfgs_optimizer.py
@@ -1,5 +1,5 @@
-from sandbox.rocky.tf.misc import tensor_utils
-from sandbox.rocky.tf.misc.tensor_utils import enclosing_scope
+from rllab.tf.misc import tensor_utils
+from rllab.tf.misc.tensor_utils import enclosing_scope
 from rllab.misc import logger
 from rllab.misc import ext
 from rllab.core import Serializable

diff --git a/rllab/tf/policies/__init__.py b/rllab/tf/policies/__init__.py
@@ -0,0 +1,6 @@
+from rllab.tf.policies.base import Policy
+from rllab.tf.policies.base import StochasticPolicy
+from rllab.tf.policies.categorical_mlp_policy import CategoricalMLPPolicy
+from rllab.tf.policies.gaussian_gru_policy import GaussianGRUPolicy
+from rllab.tf.policies.gaussian_lstm_policy import GaussianLSTMPolicy
+from rllab.tf.policies.gaussian_mlp_policy import GaussianMLPPolicy
diff --git a/sandbox/rocky/tf/policies/base.py → rllab/tf/policies/base.py b/sandbox/rocky/tf/policies/base.py → rllab/tf/policies/base.py
@@ -1,7 +1,7 @@
 
 
 
-from sandbox.rocky.tf.core import Parameterized
+from rllab.tf.core import Parameterized
 
 
 class Policy(Parameterized):