Example usage of the ToTorchWrapper is demonstrated below.

env = gym.make("CartPole-v1")
env = ToTorchWrapper(env)
obs = env.reset()
print("initial obs:", obs)
action = env.action_space.sample()
# need to convert action to PyTorch Tensor because ToTorchWrapper expects actions as Tensors.
# normally you would not need to do this, your PyTorch NN actor will output a Tensor by default.
action = torch.as_tensor(action, dtype=torch.float32)
stepped = env.step(action)
print("stepped once:", stepped)

print("\nEntering interaction loop! \n")
# interaction loop
obs = env.reset()
ret = 0
for i in range(100):
    action = torch.as_tensor(env.action_space.sample(), dtype=torch.float32)
    state, reward, done, _ = env.step(action)
    ret += reward
    if done:
        print(f"Random policy got {ret} reward!")
        obs = env.reset()
        ret = 0
        if i < 99:
            print("Starting new episode.")
    if i == 99:
        print(f"\nInteraction loop ended! Got reward {ret} before episode was cut off.")
        break

initial obs: tensor([ 0.0439, -0.0047,  0.0234,  0.0489])
stepped once: (tensor([ 0.0438,  0.1901,  0.0243, -0.2363]), 1.0, False, {})

Entering interaction loop! 

Random policy got 25.0 reward!
Starting new episode.
Random policy got 16.0 reward!
Starting new episode.
Random policy got 16.0 reward!
Starting new episode.
Random policy got 12.0 reward!
Starting new episode.
Random policy got 11.0 reward!
Starting new episode.

Interaction loop ended! Got reward 20.0 before episode was cut off.

Note: Testing needed for StateNormalizeWrapper. At present, use ToTorchWrapper for guaranteed working.

Here is a demonstration of using the StateNormalizeWrapper.

env = gym.make("CartPole-v1")
env = StateNormalizeWrapper(env)
obs = env.reset()
print("initial obs:", obs)
# the StateNormalizeWrapper expects NumPy arrays, so there is no need to convert action to PyTorch Tensor.
action = env.action_space.sample()
stepped = env.step(action)
print("stepped once:", stepped)

print("\nEntering interaction loop! \n")
# interaction loop
obs = env.reset()
ret = 0
for i in range(100):
    action = env.action_space.sample()
    state, reward, done, _ = env.step(action)
    ret += reward
    if done:
        print(f"Random policy got {ret} reward!")
        obs = env.reset()
        ret = 0
        if i < 99:
            print("Starting new episode.")
    if i == 99:
        print(f"\nInteraction loop ended! Got reward {ret} before episode was cut off.")
        break

initial obs: [ 0.01758044 -0.04254612 -0.02514053  0.01284619]
stepped once: (array([ 0.01663708,  0.15312245, -0.02475622, -0.28764562]), 1.0, False, {})

Entering interaction loop! 

Random policy got 10.0 reward!
Starting new episode.
Random policy got 11.0 reward!
Starting new episode.
Random policy got 20.0 reward!
Starting new episode.
Random policy got 22.0 reward!
Starting new episode.
Random policy got 12.0 reward!
Starting new episode.
Random policy got 22.0 reward!
Starting new episode.

Interaction loop ended! Got reward 3.0 before episode was cut off.

Note: Testing needed for RewardScalerWrapper. At present, use ToTorchWrapper for guaranteed working.

An example usage of the RewardScalerWrapper.

env = gym.make("CartPole-v1")
env = RewardScalerWrapper(env)
obs = env.reset()
print("initial obs:", obs)
action = env.action_space.sample()
stepped = env.step(action)
print("stepped once:", stepped)

print("\nEntering interaction loop! \n")
# interaction loop
obs = env.reset()
ret = 0
for i in range(100):
    action = env.action_space.sample()
    state, reward, done, _ = env.step(action)
    ret += reward
    if done:
        print(f"Random policy got {ret} reward!")
        obs = env.reset()
        ret = 0
        if i < 99:
            print("Starting new episode.")
    if i == 99:
        print(f"\nInteraction loop ended! Got reward {ret} before episode was cut off.")
        break

initial obs: [-0.03681186 -0.01856562  0.01785368 -0.03059186]
stepped once: (array([-0.03718318, -0.213939  ,  0.01724184,  0.26767019]), 0.9900985098023393, False, {})

Entering interaction loop! 

Random policy got 25.870551503555898 reward!
Starting new episode.
Random policy got 6.588056312915322 reward!
Starting new episode.
Random policy got 26.21475981461599 reward!
Starting new episode.
Random policy got 6.0767512893302875 reward!
Starting new episode.

Interaction loop ended! Got reward 2.871941385677035 before episode was cut off.

Combining Wrappers

All of these wrappers can be composed together! Simply be sure to call the ToTorchWrapper last, because the others expect NumPy arrays as input, and the ToTorchWrapper converts outputs to PyTorch tensors. Below is an example.

env = gym.make("CartPole-v1")
env = StateNormalizeWrapper(env)
print(f"After wrapping with StateNormalizeWrapper, output is still a NumPy array: {env.reset()}")
env = RewardScalerWrapper(env)
print(f"After wrapping with RewardScalerWrapper, output is still a NumPy array: {env.reset()}")
env = ToTorchWrapper(env)
print(f"But after wrapping with ToTorchWrapper, output is now a PyTorch Tensor: {env.reset()}")

After wrapping with StateNormalizeWrapper, output is still a NumPy array: [-0.0072026  -0.00074714  0.01404444  0.01655632]
After wrapping with RewardScalerWrapper, output is still a NumPy array: [-0.01601177 -0.03326409 -0.02039952  0.02392616]
But after wrapping with ToTorchWrapper, output is now a PyTorch Tensor: tensor([-0.0485,  0.0209, -0.0479, -0.0501])

Note: Testing needed for BestPracticesWrapper. At present, use ToTorchWrapper for guaranteed working.

Below is a usage example of the BestPracticesWrapper. It is used in the same way as the ToTorchWrapper.

env = gym.make("CartPole-v1")
env = BestPracticesWrapper(env)
obs = env.reset()
print("initial obs:", obs)
action = torch.as_tensor(env.action_space.sample(), dtype=torch.float32)
stepped = env.step(action)
print("stepped once:", stepped)

print("\nEntering interaction loop! \n")
# interaction loop
obs = env.reset()
ret = 0
for i in range(100):
    action = torch.as_tensor(env.action_space.sample(), dtype=torch.float32)
    state, reward, done, _ = env.step(action)
    ret += reward
    if done:
        print(f"Random policy got {ret} reward!")
        obs = env.reset()
        ret = 0
        if i < 99:
            print("Starting new episode.")
    if i == 99:
        print(f"\nInteraction loop ended! Got reward {ret} before episode was cut off.")
        break

initial obs: tensor([-0.0468, -0.0292, -0.0462,  0.0099])
stepped once: (tensor([-0.0471, -0.2234, -0.0458,  0.2874]), 0.9900985098023393, False, {})

Entering interaction loop! 

Random policy got 22.00490875509153 reward!
Starting new episode.
Random policy got 22.999644404672914 reward!
Starting new episode.
Random policy got 16.764618492994995 reward!
Starting new episode.
Random policy got 4.907345113364475 reward!
Starting new episode.

Interaction loop ended! Got reward 0.9455435399706331 before episode was cut off.

env_wrappers

`class` `ToTorchWrapper`[source]

`ToTorchWrapper.reset`[source]

`ToTorchWrapper.step`[source]

`ToTorchWrapper.action2np`[source]

`class` `StateNormalizeWrapper`[source]

`StateNormalizeWrapper.reset`[source]

`StateNormalizeWrapper.normalize`[source]

`StateNormalizeWrapper.step`[source]

`class` `RewardScalerWrapper`[source]

`RewardScalerWrapper.scale`[source]

`RewardScalerWrapper.step`[source]

Combining Wrappers

`class` `BestPracticesWrapper`[source]

`BestPracticesWrapper.reset`[source]

`BestPracticesWrapper.step`[source]

env_wrappers

class ToTorchWrapper[source]

ToTorchWrapper.reset[source]

ToTorchWrapper.step[source]

ToTorchWrapper.action2np[source]

class StateNormalizeWrapper[source]

StateNormalizeWrapper.reset[source]

StateNormalizeWrapper.normalize[source]

StateNormalizeWrapper.step[source]

class RewardScalerWrapper[source]

RewardScalerWrapper.scale[source]

RewardScalerWrapper.step[source]

Combining Wrappers

class BestPracticesWrapper[source]

BestPracticesWrapper.reset[source]

BestPracticesWrapper.step[source]

`class` `ToTorchWrapper`[source]

`ToTorchWrapper.reset`[source]

`ToTorchWrapper.step`[source]

`ToTorchWrapper.action2np`[source]

`class` `StateNormalizeWrapper`[source]

`StateNormalizeWrapper.reset`[source]

`StateNormalizeWrapper.normalize`[source]

`StateNormalizeWrapper.step`[source]

`class` `RewardScalerWrapper`[source]

`RewardScalerWrapper.scale`[source]

`RewardScalerWrapper.step`[source]

`class` `BestPracticesWrapper`[source]

`BestPracticesWrapper.reset`[source]

`BestPracticesWrapper.step`[source]