pushing model

Browse files

Files changed (11) hide show

DQPN_baseline.cleanrl_model +0 -0
README.md +3 -3
dqpn_duncan.py +3 -2
events.out.tfevents.1676248128.wycliffeduncan-Victus-by-HP-Gaming-Laptop-15-fa0xxx.40260.0 → events.out.tfevents.1676955102.portal.2502556.0 +2 -2
replay.mp4 +0 -0
videos/CartPole-v1__DQPN_baseline__1__1676248121-eval/rl-video-episode-0.mp4 +0 -0
videos/CartPole-v1__DQPN_baseline__1__1676248121-eval/rl-video-episode-1.mp4 +0 -0
videos/CartPole-v1__DQPN_baseline__1__1676248121-eval/rl-video-episode-8.mp4 +0 -0
videos/CartPole-v1__DQPN_baseline__1__1676955098-eval/rl-video-episode-0.mp4 +0 -0
videos/CartPole-v1__DQPN_baseline__1__1676955098-eval/rl-video-episode-1.mp4 +0 -0
videos/CartPole-v1__DQPN_baseline__1__1676955098-eval/rl-video-episode-8.mp4 +0 -0

DQPN_baseline.cleanrl_model CHANGED Viewed

Binary files a/DQPN_baseline.cleanrl_model and b/DQPN_baseline.cleanrl_model differ

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ model-index:
       type: CartPole-v1
     metrics:
     - type: mean_reward
-      value: 480.40 +/- 45.13
       name: mean_reward
       verified: false
 ---
@@ -46,7 +46,7 @@ curl -OL https://huggingface.co/pfunk/CartPole-v1-DQPN_baseline-seed1/raw/main/d
 curl -OL https://huggingface.co/pfunk/CartPole-v1-DQPN_baseline-seed1/raw/main/pyproject.toml
 curl -OL https://huggingface.co/pfunk/CartPole-v1-DQPN_baseline-seed1/raw/main/poetry.lock
 poetry install --all-extras
-python dqpn_duncan.py --exp-name DQPN_baseline --target-tau 1 --policy-tau 1 --track --wandb-entity pfunk --wandb-project-name dqpn --save-model true --upload-model true --hf-entity pfunk --env-id CartPole-v1 --seed 1 --total-timesteps 100000
 ```
 # Hyperparameters
@@ -72,7 +72,7 @@ python dqpn_duncan.py --exp-name DQPN_baseline --target-tau 1 --policy-tau 1 --t
  'target_network_frequency': 100,
  'target_tau': 1.0,
  'torch_deterministic': True,
- 'total_timesteps': 100000,
  'track': True,
  'train_frequency': 10,
  'update_scalar': False,

       type: CartPole-v1
     metrics:
     - type: mean_reward
+      value: 381.50 +/- 58.54
       name: mean_reward
       verified: false
 ---
 curl -OL https://huggingface.co/pfunk/CartPole-v1-DQPN_baseline-seed1/raw/main/pyproject.toml
 curl -OL https://huggingface.co/pfunk/CartPole-v1-DQPN_baseline-seed1/raw/main/poetry.lock
 poetry install --all-extras
+python dqpn_duncan.py --exp-name DQPN_baseline --target-tau 1 --policy-tau 1 --track --wandb-entity pfunk --wandb-project-name dqpn --save-model true --upload-model true --hf-entity pfunk --env-id CartPole-v1 --seed 1 --total-timesteps 25000000
 ```
 # Hyperparameters
  'target_network_frequency': 100,
  'target_tau': 1.0,
  'torch_deterministic': True,
+ 'total_timesteps': 25000000,
  'track': True,
  'train_frequency': 10,
  'update_scalar': False,

dqpn_duncan.py CHANGED Viewed

@@ -78,6 +78,7 @@ def parse_args():
         help="if the min TD error is within one std dev of mean -> update policy network")
     parser.add_argument("--update-scalar", type=bool, default=False,
         help="scalar = mean/max/0.5 and scales the # of steps between policy network updates")
     args = parser.parse_args()
     # fmt: on
@@ -225,8 +226,8 @@ if __name__ == "__main__":
                     td_target = data.rewards.flatten() + args.gamma * target_max * (1 - data.dones.flatten())
                 old_val = q_network(data.observations).gather(1, data.actions).squeeze()
                 #DUNCAN - calculate the error statistics
-                prev = old_val.detach().numpy()
-                new = td_target.detach().numpy()
                 diff = np.abs(prev-new)
                 mean = np.mean(diff)
                 maximum = np.max(diff)

         help="if the min TD error is within one std dev of mean -> update policy network")
     parser.add_argument("--update-scalar", type=bool, default=False,
         help="scalar = mean/max/0.5 and scales the # of steps between policy network updates")
+    #DUNCAN  - end
     args = parser.parse_args()
     # fmt: on
                     td_target = data.rewards.flatten() + args.gamma * target_max * (1 - data.dones.flatten())
                 old_val = q_network(data.observations).gather(1, data.actions).squeeze()
                 #DUNCAN - calculate the error statistics
+                prev = old_val.detach().cpu().numpy()
+                new = td_target.detach().cpu().numpy()
                 diff = np.abs(prev-new)
                 mean = np.mean(diff)
                 maximum = np.max(diff)

events.out.tfevents.1676248128.wycliffeduncan-Victus-by-HP-Gaming-Laptop-15-fa0xxx.40260.0 → events.out.tfevents.1676955102.portal.2502556.0 RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c88daa5228da5b3ad929b8146656dd0bde4cc97489c7dd31feffd7e3f085a5e7
-size 361364

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac2d6df0226f7ba89a5201410b4b0cf715b38f46bedb84ff0c639160b6c389ef
+size 106534158

replay.mp4 CHANGED Viewed

Binary files a/replay.mp4 and b/replay.mp4 differ

videos/CartPole-v1__DQPN_baseline__1__1676248121-eval/rl-video-episode-0.mp4 DELETED Viewed

Binary file (38.7 kB)

videos/CartPole-v1__DQPN_baseline__1__1676248121-eval/rl-video-episode-1.mp4 DELETED Viewed

Binary file (48.2 kB)

videos/CartPole-v1__DQPN_baseline__1__1676248121-eval/rl-video-episode-8.mp4 DELETED Viewed

Binary file (42.6 kB)

videos/CartPole-v1__DQPN_baseline__1__1676955098-eval/rl-video-episode-0.mp4 ADDED Viewed

File without changes

videos/CartPole-v1__DQPN_baseline__1__1676955098-eval/rl-video-episode-1.mp4 ADDED Viewed

File without changes

videos/CartPole-v1__DQPN_baseline__1__1676955098-eval/rl-video-episode-8.mp4 ADDED Viewed

File without changes