made some changes

beneisner · beneisner · commit d2ad10c054d3 · 2024-03-19T12:13:51.000-04:00
diff --git a/notebooks/explore_dset2.ipynb b/notebooks/explore_dset2.ipynb
@@ -67,14 +67,14 @@
     "import rlbench\n",
     "from rlbench.observation_config import CameraConfig, ObservationConfig\n",
     "\n",
-    "demo = rlbench.utils.get_stored_demos(\n",
-    "    amount=1,\n",
+    "demos = rlbench.utils.get_stored_demos(\n",
+    "    amount=10,\n",
     "    image_paths=False,\n",
-    "    dataset_root=\"/data/rlbench10\",\n",
+    "    dataset_root=\"/data/rlbench10_collisions\",\n",
     "    variation_number=0,\n",
     "    # task_name=\"slide_block_to_target\",\n",
     "    # task_name=\"reach_target\",\n",
-    "    task_name=\"put_money_in_safe\",\n",
+    "    task_name=\"stack_wine\",\n",
     "    obs_config=ObservationConfig(\n",
     "        left_shoulder_camera=CameraConfig(image_size=(256, 256)),\n",
     "        right_shoulder_camera=CameraConfig(image_size=(256, 256)),\n",
@@ -85,7 +85,32 @@
     "    ),\n",
     "    random_selection=False,\n",
     "    from_episode_number=0,\n",
-    ")[0]"
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "\n",
+    "for i in range(len(demo)):\n",
+    "    print(demo[i].ignore_collisions)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from rpad.rlbench_utils.keyframing_pregrasp import keypoint_discovery_pregrasp\n",
+    "\n",
+    "\n",
+    "keyframe_ixs = keypoint_discovery_pregrasp(demo)\n",
+    "\n",
+    "keyframes = [demo[ix] for ix in keyframe_ixs]"
    ]
   },
   {
@@ -94,7 +119,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "dir(demo[0])"
+    "import numpy as np"
    ]
   },
   {
@@ -103,7 +128,15 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "demo[0].task_low_dim_state.shape"
+    "all_colls = []\n",
+    "for demo in demos:\n",
+    "    keyframe_ixs = keypoint_discovery_pregrasp(demo)\n",
+    "    keyframes = [demo[ix] for ix in keyframe_ixs]\n",
+    "    colls = [keyframe.ignore_collisions for keyframe in keyframes]\n",
+    "    all_colls.append(colls)\n",
+    "\n",
+    "all_colls = np.array(all_colls)\n",
+    "all_colls"
    ]
   },
   {
diff --git a/src/rpad/rlbench_utils/keyframing.py b/src/rpad/rlbench_utils/keyframing.py
@@ -1,6 +1,8 @@
 """Borrowed the following keyframing code from:
 https://github.com/zhouxian/act3d-chained-diffuser/blob/main/online_evaluation/utils_with_rlbench.py
 """
+
+import logging
 from typing import List
 
 import numpy as np
@@ -51,3 +53,24 @@ def keypoint_discovery(demo: Demo, stopping_delta=0.1) -> List[int]:
         episode_keypoints.pop(-2)
 
     return episode_keypoints
+
+
+def keypoint_discovery_original(demo: Demo, stopping_delta=0.1) -> List[int]:
+    episode_keypoints = []
+    prev_gripper_open = demo[0].gripper_open
+    stopped_buffer = 0
+    for i, obs in enumerate(demo):
+        stopped = _is_stopped(demo, i, obs, stopped_buffer, stopping_delta)
+        stopped_buffer = 4 if stopped else stopped_buffer - 1
+        # If change in gripper, or end of episode.
+        last = i == (len(demo) - 1)
+        if i != 0 and (obs.gripper_open != prev_gripper_open or last or stopped):
+            episode_keypoints.append(i)
+        prev_gripper_open = obs.gripper_open
+    if (
+        len(episode_keypoints) > 1
+        and (episode_keypoints[-1] - 1) == episode_keypoints[-2]
+    ):
+        episode_keypoints.pop(-2)
+    logging.debug("Found %d keypoints." % len(episode_keypoints), episode_keypoints)
+    return episode_keypoints
diff --git a/src/rpad/rlbench_utils/placement_dataset.py b/src/rpad/rlbench_utils/placement_dataset.py
@@ -273,6 +273,34 @@ def __len__(self) -> int:
         else:
             return self.n_demos
 
+    @staticmethod
+    def _load_keyframes(
+        dataset_root, variation, task_name, episode_index: int
+    ) -> List[int]:
+        demo = rlbench.utils.get_stored_demos(
+            amount=1,
+            image_paths=False,
+            dataset_root=dataset_root,
+            variation_number=variation,
+            task_name=task_name,
+            obs_config=ObservationConfig(
+                left_shoulder_camera=CameraConfig(image_size=(256, 256)),
+                right_shoulder_camera=CameraConfig(image_size=(256, 256)),
+                front_camera=CameraConfig(image_size=(256, 256)),
+                wrist_camera=CameraConfig(image_size=(256, 256)),
+                overhead_camera=CameraConfig(image_size=(256, 256)),
+                task_low_dim_state=True,
+            ),
+            random_selection=False,
+            from_episode_number=episode_index,
+        )[0]
+
+        keyframe_ixs = keypoint_discovery_pregrasp(demo)
+
+        keyframes = [demo[ix] for ix in keyframe_ixs]
+
+        return keyframes, demo[0]
+
     # We also cache in memory, since all the transformations are the same.
     # Saves a lot of time when loading the dataset, but don't have to worry
     # about logic changes after the fact.
@@ -288,29 +316,15 @@ def __getitem__(self, index: int) -> Dict[str, torch.Tensor]:
         # demonstrations from disk. But this means that we'll have to be careful
         # whenever we re-generate the demonstrations to delete the cache.
         if self.memory is not None:
-            get_demo_fn = self.memory.cache(rlbench.utils.get_stored_demos)
+            load_keyframes_fn = self.memory.cache(self._load_keyframes)
         else:
-            get_demo_fn = rlbench.utils.get_stored_demos
+            load_keyframes_fn = self._load_keyframes
 
-        demo: rlbench.demo.Demo = get_demo_fn(
-            amount=1,
-            image_paths=False,
-            dataset_root=self.dataset_root,
-            variation_number=self.variation,
-            task_name=self.task_name,
-            obs_config=ObservationConfig(
-                left_shoulder_camera=CameraConfig(image_size=(256, 256)),
-                right_shoulder_camera=CameraConfig(image_size=(256, 256)),
-                front_camera=CameraConfig(image_size=(256, 256)),
-                wrist_camera=CameraConfig(image_size=(256, 256)),
-                overhead_camera=CameraConfig(image_size=(256, 256)),
-                task_low_dim_state=True,
-            ),
-            random_selection=False,
-            from_episode_number=self.demos[index],
-        )[0]
+        keyframes, first_frame = load_keyframes_fn(
+            self.dataset_root, self.variation, self.task_name, self.demos[index]
+        )
 
-        keyframes = keypoint_discovery_pregrasp(demo)
+        # breakpoint()
 
         # Get the index of the phase into keypoints.
         if self.phase == "all":
@@ -326,16 +340,17 @@ def __getitem__(self, index: int) -> Dict[str, torch.Tensor]:
 
         # Select an observation to use as the initial observation.
         if self.use_first_as_init_keyframe or phase_ix == 0:
-            initial_obs = demo[0]
+            initial_obs = first_frame
         else:
-            initial_obs = demo[keyframes[phase_ix - 1]]
+            initial_obs = keyframes[phase_ix - 1]
 
         # Find the first grasp instance
-        key_obs = demo[keyframes[phase_ix]]
+        key_obs = keyframes[phase_ix]
 
         if self.debugging:
+            raise ValueError("Debugging not implemented.")
             return {
-                "keyframes": keyframes,
+                "keyframes": keyframe_ixs,
                 "demo": demo,
                 "initial_obs": initial_obs,
                 "key_obs": key_obs,
@@ -395,35 +410,6 @@ def _select_anchor_vals(rgb, point_cloud, mask):
                     "Anchor mode must be one of the AnchorMode enum values."
                 )
 
-        # if self.anchor_mode == AnchorMode.RAW:
-        #     init_anchor_rgb = init_rgb
-        #     init_anchor_point_cloud = init_point_cloud
-        # elif self.anchor_mode == AnchorMode.BACKGROUND_REMOVED:
-        #     init_anchor_rgb, init_anchor_point_cloud = filter_out_names(
-        #         init_rgb,
-        #         init_point_cloud,
-        #         init_mask,
-        #         self.handle_mapping,
-        #         BACKGROUND_NAMES,
-        #     )
-        # elif self.anchor_mode == AnchorMode.BACKGROUND_ROBOT_REMOVED:
-        #     init_anchor_rgb, init_anchor_point_cloud = filter_out_names(
-        #         init_rgb,
-        #         init_point_cloud,
-        #         init_mask,
-        #         self.handle_mapping,
-        #         BACKGROUND_NAMES + ROBOT_NONGRIPPER_NAMES,
-        #     )
-        # elif self.anchor_mode == AnchorMode.SINGLE_OBJECT:
-        #     (
-        #         init_anchor_rgb,
-        #         init_anchor_point_cloud,
-        #     ) = get_rgb_point_cloud_by_object_handles(
-        #         init_rgb,
-        #         init_point_cloud,
-        #         init_mask,
-        #         self.names_to_handles[phase]["anchor_obj_names"],
-        #     )
         init_anchor_rgb, init_anchor_point_cloud = _select_anchor_vals(
             init_rgb, init_point_cloud, init_mask
         )
@@ -435,34 +421,6 @@ def _select_anchor_vals(rgb, point_cloud, mask):
         key_action_rgb, key_action_point_cloud = get_rgb_point_cloud_by_object_handles(
             key_rgb, key_point_cloud, key_mask, action_handles
         )
-        # if self.anchor_mode == AnchorMode.RAW:
-        #     key_anchor_rgb = key_rgb
-        #     key_anchor_point_cloud = key_point_cloud
-        # elif self.anchor_mode == AnchorMode.BACKGROUND_REMOVED:
-        #     key_anchor_rgb, key_anchor_point_cloud = filter_out_names(
-        #         key_rgb,
-        #         key_point_cloud,
-        #         key_mask,
-        #         self.handle_mapping,
-        #         BACKGROUND_NAMES,
-        #     )
-        # elif self.anchor_mode == AnchorMode.BACKGROUND_ROBOT_REMOVED:
-        #     key_anchor_rgb, key_anchor_point_cloud = filter_out_names(
-        #         key_rgb,
-        #         key_point_cloud,
-        #         key_mask,
-        #         self.handle_mapping,
-        #         BACKGROUND_NAMES + ROBOT_NONGRIPPER_NAMES,
-        #     )
-        # elif self.anchor_mode == AnchorMode.SINGLE_OBJECT:
-        #     key_anchor_rgb, key_anchor_point_cloud = (
-        #         get_rgb_point_cloud_by_object_handles(
-        #             key_rgb,
-        #             key_point_cloud,
-        #             key_mask,
-        #             self.names_to_handles[phase]["anchor_obj_names"],
-        #         )
-        #     )
         key_anchor_rgb, key_anchor_point_cloud = _select_anchor_vals(
             key_rgb, key_point_cloud, key_mask
         )
diff --git a/src/rpad/rlbench_utils/task_info.py b/src/rpad/rlbench_utils/task_info.py