polish(yzj): polish code comments about gobigger in worker/policy/entry

opendilab · jayyoung0802 · May 31, 2023 · Jun 1, 2023 · Jun 1, 2023 · Jun 1, 2023
commit 6da29975fd9c815275b852e2b5083647b0c48245
diff --git a/lzero/entry/eval_muzero_gobigger.py b/lzero/entry/eval_muzero_gobigger.py
@@ -24,7 +24,7 @@ def eval_muzero_gobigger(
 ) -> 'Policy':  # noqa
     """
     Overview:
-        The train entry for MCTS+RL algorithms, including MuZero, EfficientZero, Sampled EfficientZero.
+        The eval entry for GoBigger MCTS+RL algorithms, including MuZero, EfficientZero, Sampled EfficientZero.
     Arguments:
         - input_cfg (:obj:`Tuple[dict, dict]`): Config in dict type.
             ``Tuple[dict, dict]`` type means [user_config, create_cfg].

diff --git a/lzero/entry/train_muzero_gobigger.py b/lzero/entry/train_muzero_gobigger.py
@@ -28,7 +28,7 @@ def train_muzero_gobigger(
 ) -> 'Policy':  # noqa
     """
     Overview:
-        The train entry for MCTS+RL algorithms, including MuZero, EfficientZero, Sampled EfficientZero.
+        The train entry for GoBigger MCTS+RL algorithms, including MuZero, EfficientZero, Sampled EfficientZero.
     Arguments:
         - input_cfg (:obj:`Tuple[dict, dict]`): Config in dict type.
             ``Tuple[dict, dict]`` type means [user_config, create_cfg].

diff --git a/lzero/policy/gobigger_efficientzero.py b/lzero/policy/gobigger_efficientzero.py
@@ -25,7 +25,7 @@
 class GoBiggerEfficientZeroPolicy(Policy):
     """
     Overview:
-        The policy class for EfficientZero.
+        The policy class for GoBiggerEfficientZero.
     """
 
     # The default_config for EfficientZero policy.

diff --git a/lzero/policy/gobigger_muzero.py b/lzero/policy/gobigger_muzero.py
@@ -24,7 +24,7 @@
 class GoBiggerMuZeroPolicy(Policy):
     """
     Overview:
-        The policy class for MuZero.
+        The policy class for GoBiggerMuZero.
     """
 
     # The default_config for MuZero policy.

diff --git a/lzero/policy/gobigger_random_policy.py b/lzero/policy/gobigger_random_policy.py
@@ -25,7 +25,7 @@
 class GoBiggerRandomPolicy(Policy):
     """
     Overview:
-        The policy class for EfficientZero.
+        The policy class for GoBiggerRandom.
     """
 
     # The default_config for EfficientZero policy.

diff --git a/lzero/policy/gobigger_sampled_efficientzero.py b/lzero/policy/gobigger_sampled_efficientzero.py
@@ -26,7 +26,7 @@
 class GoBiggerSampledEfficientZeroPolicy(Policy):
     """
     Overview:
-        The policy class for Sampled EfficientZero.
+        The policy class for GoBigger Sampled EfficientZero.
     """
 
     # The default_config for Sampled fEficientZero policy.

diff --git a/lzero/worker/gobigger_muzero_collector.py b/lzero/worker/gobigger_muzero_collector.py
@@ -19,7 +19,8 @@
 class GoBiggerMuZeroCollector(ISerialCollector):
     """
     Overview:
-        The Collector for MCTS+RL algorithms, including MuZero, EfficientZero, Sampled EfficientZero.
+        The Collector for GoBigger MCTS+RL algorithms, including MuZero, EfficientZero, Sampled EfficientZero.
+        For GoBigger, add agent_num dim in game_segment.
     Interfaces:
         __init__, reset, reset_env, reset_policy, collect, close
     Property:
@@ -447,8 +448,6 @@ def collect(self,
                             )
                     else:
                         for agent_id in range(agent_num):
-                            if len(distributions_dict[env_id][agent_id]) != 27:
-                                print('')
                             game_segments[env_id][agent_id].store_search_stats(
                                 distributions_dict[env_id][agent_id], value_dict[env_id][agent_id]
                             )

diff --git a/lzero/worker/gobigger_muzero_evaluator.py b/lzero/worker/gobigger_muzero_evaluator.py
@@ -21,7 +21,7 @@
 class GoBiggerMuZeroEvaluator(ISerialEvaluator):
     """
     Overview:
-        The Evaluator for MCTS+RL algorithms, including MuZero, EfficientZero, Sampled EfficientZero.
+        The Evaluator for GoBigger MCTS+RL algorithms, including MuZero, EfficientZero, Sampled EfficientZero.
     Interfaces:
         __init__, reset, reset_policy, reset_env, close, should_eval, eval
     Property:

diff --git a/zoo/gobigger/env/gobigger_env.py b/zoo/gobigger/env/gobigger_env.py
@@ -109,14 +109,17 @@ def close(self) -> None:
 
     @property
     def observation_space(self) -> gym.spaces.Space:
+        # The following ensures compatibility with the DI-engine Env class.
         return self._observation_space
 
     @property
     def action_space(self) -> gym.spaces.Space:
+        # The following ensures compatibility with the DI-engine Env class.
         return self._action_space
 
     @property
     def reward_space(self) -> gym.spaces.Space:
+        # The following ensures compatibility with the DI-engine Env class.
         return self._reward_space
 
     def __repr__(self) -> str:

diff --git a/zoo/gobigger/env/gobigger_rule_bot.py b/zoo/gobigger/env/gobigger_rule_bot.py
@@ -34,6 +34,7 @@ def reset(self, env_id_lst=None):
             for agent in self.bot[env_id]:
                 agent.reset()
 
+    # The following ensures compatibility with the DI-engine Policy class.
     def _init_learn(self) -> None:
         pass