Add muon optimizer

shuningjin · shuningjin · commit 245759bc19b7 · 2025-10-27T09:30:54.000Z
diff --git a/src/MaxText/configs/base.yml b/src/MaxText/configs/base.yml
@@ -622,7 +622,7 @@ gradient_clipping_threshold: 1.0
 # batch by accumulating the gradient over a set of steps.
 gradient_accumulation_steps: 1
 
-opt_type: "adamw"  # one of "adamw", "adam_pax" or "sgd"
+opt_type: "adamw"  # one of "adamw", "adam_pax", "sgd", or "muon"
 
 # AdamW optimizer parameters
 # We use AdamW following Llama2's training details, see https://arxiv.org/pdf/2307.09288.pdf section 2.2
@@ -635,6 +635,14 @@ mu_dtype: "" # data type to store "mu" of AdamW tracking the first moment. Inher
 # Setting nu_dtype is not yet supported by optax, instead nu_dtype is always inherited from weights.
 # See b/399961932 for more.
 
+# Muon optimizer parameters
+# https://github.com/google-deepmind/optax/blob/main/optax/contrib/_muon.py
+# "mu_dtype", "adam_eps" are shared by AdamW
+# "nesterov", "ns_coeffs", "ns_steps", "weight_decay_mask", "adaptive" use default
+muon_beta: 0.95 # Decay rate for the exponentially weighted average of grads.
+muon_weight_decay: 0 # Strength of the weight decay regularization. This is multiplied with the learning rate.
+muon_consistent_rms: None # If None, apply width scaling to updates. If float, apply consistent rms scaling (recommend 0.2).
+
 # Stack trace parameters
 collect_stack_trace: False
 stack_trace_to_cloud: False  # Uploads to cloud logging if True, else to the console if False.
diff --git a/src/MaxText/muon_dimension_number.py b/src/MaxText/muon_dimension_number.py
@@ -0,0 +1,195 @@
+import jax
+import jax.numpy as jnp
+from optax.contrib import MuonDimensionNumbers as mdn
+
+# deepseek2-16b, scanned, q_lora_rank=0
+# NOTE: not compatible with deepseek2-236b (q_lora_rank: 1536)
+DEEPSEEK2_DIMENSION_NUMBER = {
+    "params": {
+        "decoder": {
+            "dense_layers": {
+                "mlp": {
+                    "wi_0": {"kernel": mdn((0,), (-1,))},
+                    "wi_1": {"kernel": mdn((0,), (-1,))},
+                    "wo": {"kernel": mdn((0,), (-1,))},
+                },
+                "self_attention": {
+                    "kv_norm": {"scale": None},
+                    "wkv_a": {"kernel": mdn((0,), (-1,))},
+                    "wkv_b": {"kernel": mdn((0,), (-2, -1))},
+                    "out": {"kernel": mdn((0, -2), (-1,))},
+                    "query": {"kernel": mdn((0,), (-2, -1))},  # ds2
+                },
+                "pre_self_attention_layer_norm": {"scale": None},
+                "post_self_attention_layer_norm": {"scale": None},
+            },
+            "moe_layers": {
+                "DeepSeekMoeBlock_0": {
+                    "MoeBlock_0": {
+                        "wi_0": mdn((-2,), (-1,)),
+                        "wi_1": mdn((-2,), (-1,)),
+                        "wo": mdn((-2,), (-1,)),
+                        "gate": {"kernel": mdn((0,), (-1,))},  # ds2
+                    },
+                    "shared_experts": {
+                        "wi_0": {"kernel": mdn((0,), (-1,))},
+                        "wi_1": {"kernel": mdn((0,), (-1,))},
+                        "wo": {"kernel": mdn((0,), (-1,))},
+                    },
+                },
+                "self_attention": {
+                    "kv_norm": {"scale": None},
+                    "wkv_a": {"kernel": mdn((0,), (-1,))},
+                    "wkv_b": {"kernel": mdn((0,), (-2, -1))},
+                    "out": {"kernel": mdn((0, -2), (-1,))},
+                    "query": {"kernel": mdn((0,), (-2, -1))},  # ds2
+                },
+                "pre_self_attention_layer_norm": {"scale": None},
+                "post_self_attention_layer_norm": {"scale": None},
+            },
+            "decoder_norm": {"scale": None},
+            "logits_dense": {"kernel": None},
+        },
+        "token_embedder": {"embedding": None},
+    }
+}
+
+
+# deepseek3, scanned
+DEEPSEEK3_DIMENSION_NUMBER = {
+    "params": {
+        "decoder": {
+            "dense_layers": {
+                "mlp": {
+                    "wi_0": {"kernel": mdn((0,), (-1,))},
+                    "wi_1": {"kernel": mdn((0,), (-1,))},
+                    "wo": {"kernel": mdn((0,), (-1,))},
+                },
+                "self_attention": {
+                    "kv_norm": {"scale": None},
+                    "wkv_a": {"kernel": mdn((0,), (-1,))},
+                    "wkv_b": {"kernel": mdn((0,), (-2, -1))},
+                    "out": {"kernel": mdn((0, -2), (-1,))},
+                    "q_norm": {"scale": None},  # ds3
+                    "wq_a": {"kernel": mdn((0,), (-1,))},  # ds3
+                    "wq_b": {"kernel": mdn((0,), (-2, -1))},  # ds3
+                },
+                "pre_self_attention_layer_norm": {"scale": None},
+                "post_self_attention_layer_norm": {"scale": None},
+            },
+            "moe_layers": {
+                "DeepSeekMoeBlock_0": {
+                    "MoeBlock_0": {
+                        "wi_0": mdn((-2,), (-1,)),
+                        "wi_1": mdn((-2,), (-1,)),
+                        "wo": mdn((-2,), (-1,)),
+                        "gate": {"kernel": mdn((0,), (-1,)), "bias": None},  # ds3
+                    },
+                    "shared_experts": {
+                        "wi_0": {"kernel": mdn((0,), (-1,))},
+                        "wi_1": {"kernel": mdn((0,), (-1,))},
+                        "wo": {"kernel": mdn((0,), (-1,))},
+                    },
+                },
+                "self_attention": {
+                    "kv_norm": {"scale": None},
+                    "wkv_a": {"kernel": mdn((0,), (-1,))},
+                    "wkv_b": {"kernel": mdn((0,), (-2, -1))},
+                    "out": {"kernel": mdn((0, -2), (-1,))},
+                    "q_norm": {"scale": None},  # ds3
+                    "wq_a": {"kernel": mdn((0,), (-1,))},  # ds3
+                    "wq_b": {"kernel": mdn((0,), (-2, -1))},  # ds3
+                },
+                "pre_self_attention_layer_norm": {"scale": None},
+                "post_self_attention_layer_norm": {"scale": None},
+            },
+            "decoder_norm": {"scale": None},
+            "logits_dense": {"kernel": None},
+        },
+        "token_embedder": {"embedding": None},
+    }
+}
+
+
+def transform_logic(path):
+  """
+  assume scan (i.e., dim 1 is layer num L), should work with unscan (without L)
+  works for deepseek, llama2, gemma3
+  """
+  # moe: [0, L, -2, -1]
+  if "MoeBlock_0" in path and ("wo" in path or "wi_0" in path or "wi_1" in path):
+    return mdn((-2,), (-1,))
+  # attention out proj: [0, L, -2, -1]
+  elif "self_attention" in path and "out" in path:
+    return mdn((0, -2), (-1,))
+  # attention qkv proj: [0, L, -2, -1]
+  elif "self_attention" in path and (
+      "query" in path or "key" in path or "value" in path or "wq_b" in path or "wkv_b" in path
+  ):
+    return mdn((0,), (-2, -1))
+  # do not apply muon: scalar, embedding, unembedding
+  elif "scale" in path or "bias" in path or "embedding" in path or "logits_dense" in path:
+    return None
+  else:
+    # all other: [0, L, -1]
+    return mdn((0,), (-1,))
+
+
+def get_transform_tree(tree, path=()):
+  if isinstance(tree, dict):
+    return {k: get_transform_tree(v, path + (k,)) for k, v in tree.items()}
+  else:
+    return transform_logic(path)
+
+
+def get_abstract_param(model, config):
+  key = jax.random.PRNGKey(0)
+  input_shape = (config.micro_batch_size_to_train_on, config.max_target_length)
+  abstract_vars = jax.eval_shape(
+      model.init,
+      {"params": key, "dropout": key, "aqt": key},
+      jnp.ones(input_shape, dtype=jnp.int32),
+      jnp.ones(input_shape, dtype=jnp.int32),
+      encoder_images=None,
+  )
+  return abstract_vars
+
+
+def test1():
+  assert get_transform_tree(DEEPSEEK2_DIMENSION_NUMBER) == DEEPSEEK2_DIMENSION_NUMBER
+  assert get_transform_tree(DEEPSEEK3_DIMENSION_NUMBER) == DEEPSEEK3_DIMENSION_NUMBER
+
+
+def test2():
+  from MaxText import pyconfig, maxtext_utils
+  from MaxText.globals import MAXTEXT_PKG_DIR
+  from MaxText.layers import models, quantizations
+  import os
+
+  Transformer = models.transformer_as_linen
+
+  def _test2(model_name):
+    # init model
+    argv = [None, os.path.join(MAXTEXT_PKG_DIR, "configs", "base.yml"), f"model_name={model_name}"]
+    config = pyconfig.initialize(argv)
+    rng = jax.random.PRNGKey(0)
+    devices_array = maxtext_utils.create_device_mesh(config)
+    mesh = jax.sharding.Mesh(devices_array, config.mesh_axes)
+    quant = quantizations.configure_quantization(config)
+    model = Transformer(config, mesh=mesh, quant=quant)
+    # quickly get param structure without materialization
+    abstract_param = get_abstract_param(model, config)
+    print(abstract_param)
+    # get muon dimension number
+    transform_tree = get_transform_tree(abstract_param)
+    return transform_tree
+
+  assert _test2("deepseek2-16b") == DEEPSEEK2_DIMENSION_NUMBER
+  assert _test2("deepseek3-test") == DEEPSEEK3_DIMENSION_NUMBER
+  assert _test2("deepseek3-671b") == DEEPSEEK3_DIMENSION_NUMBER
+
+
+if __name__ == "__main__":
+  # python -m MaxText.muon_dimension_number
+  test1()
+  test2()
diff --git a/src/MaxText/optimizers.py b/src/MaxText/optimizers.py
@@ -17,11 +17,14 @@
 
 import jax
 import jax.numpy as jnp
+from flax.linen import partitioning as nn_partitioning
 
 import optax
+from optax.contrib import muon
+from MaxText.muon_dimension_number import get_abstract_param, get_transform_tree
 
 
-def get_optimizer(config, learning_rate_schedule):
+def get_optimizer(config, learning_rate_schedule, model=None):
   """Create optimizer."""
   if config.opt_type == "adamw":
     # Create AdamW Optimizer following Llama2's training details, see https://arxiv.org/pdf/2307.09288.pdf section 2.2
@@ -45,6 +48,31 @@ def get_optimizer(config, learning_rate_schedule):
     )
   elif config.opt_type == "sgd":
     return optax.sgd(learning_rate_schedule)
+  elif config.opt_type == "muon":
+    # extract muon dimension number from model structure
+    assert model is not None
+    with model.mesh, nn_partitioning.axis_rules(config.logical_axis_rules):
+      abstract_param = get_abstract_param(model, config)
+    print(abstract_param)
+    muon_weight_dimension_numbers = get_transform_tree(abstract_param)
+    print("dimension number:", muon_weight_dimension_numbers)
+    muon_kwargs = {
+        # Shared parameters: "nesterov" uses default
+        "learning_rate": learning_rate_schedule,
+        "eps": config.adam_eps,
+        "mu_dtype": config.mu_dtype,
+        # Muon-specific parameters: "ns_coeffs", "ns_steps", "weight_decay_mask", "adaptive" uses default
+        "beta": config.muon_beta,
+        "weight_decay": config.muon_weight_decay,
+        "muon_weight_dimension_numbers": muon_weight_dimension_numbers,
+        "consistent_rms": config.muon_consistent_rms,
+        # AdamW-specific parameters
+        "adam_b1": config.adam_b1,
+        "adam_b2": config.adam_b2,
+        "adam_eps_root": config.adam_eps_root,
+        "adam_weight_decay": config.adam_weight_decay,
+    }
+    return muon(**muon_kwargs)
   else:
     raise ValueError(f"{config.opt_type=} is not a supported.")
 
diff --git a/src/MaxText/pyconfig.py b/src/MaxText/pyconfig.py
@@ -483,6 +483,16 @@ def resolve_config_path(param: str) -> str:
   return param if os.path.isfile(param) else os.path.join("src", param)
 
 
+def set_muon_config(raw_keys):
+  if raw_keys["muon_consistent_rms"] in ["None", "none"]:
+    raw_keys["muon_consistent_rms"] = None
+  else:
+    try:
+      raw_keys["muon_consistent_rms"] = float(raw_keys["muon_consistent_rms"])
+    except ValueError as e:
+      raise ValueError(f"muon_consistent_rms should be None or float") from e
+
+
 class _HyperParameters:
   # pylint: disable=missing-class-docstring
   # This class is responsible for loading, merging, and overriding the configuration.
@@ -735,6 +745,7 @@ def user_init(raw_keys):
     raw_keys["mu_dtype"] = set_mu_dtype(raw_keys)
     raw_keys["logical_axis_rules"] = _lists_to_tuples(raw_keys["logical_axis_rules"])
     raw_keys["data_sharding"] = _lists_to_tuples(raw_keys["data_sharding"])
+    set_muon_config(raw_keys)
 
     if raw_keys["remat_policy"] == "custom":
       raw_keys = validate_and_assign_remat_tensors(raw_keys)
diff --git a/src/MaxText/sft/sft_trainer.py b/src/MaxText/sft/sft_trainer.py
@@ -148,7 +148,7 @@ def train(mt_config, goodput_recorder=None):
   with maybe_record_goodput(goodput_recorder, GoodputEvent.TPU_INIT):
     model, mesh = model_creation_utils.create_nnx_model(mt_config)
     learning_rate_schedule = maxtext_utils.create_learning_rate_schedule(mt_config)
-    optimizer = optimizers.get_optimizer(mt_config, learning_rate_schedule)
+    optimizer = optimizers.get_optimizer(mt_config, learning_rate_schedule, model)
 
   with maybe_record_goodput(goodput_recorder, GoodputEvent.TRAINING_PREPARATION):
     training_hooks = hooks.SFTTrainingHooks(mt_config, mesh, learning_rate_schedule, goodput_recorder)
diff --git a/src/MaxText/train_compile.py b/src/MaxText/train_compile.py
@@ -88,7 +88,8 @@ def get_shaped_inputs(topology_mesh, config):
   model = Transformer(config, topology_mesh, quant=quant, model_mode=MODEL_MODE_TRAIN)
   # The learning_rate_schedule is baked into the compiled object.
   learning_rate_schedule = maxtext_utils.create_learning_rate_schedule(config)
-  tx = optimizers.get_optimizer(config, learning_rate_schedule)
+  # pass in model for muon
+  tx = optimizers.get_optimizer(config, learning_rate_schedule, model)
 
   # Shaped RNG keys
   _, example_rng = jax.random.split(jax.random.PRNGKey(0), 2)
diff --git a/src/MaxText/train_utils.py b/src/MaxText/train_utils.py
@@ -33,7 +33,8 @@ def create_training_tools(config, model, mesh):
   """Creates the init_rng, optimizer, learning rate schedule, and checkpoint manager."""
   init_rng = jax.random.PRNGKey(config.init_weights_seed)
   learning_rate_schedule = maxtext_utils.create_learning_rate_schedule(config)
-  tx = optimizers.get_optimizer(config, learning_rate_schedule)
+  # pass in model for muon
+  tx = optimizers.get_optimizer(config, learning_rate_schedule, model)
   logger = checkpointing.setup_checkpoint_logger(config)
   if config.enable_multi_tier_checkpointing:
     checkpoint_manager = checkpointing.create_orbax_emergency_replicator_checkpoint_manager(