apache · zhengruifeng · Jun 26, 2025 · Jun 27, 2025 · Jul 1, 2025 · Jul 4, 2025
diff --git a/core/src/main/scala/org/apache/spark/api/python/PythonRunner.scala b/core/src/main/scala/org/apache/spark/api/python/PythonRunner.scala
@@ -70,6 +70,7 @@ private[spark] object PythonEvalType {
   // Arrow UDFs
   val SQL_SCALAR_ARROW_UDF = 250
   val SQL_SCALAR_ARROW_ITER_UDF = 251
+  val SQL_GROUPED_AGG_ARROW_UDF = 252
 
   val SQL_TABLE_UDF = 300
   val SQL_ARROW_TABLE_UDF = 301
@@ -101,6 +102,7 @@ private[spark] object PythonEvalType {
     // Arrow UDFs
     case SQL_SCALAR_ARROW_UDF => "SQL_SCALAR_ARROW_UDF"
     case SQL_SCALAR_ARROW_ITER_UDF => "SQL_SCALAR_ARROW_ITER_UDF"
+    case SQL_GROUPED_AGG_ARROW_UDF => "SQL_GROUPED_AGG_ARROW_UDF"
   }
 }
 

diff --git a/dev/sparktestsupport/modules.py b/dev/sparktestsupport/modules.py
@@ -542,6 +542,7 @@ def __hash__(self):
         "pyspark.sql.tests.arrow.test_arrow_grouped_map",
         "pyspark.sql.tests.arrow.test_arrow_python_udf",
         "pyspark.sql.tests.arrow.test_arrow_udf",
+        "pyspark.sql.tests.arrow.test_arrow_udf_grouped_agg",
         "pyspark.sql.tests.arrow.test_arrow_udf_scalar",
         "pyspark.sql.tests.pandas.test_pandas_cogrouped_map",
         "pyspark.sql.tests.pandas.test_pandas_grouped_map",

diff --git a/python/pyspark/sql/connect/udf.py b/python/pyspark/sql/connect/udf.py
@@ -280,13 +280,14 @@ def register(
                 PythonEvalType.SQL_SCALAR_PANDAS_ITER_UDF,
                 PythonEvalType.SQL_SCALAR_ARROW_ITER_UDF,
                 PythonEvalType.SQL_GROUPED_AGG_PANDAS_UDF,
+                PythonEvalType.SQL_GROUPED_AGG_ARROW_UDF,
             ]:
                 raise PySparkTypeError(
                     errorClass="INVALID_UDF_EVAL_TYPE",
                     messageParameters={
                         "eval_type": "SQL_BATCHED_UDF, SQL_ARROW_BATCHED_UDF, "
-                        "SQL_SCALAR_PANDAS_UDF, SQL_SCALAR_PANDAS_ITER_UDF or "
-                        "SQL_GROUPED_AGG_PANDAS_UDF"
+                        "SQL_SCALAR_PANDAS_UDF, SQL_SCALAR_PANDAS_ITER_UDF, "
+                        "SQL_GROUPED_AGG_PANDAS_UDF or SQL_GROUPED_AGG_ARROW_UDF"
                     },
                 )
             self.sparkSession._client.register_udf(

diff --git a/python/pyspark/sql/pandas/_typing/__init__.pyi b/python/pyspark/sql/pandas/_typing/__init__.pyi
@@ -63,6 +63,7 @@ GroupedMapUDFTransformWithStateInitStateType = Literal[214]
 # Arrow UDFs
 ArrowScalarUDFType = Literal[250]
 ArrowScalarIterUDFType = Literal[251]
+ArrowGroupedAggUDFType = Literal[252]
 
 class ArrowVariadicScalarToScalarFunction(Protocol):
     def __call__(self, *_: pyarrow.Array) -> pyarrow.Array: ...

diff --git a/python/pyspark/sql/pandas/functions.py b/python/pyspark/sql/pandas/functions.py
@@ -48,6 +48,8 @@ class ArrowUDFType:
 
     SCALAR_ITER = PythonEvalType.SQL_SCALAR_ARROW_ITER_UDF
 
+    GROUPED_AGG = PythonEvalType.SQL_GROUPED_AGG_ARROW_UDF
+
 
 def arrow_udf(f=None, returnType=None, functionType=None):
     return vectorized_udf(f, returnType, functionType, "arrow")
@@ -454,6 +456,7 @@ def calculate(iterator: Iterator[pd.Series]) -> Iterator[pd.Series]:
     if kind == "arrow" and eval_type not in [
         PythonEvalType.SQL_SCALAR_ARROW_UDF,
         PythonEvalType.SQL_SCALAR_ARROW_ITER_UDF,
+        PythonEvalType.SQL_GROUPED_AGG_ARROW_UDF,
         None,
     ]:  # None means it should infer the type from type hints.
         raise PySparkTypeError(

diff --git a/python/pyspark/sql/pandas/typehints.py b/python/pyspark/sql/pandas/typehints.py
@@ -27,6 +27,7 @@
         PandasGroupedAggUDFType,
         ArrowScalarUDFType,
         ArrowScalarIterUDFType,
+        ArrowGroupedAggUDFType,
     )
 
 
@@ -38,6 +39,7 @@ def infer_eval_type(
     "PandasGroupedAggUDFType",
     "ArrowScalarUDFType",
     "ArrowScalarIterUDFType",
+    "ArrowGroupedAggUDFType",
 ]:
     """
     Infers the evaluation type in :class:`pyspark.util.PythonEvalType` from
@@ -175,6 +177,13 @@ def infer_eval_type(
         and not check_tuple_annotation(return_annotation)
     )
 
+    # pa.Array, ... -> Any
+    is_array_agg = all(a == pa.Array for a in parameters_sig) and (
+        return_annotation != pa.Array
+        and not check_iterator_annotation(return_annotation)
+        and not check_tuple_annotation(return_annotation)
+    )
+
     if is_series_or_frame:
         return PandasUDFType.SCALAR
     elif is_arrow_array:
@@ -185,6 +194,8 @@ def infer_eval_type(
         return ArrowUDFType.SCALAR_ITER
     elif is_series_or_frame_agg:
         return PandasUDFType.GROUPED_AGG
+    elif is_array_agg:
+        return ArrowUDFType.GROUPED_AGG
     else:
         raise PySparkNotImplementedError(
             errorClass="UNSUPPORTED_SIGNATURE",