Labelbox
diff --git a/‎libs/labelbox/src/labelbox/data/annotation_types/__init__.py‎
Lines changed: 4 additions & 1 deletion b/‎libs/labelbox/src/labelbox/data/annotation_types/__init__.py‎
Lines changed: 4 additions & 1 deletion
diff --git a/‎libs/labelbox/src/labelbox/data/annotation_types/audio.py‎
Lines changed: 0 additions & 36 deletions b/‎libs/labelbox/src/labelbox/data/annotation_types/audio.py‎
Lines changed: 0 additions & 36 deletions
diff --git a/‎libs/labelbox/src/labelbox/data/annotation_types/label.py‎
Lines changed: 20 additions & 6 deletions b/‎libs/labelbox/src/labelbox/data/annotation_types/label.py‎
Lines changed: 20 additions & 6 deletions
diff --git a/‎libs/labelbox/src/labelbox/data/annotation_types/temporal.py‎
Lines changed: 194 additions & 0 deletions b/‎libs/labelbox/src/labelbox/data/annotation_types/temporal.py‎
Lines changed: 194 additions & 0 deletions
diff --git a/‎libs/labelbox/src/labelbox/data/serialization/ndjson/label.py‎
Lines changed: 15 additions & 12 deletions b/‎libs/labelbox/src/labelbox/data/serialization/ndjson/label.py‎
Lines changed: 15 additions & 12 deletions
@@ -19,7 +19,9 @@
 from .video import MaskInstance
 from .video import VideoMaskAnnotation
 
-from .audio import AudioClassificationAnnotation
+from .temporal import TemporalClassificationText
+from .temporal import TemporalClassificationQuestion
+from .temporal import TemporalClassificationAnswer
 
 from .ner import ConversationEntity
 from .ner import DocumentEntity
@@ -30,6 +32,7 @@
 from .classification import ClassificationAnswer
 from .classification import Radio
 from .classification import Text
+from .classification import FrameLocation
 
 from .data import GenericDataRowData
 from .data import MaskData
 
@@ -13,7 +13,10 @@
 from .metrics import ScalarMetric, ConfusionMatrixMetric
 from .video import VideoClassificationAnnotation
 from .video import VideoObjectAnnotation, VideoMaskAnnotation
-from .audio import AudioClassificationAnnotation
+from .temporal import (
+    TemporalClassificationText,
+    TemporalClassificationQuestion,
+)
 from .mmc import MessageEvaluationTaskAnnotation
 from pydantic import BaseModel, field_validator
 
@@ -45,7 +48,8 @@ class Label(BaseModel):
             ClassificationAnnotation,
             ObjectAnnotation,
             VideoMaskAnnotation,
-            AudioClassificationAnnotation,
+            TemporalClassificationText,
+            TemporalClassificationQuestion,
             ScalarMetric,
             ConfusionMatrixMetric,
             RelationshipAnnotation,
@@ -82,7 +86,8 @@ def frame_annotations(
         Union[
             VideoObjectAnnotation,
             VideoClassificationAnnotation,
-            AudioClassificationAnnotation,
+            TemporalClassificationText,
+            TemporalClassificationQuestion,
         ],
     ]:
         """Get temporal annotations organized by frame
@@ -92,7 +97,11 @@ def frame_annotations(
 
         Example:
             >>> label.frame_annotations()
-            {2500: [VideoClassificationAnnotation(...), AudioClassificationAnnotation(...)]}
+            {2500: [VideoClassificationAnnotation(...), TemporalClassificationText(...)]}
+
+        Note:
+            For TemporalClassificationText/Question, returns dictionary mapping to start of first frame range.
+            These annotations may have multiple discontinuous frame ranges.
         """
         frame_dict = defaultdict(list)
         for annotation in self.annotations:
@@ -101,8 +110,13 @@ def frame_annotations(
                 (VideoObjectAnnotation, VideoClassificationAnnotation),
             ):
                 frame_dict[annotation.frame].append(annotation)
-            elif isinstance(annotation, AudioClassificationAnnotation):
-                frame_dict[annotation.start_frame].append(annotation)
+            elif isinstance(annotation, (TemporalClassificationText, TemporalClassificationQuestion)):
+                # For temporal annotations with multiple values/answers, use first frame
+                if isinstance(annotation, TemporalClassificationText) and annotation.value:
+                    frame_dict[annotation.value[0][0]].append(annotation)  # value[0][0] is start_frame
+                elif isinstance(annotation, TemporalClassificationQuestion) and annotation.value:
+                    if annotation.value[0].frames:
+                        frame_dict[annotation.value[0].frames[0][0]].append(annotation)  # frames[0][0] is start_frame
         return dict(frame_dict)
 
     def add_url_to_masks(self, signer) -> "Label":
 
@@ -0,0 +1,194 @@
+"""
+Temporal classification annotations for audio, video, and other time-based media.
+
+These classes provide a unified, recursive structure for temporal annotations with
+frame-level precision. All temporal classifications support nested hierarchies.
+"""
+
+from typing import List, Optional, Tuple, Union
+from pydantic import Field
+
+from labelbox.data.annotation_types.annotation import ClassificationAnnotation
+from labelbox.data.annotation_types.classification.classification import (
+    ClassificationAnswer,
+    FrameLocation,
+)
+
+
+class TemporalClassificationAnswer(ClassificationAnswer):
+    """
+    Temporal answer for Radio/Checklist questions with frame ranges.
+
+    Represents a single answer option that can exist at multiple discontinuous
+    time ranges and contain nested classifications.
+
+    Args:
+        name (str): Name of the answer option
+        frames (List[Tuple[int, int]]): List of (start_frame, end_frame) ranges in milliseconds
+        classifications (Optional[List[Union[TemporalClassificationText, TemporalClassificationQuestion]]]):
+            Nested classifications within this answer
+        feature_schema_id (Optional[str]): Feature schema identifier
+        extra (dict): Additional metadata
+
+    Example:
+        >>> # Radio answer with nested classifications
+        >>> answer = TemporalClassificationAnswer(
+        >>>     name="user",
+        >>>     frames=[(200, 1600)],
+        >>>     classifications=[
+        >>>         TemporalClassificationQuestion(
+        >>>             name="tone",
+        >>>             answers=[
+        >>>                 TemporalClassificationAnswer(
+        >>>                     name="professional",
+        >>>                     frames=[(1000, 1600)]
+        >>>                 )
+        >>>             ]
+        >>>         )
+        >>>     ]
+        >>> )
+    """
+
+    frames: List[Tuple[int, int]] = Field(
+        default_factory=list,
+        description="List of (start_frame, end_frame) tuples in milliseconds",
+    )
+    classifications: Optional[
+        List[Union["TemporalClassificationText", "TemporalClassificationQuestion"]]
+    ] = None
+
+
+class TemporalClassificationText(ClassificationAnnotation):
+    """
+    Temporal text classification with multiple text values at different frame ranges.
+
+    Allows multiple text annotations at different time segments, each with precise
+    frame ranges. Supports recursive nesting of text and question classifications.
+
+    Args:
+        name (str): Name of the text classification
+        values (List[Tuple[int, int, str]]): List of (start_frame, end_frame, text_value) tuples
+        classifications (Optional[List[Union[TemporalClassificationText, TemporalClassificationQuestion]]]):
+            Nested classifications
+        feature_schema_id (Optional[str]): Feature schema identifier
+        extra (dict): Additional metadata
+
+    Example:
+        >>> # Simple text with multiple temporal values
+        >>> transcription = TemporalClassificationText(
+        >>>     name="transcription",
+        >>>     values=[
+        >>>         (1600, 2000, "Hello, how can I help you?"),
+        >>>         (2500, 3000, "Thank you for calling!"),
+        >>>     ]
+        >>> )
+        >>>
+        >>> # Text with nested classifications
+        >>> transcription_with_notes = TemporalClassificationText(
+        >>>     name="transcription",
+        >>>     values=[
+        >>>         (1600, 2000, "Hello, how can I help you?"),
+        >>>     ],
+        >>>     classifications=[
+        >>>         TemporalClassificationText(
+        >>>             name="speaker_notes",
+        >>>             values=[
+        >>>                 (1600, 2000, "Polite greeting"),
+        >>>             ]
+        >>>         )
+        >>>     ]
+        >>> )
+    """
+
+    # Override parent's value field
+    value: List[Tuple[int, int, str]] = Field(
+        default_factory=list,
+        description="List of (start_frame, end_frame, text_value) tuples",
+    )
+    classifications: Optional[
+        List[Union["TemporalClassificationText", "TemporalClassificationQuestion"]]
+    ] = None
+
+
+class TemporalClassificationQuestion(ClassificationAnnotation):
+    """
+    Temporal Radio/Checklist question with multiple answer options.
+
+    Represents a question with one or more answer options, each having their own
+    frame ranges. Radio questions have a single answer, Checklist can have multiple.
+
+    Args:
+        name (str): Name of the question/classification
+        answers (List[TemporalClassificationAnswer]): List of answer options with frame ranges
+        feature_schema_id (Optional[str]): Feature schema identifier
+        extra (dict): Additional metadata
+
+    Note:
+        - Radio: Single answer in the answers list
+        - Checklist: Multiple answers in the answers list
+        The serializer automatically handles the distinction based on the number of answers.
+
+    Example:
+        >>> # Radio question (single answer)
+        >>> speaker = TemporalClassificationQuestion(
+        >>>     name="speaker",
+        >>>     answers=[
+        >>>         TemporalClassificationAnswer(
+        >>>             name="user",
+        >>>             frames=[(200, 1600)]
+        >>>         )
+        >>>     ]
+        >>> )
+        >>>
+        >>> # Checklist question (multiple answers)
+        >>> audio_quality = TemporalClassificationQuestion(
+        >>>     name="audio_quality",
+        >>>     answers=[
+        >>>         TemporalClassificationAnswer(
+        >>>             name="background_noise",
+        >>>             frames=[(0, 1500), (2000, 3000)]
+        >>>         ),
+        >>>         TemporalClassificationAnswer(
+        >>>             name="echo",
+        >>>             frames=[(2200, 2900)]
+        >>>         )
+        >>>     ]
+        >>> )
+        >>>
+        >>> # Nested structure: Radio > Radio > Radio
+        >>> speaker_with_tone = TemporalClassificationQuestion(
+        >>>     name="speaker",
+        >>>     answers=[
+        >>>         TemporalClassificationAnswer(
+        >>>             name="user",
+        >>>             frames=[(200, 1600)],
+        >>>             classifications=[
+        >>>                 TemporalClassificationQuestion(
+        >>>                     name="tone",
+        >>>                     answers=[
+        >>>                         TemporalClassificationAnswer(
+        >>>                             name="professional",
+        >>>                             frames=[(1000, 1600)]
+        >>>                         )
+        >>>                     ]
+        >>>                 )
+        >>>             ]
+        >>>         )
+        >>>     ]
+        >>> )
+    """
+
+    # Override parent's value field
+    value: List[TemporalClassificationAnswer] = Field(
+        default_factory=list,
+        description="List of temporal answer options",
+    )
+    classifications: Optional[
+        List[Union["TemporalClassificationText", "TemporalClassificationQuestion"]]
+    ] = None
+
+
+# Update forward references for recursive types
+TemporalClassificationAnswer.model_rebuild()
+TemporalClassificationText.model_rebuild()
+TemporalClassificationQuestion.model_rebuild()
@@ -25,10 +25,12 @@
     VideoObjectAnnotation,
 )
 from typing import List
-from ...annotation_types.audio import (
-    AudioClassificationAnnotation,
+from ...annotation_types.temporal import (
+    TemporalClassificationText,
+    TemporalClassificationQuestion,
+    TemporalClassificationAnswer,
 )
-from .temporal import create_audio_ndjson_annotations
+from .temporal import create_temporal_ndjson_annotations
 from labelbox.types import DocumentRectangle, DocumentEntity
 from .classification import (
     NDChecklistSubclass,
@@ -169,20 +171,20 @@ def _create_video_annotations(
     def _create_audio_annotations(
         cls, label: Label
     ) -> Generator[BaseModel, None, None]:
-        """Create audio annotations with nested classifications using modular hierarchy builder."""
-        # Extract audio annotations from the label
-        audio_annotations = [
+        """Create temporal annotations with nested classifications using new temporal classes."""
+        # Extract temporal annotations from the label
+        temporal_annotations = [
             annot
             for annot in label.annotations
-            if isinstance(annot, AudioClassificationAnnotation)
+            if isinstance(annot, (TemporalClassificationText, TemporalClassificationQuestion))
         ]
 
-        if not audio_annotations:
+        if not temporal_annotations:
             return
 
-        # Use the modular hierarchy builder to create NDJSON annotations
-        ndjson_annotations = create_audio_ndjson_annotations(
-            audio_annotations, label.data.global_key
+        # Use the new temporal serializer to create NDJSON annotations
+        ndjson_annotations = create_temporal_ndjson_annotations(
+            temporal_annotations, label.data.global_key
         )
 
         # Yield each NDJSON annotation
@@ -200,7 +202,8 @@ def _create_non_video_annotations(cls, label: Label):
                     VideoClassificationAnnotation,
                     VideoObjectAnnotation,
                     VideoMaskAnnotation,
-                    AudioClassificationAnnotation,
+                    TemporalClassificationText,
+                    TemporalClassificationQuestion,
                     RelationshipAnnotation,
                 ),
             )