Skip to content

预训练拼接不同文本之间是否加入了分隔符 #108

@fengcai24

Description

@fengcai24

看代码逻辑:首先遍历现有的批处理(self._inputs),计算每个批处理的剩余空间(space),并检查新数据(input_ids.shape[0])是否能够适应该剩余空间。如果能够适应,代码会更新best_fit和best_fit_space变量,以找到剩余空间最小且能容纳新数据的批处理。
问题:比如一个pack里有多个原始数据。那不同的数据有不同的任务,但是都一块被输入到模型中了,拼接不同文本之间是否加入了分隔符?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions