使用Hitomi-Downloader 手动采集E站每天更新的画廊
黑白同人志3万3千多页 其余全部是画师CG全彩图片 我主要看全彩CG着重训练的也是全彩CG图
以及少量 survivemore生存社PPT视频 文字区域切片 为了可以兼容硬字幕提取
少量动漫双语字幕图片文字区域切片 为了硬字幕提取 横向文字图片数据
少量dlsite 上的 ASMR音声商品宣传介绍图图片 为了数据的多样性
排除各种现有OCR技术无法识别的拟声词 (我都看机翻了我还在乎你拟声词吗?)
一个人没日没夜精确标注9个月
5个标签 balloon qipao fangkuai changfangtiao kuangwai
总计22万2千3百80张图片 97.3G数据集 有零有整的 标吐了 实在是不想再标了
在A100 64G显卡上进行训练
专门为 ImageTrans 训练的 图片文字检测模型
另外 本模型也已实装在
另外2款开源漫画软件上
https://github.com/dmMaze/BallonsTranslator
https://github.com/ogkalu2/comic-translate
感谢大佬支持并实装
图片翻译器 https://github.com/xulihang/ImageTrans-docs
数据标注工具 https://github.com/CVHub520/X-AnyLabeling
本子下载器 https://github.com/KurtBestor/Hitomi-Downloader
低画质图片数据来源 https://hitomi.la/
ultralytics (YOLOV11) https://github.com/ultralytics/ultralytics
淫叔馆TG频道 https://t.me/yinshuguan
Quick input 使得鼠标可以像素级精确移动 https://github.com/ChiyukiGana/Quickinput
obs-studio https://github.com/obsproject/obs-studio
X-AnyLabeling不能显示当前页面标签数量
用OBS采集显示器实现一个伪标签数量显示功能
好能直观的知道当前页面上有多少个标签
LiveSplit 一个游戏速通计时器 用于记录每一本标注的时间和每天花费在标注上的总时间 https://livesplit.org