Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

pdf解析能力有点差,希望借鉴各种Computer-aided translation (CAT)工具,类似trados,可以完美翻译pdf文件 #681

Open
oushiei120 opened this issue Feb 24, 2025 · 7 comments
Labels
enhancement New feature or request Normal priority

Comments

@oushiei120
Copy link

在什么场景下,需要你请求的功能?

各种cat工具在pdf解析方面已经有很成熟的技术,但是我在使用本包时发现pdf翻译时文字堆叠特别严重,希望这一信息能对团队有所价值,可以使用各种cat工具转换下试试

解决方案

No response

其他内容

No response

@oushiei120 oushiei120 added the enhancement New feature or request label Feb 24, 2025
@awwaawwa
Copy link
Collaborator

给几个具体的cat工具链接?

@awwaawwa
Copy link
Collaborator

补充一点名词解释给其他开发者= =

Computer-aided translation (CAT)
计算机辅助翻译

Trados应该是闭源商业项目,,我们还是更想参考一些开源的工具,这样可以直接阅读源码,了解其实现细节。

您是否能提供一些Trados的开源替代品?

@awwaawwa awwaawwa changed the title pdf解析能力有点差,希望借鉴各种cat工具,类似trados,可以完美翻译pdf文件 pdf解析能力有点差,希望借鉴各种Computer-aided translation (CAT)工具,类似trados,可以完美翻译pdf文件 Feb 24, 2025
@oushiei120
Copy link
Author

我们做笔译经常用的是 trados、 还有云译客,不过都是闭源的
此链接下的云译客亦是闭源https://transpace.iol8.com/home。

@awwaawwa
Copy link
Collaborator

感谢您提供的信息!

@oushiei120
Copy link
Author

另外,现在正如上所述,许多笔译翻译项目都要用cat工具,但这些工具大多闭源、老旧,但是cat工具也有其一些优点,术语统一、翻译记忆库,可以保持pdf样式的优点。PDFMathTranslate翻译的产物面向的是简单阅读那么可以不必参考,但是如果能多迈前一步,能加入cat工具的各种功能(用户可以自主编辑翻译文本的错误),那么将会从“简单阅读”到“出版物级阅读”升级。

不过似乎样式错乱导致的原因似乎是pdf的文本层与 PDFMathTranslate识别的文本层不统一有关。
但是不知道现在中文ocr是如何的,是否可以精准为pdf的文本画框?(不太懂如何描述),如果在翻译这些文本层前,用户有机会查看 PDFMathTranslate识别的文本层是否是正常的,那就避免了许多token浪费。

@awwaawwa
Copy link
Collaborator

对于“用户可以自主编辑翻译文本的错误”,我称之为用户介入翻译流程。当前阶段不太适合引入此功能,不过等本工具完善后会尝试引入相关功能,允许用户介入翻译过程。

我们确实想做到出版物级的翻译,这是一个长期目标。不过由于PDF翻译本身特殊性,初期我们想先优化排版引擎的效果。因为PDF翻译中,排版也是需要我们自行实现的。对于段落文本的翻译质量,我们暂时还是依赖于大模型等翻译引擎去做。后面再慢慢引入类似CAT的功能来优化。

@oushiei120
Copy link
Author

期待。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request Normal priority
Projects
None yet
Development

No branches or pull requests

2 participants