分享《日汉双解学习词典（第二版）》 pdf及ocr结果

wynick27 · 2025 年9 月 28 日 02:55

网上的资源我看都是修订版的，没有第二版，分享一下。

介绍：
《外研社日汉双解学习词典（第二版）》是以《旺文社標準国語辞典》（第七版）为蓝本，插入中文对译编译而成的日汉双解中型工具书。全书共收录4.7万余条词语，大小适中，可供不同层次的日语学习者使用，能够满足日语学习者多方面的需求。

《旺文社標準国語辞典》由日本旺文社于1965年出版发行，深受广大读者的喜爱。1997年，我社以双解版本的形式在中国大陆出版发行《外研社日汉双解学习词典》。2022年，在《旺文社標準国語辞典（第七版）》的基础上，我社对词典进行了修订，推出《外研社日汉双解学习词典（第二版）》。

本词典具有以下几大特点：
① 选词精准，收录广泛。以现代日语为主，收录了大量的新词与外来语，兼顾了各学科的核心词汇以及重要的人名、地名、作品名等专有名词。

② 注有声调符号，便于读者掌握日语的正确声调。
③ 日文释义通俗易懂，解析精准，例句精当且实用性强。
④ 中文对译力求规范、准确、地道。
⑤ 所设表格栏目别具一格，内容丰富。其中，“学習”栏目168个，“慣用表現” 栏目83个，“表現”栏目30个，“冒頭文”栏目25个，“ことばの要点”项目15个，均能帮助读者加深对词条的理解并有效地掌握其使用方法。
⑥ 插图达275幅，图文并茂，有助于读者理解词义，进行形象记忆。
⑦ 附录丰富多彩，实用性强。其中，古语、和歌、徘句等便览为读者提供了了解日本古典语法和古典文学的可能。

下载：

日汉双解学习词典（第二版）.pdf
链接: 百度网盘请输入提取码提取码: 1234

OCR结果：
日汉双解学习词典（第二版）_全能王.txt (10.6 MB)

日汉双解学习词典（第二版）_quark.docx (8.9 MB)

补充一个chrome生成的双层pdf：

日汉双解学习词典第二版 OCR.pdf
链接: 百度网盘请输入提取码提取码: 1234

mixivivo · 2025 年9 月 28 日 04:36

谢谢。

比较了一下OCR结果的第一页（左全能王，右quark），就中日文文字本身识别都是过关的，但词典用特别标记符号辨认二者都不行，全能王更拉胯。

wynick27 · 2025 年9 月 28 日 05:35

确实，真要用的话要做不少预处理，我准备再试试gemini。

这次试了下不用网页版，自动调api，处理了前10页，2.5pro不知道怎么回事，一会超时，一会503错误，改用flash了。

日汉双解学习词典 1-10.txt (43.8 KB)

贴一下我的代码：

class PDFChat:
    def __init__(self, pdf_path, client=None,file_id=None, model="gemini-2.5-flash"):
        self.pdf_path = pdf_path
        self.model = model
        self.client = client or genai.Client()
        self.file_id = file_id
        self.file = None
        self._ensure_uploaded()

    def _ensure_uploaded(self):
        """如果文件已经上传过，就跳过；否则上传"""
        filename = os.path.basename(self.pdf_path)

        # 遍历已上传文件，看看是否存在
        files = self.client.files.list()
        for f in files:
            if f.display_name == filename and f.state == "ACTIVE" or f.name == self.file_id:
                self.file_id = f.name
                self.file = self.client.files.get(name=self.file_id)
                print(f"找到已上传文件: {filename}, file_id={self.file_id}")
                return

        # 没找到 → 上传
        with open(self.pdf_path, "rb") as f:
            uploaded = self.client.files.upload(
                file=f,
                config={"mime_type": "application/pdf"}
            )
        self.file_id = uploaded.name
        self.file = uploaded
        print(f"已上传新文件: {filename}, file_id={self.file_id}")

    def ask(self, question):
        """对 PDF 提问"""
        response = self.client.models.generate_content(
            model=self.model,
            contents=[
                self.file,
                question
            ]
        )
        return response.text


client = genai.Client(api_key=API_KEY)

def write_ocr_text(file_path, output_path):
    chat = PDFChat(file_path,client=client)

    text = chat.ask("这是一本日语词典，希望识别全部文本。注意以下几点：每一页有页眉，表示起止单词，中间是表示页码的阿拉伯数字，作为分页符放入尖括号中。词典分为两栏，识别阅读顺序为先左栏再右栏，词条左栏没有结束的情况下和右栏合并输出。如果有表格需要用markdown表示法输出表格。注意特殊符号标注，比如黑色圆圈符号，三角符号△▷，菱形符号◇⬘⬙，还有词典使用的括号【】〔〕〘〙要注意配对。要尽可能多输出内容，需要识别pdf全部内容，不可在中途停止。")

    with open(output_path,'w',encoding='utf8') as f:
        f.write(text)

    return text

write_ocr_text('./pdf/日汉双解学习词典 1-10.pdf','./data/日汉双解学习词典 1-10.txt')

mixivivo · 2025 年9 月 28 日 05:44

Gemini 2.5 flash不好用，ocr准确度不谈了，服从指令特别没谱，随心所欲，导致后期编辑难度比较大。

不过这两天Gemini更新了2.5 flash和2.5 flash lite，我测试用flash做翻译很不错，译文流畅，速度飞快，价格也便宜。

将作大匠 · 2025 年9 月 28 日 06:07

用豆包1.5-vision-thinking吧，当然你得舍得花钱就是了

wynick27 · 2025 年9 月 28 日 06:28

换pro效果好不少，之前的错误改用流式输出解决了
识别了前25页，序号还是有问题

日汉双解学习词典 1-25.txt (116.8 KB)

last_idol · 2025 年9 月 28 日 06:30

为什么不能按行识别这样不是方便多来源对比？整段对比会更困难，需要校对的地方更多，也不好对齐。

wynick27 · 2025 年9 月 28 日 06:33

现在是一个词识别为一行，比较方便处理。

mixivivo · 2025 年9 月 28 日 06:35

这可能是因为prompt写得不够清晰准确，我用2.5 pro测试了前10页，黑圈序号是可以正确识别的。我的经验是识别这种复杂文本需要反复测试研究prompt，直到输出结果自己基本满意为止。

10.txt (47.2 KB)

last_idol · 2025 年9 月 28 日 06:40

你这个是还是多行整成一行了，按行校对可以直接跳过没错的文本行，三个不同来源的文本行，也可以跳过更多文本行，按词条多行整成一行，每行都有错效率就很低了。

mixivivo · 2025 年9 月 28 日 06:47

按行识别的问题是要看其他来源的文本采用什么格式，除非你调用专门的OCR api，一般像全能王、quark、百度高精度这些现在给出的都是分段文本，而不是分行文本，那在比较的时候就需要保持一致统一格式。

分行文本的另一个毛病是后期合并段落也是一大挑战，几万字之类好说，几百万可就麻烦了。

wynick27 · 2025 年9 月 28 日 08:55

我之前写的校对工具就是按整段对比设计的，合并起来更容易进行语法检查，对比图像等操作。

amob · 2025 年9 月 29 日 06:05

有第八版的文本，比较下和第七版的区别，插入中文更合适吧。（好像挺难挺麻烦的）符号和日文能保证是正确的。校对量也降低很多。

明鏡的双解版mdx也是这么做的。以及朗文英语写作活用词典和韦氏高阶词典。

wynick27 · 2025 年9 月 29 日 07:11

第八版文本哪里有啊，其实这个方法如果两个版本差别不大的话可以试试，起码可以作为一个校对来源。之前我改进拉鲁斯校对工具的时候已经实现了忽略特定字符比较和插入文本。

mixivivo · 2025 年9 月 29 日 07:34

日语高质量的词典已经很多了，即使纯日文版，中国人瞎蒙猜词义也八九不离十。那么花大功夫从头到尾再OCR、校对一本日语词典就要掂量一下是否合算，尽管随着工具的进步现在容易了不少，但我的经验是搞这种大部头意外、困难要比想象得多。

mixivivo · 2025 年9 月 29 日 08:13

比较重要的经典之作，地位独特，不可替代，像牛津高阶4，是值得花大代价把它搞完整准确的。其他次要的，有替代品，作为外围的参考，用高质量的OCR引擎自动识别一下，方便搜索，复制引用，省力气之外，经常也是满足需要的。不着急，也可以等待技术进步，说不定两三年之后可以一键搞定高准确度文本化，那就没必要现在投入很多精力和时间去做很仔细的人工校对。

wynick27 · 2025 年9 月 29 日 16:46

这本是不错的双解的学习型词典，有注音和各种用法辨析，感觉还是值得做一下的。

mixivivo · 2025 年9 月 29 日 17:15

这是一本优秀词典，旧版本的pdf我已经收藏过，主要问题是我个人觉得校对修正它的难度会比较高，用了各种花样百出的特殊符号，有图表、插图，底本品质不佳，还有特别小的注音，比拉鲁斯法汉词典的挑战又上了一个层次。

mixivivo · 2025 年9 月 29 日 17:36

如果第八版和第七版差异不大，提取双解第七版的中文翻译插入第八版文本，倒是一个取巧的办法，但缺乏结构的文本如何准确找到位置插入，也是一个挑战性的任务了，或者可以试试ai处理怎么样。

wynick27 · 2025 年9 月 29 日 19:14

我这次准备实验一下优先语法分析看看能不能快速查出问题