【Raman】中医大辞典-2nd【20241105】更新【图文综合版】

Raman的数据里有这一条:

</>
Dune
Sandworm

不像是中医词典的数据。词典没有“沙虫”。不知道这个资料是怎么来的?

Sandworm (Dune)
Wikipedia
A sandworm is a fictional extraterrestrial creature that appears in the Dune novels written by Frank Herbert, first introduced in Dune (1965).

核了大熊部落本、dsl本,都没有“sandworm”。本条确定可以删除。

“腰骨伤”一条重复,可以删除一条。

shaoshi先生的考量确实有理。因自身多用电脑查词,萤幕基本够宽,故尚无需要放大图像的问题;唯若用手机、抑或平板,则shaoshi先生所言极其实际。

因有版友提出,故仍制作增加外部css的版本,控制图片最大宽度不超过萤幕边缘,供有需要的朋友参考。

shaoshi先生直接替换图片宽度的方式自是一法,唯调整时需重新编译mdx;增加外部css,则毋须放大图像者留存该css,需要放大者则删除css便可回归原先可随意放大的形式,或许更为方便。

mdx的编译,基本上就是使用正则增加连接外部css(ZYDCD.css):
●搜寻:

</>\r\n[^<]+?\r\n

●取代:

\0<link href="ZYDCD.css" rel="stylesheet" type="text/css">

css其实只有一条内容,就是控制图片最大宽度不超过萤幕边缘:

 img {
 	max-width: 100%
 }


個人所知甚浅,野人献曝,唯盼带动坛友一起编译制作mdx的热情~


相应的mdx、css如下,不妨依各自需求取用,mdd请沿用楼主Raman顶楼处资料即可:
中医大辞典_1.6G_2310_38.6K_TP.mdx (5.6 MB)
ZYDCD.css (26 位元組)

2 个赞

您提供的css文件忘记改名了,应为 ZYDCD.css,而下载下来实为 ZGZJXCD.css。

1 个赞

哈其实有改,不过论坛似乎是有侦测相同档案的功能,因此这三份css(中国针灸学词典、中医大辞典、中医词释)由於内容是一样的,只有名称不同,就被视作是同一份档案。

也感谢SilasYang反馈,若有相同问题的坛友,还请将css改为搭配的相应名称即可:

  1. 中国针灸学词典:ZGZJXCD.css
  2. 中医大辞典:ZYDCD.css
  3. 中医词释:ZYCS.css

原来如此 第一次知道本站有这个机制

1 个赞

感谢楼主。但是文件链接打不开,请您上传到百度云盘可好,感谢!!

您客气啦 :smiling_face_with_three_hearts:

看到了兄台指向的国外知网 自己能力 权限不足 不太会爬其中文字 如果有人能提供其中的文本(txt或mdx皆可) 我可以再做一次第二版的综合版 :innocent:

兄台高论 很有可能如是 :rofl:

哈哈 兄台眼光太毒辣了 这个是我故意留在里面的彩蛋 说是彩蛋不如说是补丁 因为老Mdxer都知道 Mdx Converter会吞第一个词条 你懂的 :yum:

  • 感谢jerry502兄为大家解决3本词典图片版问题
  • 个人喜欢用大屏幕 浏览时没有这个困扰
  • 习惯了这么制作图片版 force of habit :sweat_smile: 让您见笑了
  • 不过还是再次感谢您的出手相助 :+1:
1 个赞

Mdx Converter是哪个软件?不是MdxBuilder吧?我没发现这个情况。假如有吞词条的情况,必须高度关注。可以说明一下吗?

我把你的文字版的图像字补完了,就做一个独立的纯文字版,不准备替代你的图文版。

我想找出第2版增加的是哪些新词条,再挑一些特别有用的增补进第1版的文字版。现在补了三、四条,是偶然发现的。困难在于:没办法知道新增了什么词条,除非彻底做一遍第2版的词头,或者对比两版的目录。

旧本的旧字形得改为新字形。
虚 -->虛
楼主改了字形,但没看到这个错字:“旸”。
表虛六合旸–>表虛六合汤

併病:《中医大辞典》第1版词头为“併病”,我据第2版改为“并病”。“併病”加跳转。

和癤:当作“和{山蒙}”。

昏𩅗:当作“昏霿”。

湿󴔛|U+F451B:可用“湿𤼏”。
胎󴔛(U+F451B)疮:可用“胎𤼏疮”。
血󸮬|U+8840 U+F8BAC:可用“血{月寺}”。

1 个赞
  • shaoshi兄太令我感动了 没想到您对中医也有如此酷爱 能有发心想做第二版的文字版真的是难能可贵 造福终生 在此为兄鼓励您完成此伟业 :heart_on_fire:
  • 关于Mdx Converter-MdxBuilder 谢谢兄台的严肃指出 我刚刚又测试了下 新版的确没有吞第一条目的问题了 老版本却深深为此困恼 以至于很多经典的mdx都会做这个一个画蛇添足的词条进行规避 或者干脆莫名其妙的少一个词头 您就自当个乐儿吧 我再次又泄露年龄了 哈哈哈 :sweat_smile:
  • 兄台能这么细致的去观察词头的问题真的特别佩服 更希望能看到兄台再此基础上更进一步的伟作 就一如兄台所说 一版有着各种各样的问题 所以编者才要出第二版嘛 我是真的没有第二版的文字资源才拿第一版开刀的 让兄台见笑了 算是抛砖引玉吧 至于第一版和第二版词头的区别 我也和兄台的想法一致 除非把第二版和第一版目录拿来比对后才能确定增加(删除)的部分 不然无从下手 :cowboy_hat_face:
  • 至于兄台的以上细节的意见 我都有仔细观察 回复如下: :eye_in_speech_bubble:
  • 表虛六合旸-汤:我的确有发现 但是我故意不更改为后人留下线索的 见下我log截图 我(真)词头用RH表示 至于H为(假)词头(暂且这么称呼)这个位置我都故意没有更改 保留了原mdx的错误 但(真)词头我已经更改 故不影响查询和命中
  • 併病:一经未罢一经又起 併乃并之异体字 兄台加跳转之举 我举双手赞成
  • 和癤-和㠓:虽然原版如此 但参考下条疑冤集之和凝 可知兄台是正确的 这是第一版原文的讹文
  • 昏𩅗-昏霿:又是原版如此 但兄台理校切当 当从
  • 湿󴔛-湿𤼏:原版如此 但当从兄台
  • 胎󴔛-胎𤼏疮:原版如此 但当从兄台
  • 血󸮬-血{月寺}:存疑 我的意见是有私有字当用之 除非又是第一版原文的讹文…

PS.

  • 兄台有啥好的OCR推荐? 如果能有个错误率低的OCR工具 目录校对能事半功倍
  • 是否是我的错觉 晚上和下午咱们网站奇慢 尤其是晚上基本访问不了 不知道是因否是因为咱们服务器在国外 还是因为晚上她太火爆了 :sweat_smile:
1 个赞

我习惯用Finereader。现在还在用第11版。

Finereader 15
我未试过。

同帖中有finereader 16各种破解,我未试过。我对破解版有戒心。最近本坛有人用某种软件的破解版,中了勒索病毒,损失了两个月的资料。

《中医大辞典》第2版目录的图像不够清晰,ocr效果不好,我拿它没辙。

可以参考我以前的这个帖子

重要的事说三遍

原文原典
原文原典
原文原典

49年以前中医医案是中医这个经验学科,唯一真实可信的东西
把医案当做重中之重

先把700本古籍文本好好整理一下

再搞中医原文原典
接下来就是49年以前的中医医案

@Raman
这个《中医大辞典》第2版差点把我难倒了。我绞尽脑汁,想了六、七种方案都碰到障碍,半途而废。
最后把正文ocr的资料导入Access,用第1版的词条来匹配第2版正文的ocr文本,匹配到三万三千条,还有几千条得人工处理。就算不处理,有三万多条能检索到,也不错了。算是大部分能用。
你觉得这个《中医辞海》怎样?有5万多条。安娜馆只有中册。鸠摩可以搜到百度盘链接,不知道是否能用。百度盘我看不到。假如可以把上册和下册弄到本坛或上载到libgen,或者可以ocr了,把3册的词头都设法弄出来?
理论上,我如法炮制,用《中医大辞典》的词头去匹配《中医辞海》的ocr,应该也可以匹配到三万多条?假如能做出一个粗略的版本,可以让其他人接力改善。

谢谢兄台推荐 我回去试试看 :smiling_face_with_three_hearts:

  • 我赛 恭喜兄台终于所有眉目 正所谓有志者事竟成 但有些词条缺失算是些许瑕疵 但有总比没有强 希望后来人能补全完璧 :+1:
  • 多嘴问您一句 中医大辞典第二版的文字您是OCR全书得来 还是从网上爬下来的 我总对文字版有执念 只可惜源头不好找
  • 中医辞海有所风闻 但是没有全本文字版 所以一直没有想法 貌似佛爷的合集中能看到部分 就像您说的可能也不是全本 要做也是残本综合版
  • 最近我在集中火力做一些 图谱 植物的 动物的 本草类的 不过都很大 可能需要些时日 到时候发出来 还请兄台品鉴 :yum:

PS

  • etanalyst兄说的不无道理 但是中医古籍浩如烟海 文字版又多有瑕疵 辛辛苦苦努力去做经典 医案 到头来有文字上的错误诱导不说 还会有可能有版权的问题 这点我的确有计划 但思前想后 可能要往后排排了 对不起etanalyst兄了 :smiling_face_with_tear: @etanalyst
  • 再次感谢shaoshi兄台的推荐 就像您说的 中医这个领域一个人 两个人是不能有所建树的 众人拾柴火焰高 个人材质驽钝 笨鸟一直在飞 速度不快 希望更多人能加入制作mdx的行列中来 一起造福大家 :heart_on_fire:

是用finereader ocr的。因为有错字,所以无法完全匹配。

正文图像清晰度还行,所以有错字或赘文的词头不过几千条。finereader 的辨识度算是不错了。据说网上的ocr辨识度更强,但是用起来麻烦,而且还要收费。

知网是有文字版,但我没有账号,也不会爬。

中医古籍最大的好处就是没有版权纠葛