Raman的数据里有这一条:
</>
Dune
Sandworm
不像是中医词典的数据。词典没有“沙虫”。不知道这个资料是怎么来的?
Sandworm (Dune)
Wikipedia
A sandworm is a fictional extraterrestrial creature that appears in the Dune novels written by Frank Herbert, first introduced in Dune (1965).
A sandworm is a fictional extraterrestrial creature that appears in the Dune novels written by Frank Herbert, first introduced in Dune (1965).
Sandworms are colossal, worm-like creatures that live on the desert planet Arrakis. The sandworms' larvae produce a drug called melange (known colloquially as "the spice"), the most essential and valuable commodity in the universe because it makes safe and accurate interstellar travel possible. Melange deposits are found in the sand seas of Arrakis, where...
核了大熊部落本、dsl本,都没有“sandworm”。本条确定可以删除。
“腰骨伤”一条重复,可以删除一条。
shaoshi:
看来是衡量过利弊的
shaoshi先生的考量确实有理。因自身多用电脑查词,萤幕基本够宽,故尚无需要放大图像的问题;唯若用手机、抑或平板,则shaoshi先生所言极其实际。
weshor:
目前的图片版都超出了屏幕,希望修改一下
因有版友提出,故仍制作增加外部css的版本,控制图片最大宽度不超过萤幕边缘,供有需要的朋友参考。
shaoshi先生直接替换图片宽度的方式自是一法,唯调整时需重新编译mdx;增加外部css,则毋须放大图像者留存该css,需要放大者则删除css便可回归原先可随意放大的形式,或许更为方便。
mdx的编译,基本上就是使用正则增加连接外部css(ZYDCD.css):
●搜寻:
</>\r\n[^<]+?\r\n
●取代:
\0<link href="ZYDCD.css" rel="stylesheet" type="text/css">
css其实只有一条内容,就是控制图片最大宽度不超过萤幕边缘:
img {
max-width: 100%
}
個人所知甚浅,野人献曝,唯盼带动坛友一起编译制作mdx的热情~
相应的mdx、css如下,不妨依各自需求取用,mdd请沿用楼主Raman顶楼处资料即可:
中医大辞典_1.6G_2310_38.6K_TP.mdx (5.6 MB)
ZYDCD.css (26 位元組)
2 个赞
您提供的css文件忘记改名了,应为 ZYDCD.css,而下载下来实为 ZGZJXCD.css。
1 个赞
SilasYang:
css文件忘记改名了
哈其实有改,不过论坛似乎是有侦测相同档案的功能,因此这三份css(中国针灸学词典、中医大辞典、中医词释)由於内容是一样的,只有名称不同,就被视作是同一份档案。
也感谢SilasYang反馈,若有相同问题的坛友,还请将css改为搭配的相应名称即可:
中国针灸学词典:ZGZJXCD.css
中医大辞典:ZYDCD.css
中医词释:ZYCS.css
感谢楼主。但是文件链接打不开,请您上传到百度云盘可好,感谢!!
Raman
2023 年10 月 20 日 00:47
48
看到了兄台指向的国外知网 自己能力 权限不足 不太会爬其中文字 如果有人能提供其中的文本(txt或mdx皆可) 我可以再做一次第二版的综合版
Raman
2023 年10 月 20 日 00:52
50
哈哈 兄台眼光太毒辣了 这个是我故意留在里面的彩蛋 说是彩蛋不如说是补丁 因为老Mdxer都知道 Mdx Converter会吞第一个词条 你懂的
Raman:
Mdx Converter会吞第一个词条
Mdx Converter是哪个软件?不是MdxBuilder吧?我没发现这个情况。假如有吞词条的情况,必须高度关注。可以说明一下吗?
我把你的文字版的图像字补完了,就做一个独立的纯文字版,不准备替代你的图文版。
我想找出第2版增加的是哪些新词条,再挑一些特别有用的增补进第1版的文字版。现在补了三、四条,是偶然发现的。困难在于:没办法知道新增了什么词条,除非彻底做一遍第2版的词头,或者对比两版的目录。
旧本的旧字形得改为新字形。
虚 -->虛
楼主改了字形,但没看到这个错字:“旸”。
表虛六合旸–>表虛六合汤
併病:《中医大辞典》第1版词头为“併病”,我据第2版改为“并病”。“併病”加跳转。
和癤:当作“和{山蒙}”。
昏𩅗:当作“昏霿”。
湿|U+F451B:可用“湿𤼏”。
胎(U+F451B)疮:可用“胎𤼏疮”。
血|U+8840 U+F8BAC:可用“血{月寺}”。
1 个赞
我习惯用Finereader。现在还在用第11版。
Finereader 15
我未试过。
可以考虑用旧一点的版本。
我的哲学是:旧版假如能用,则用旧版。即使能找到新版,无明显改进也不用。
先声明,下列链接我都没试过。百度盘我无法用。
这里有一个版本 。
或者这两个 。
finereader 16破解版能谷歌到,我不敢试,也不敢发链接啊,谁知道有没有病毒?
我在用的是多年前从可靠的地方找到的旧版。
依照我的切身经验,只能说:第10版太容易报错,应该换成第11版,快得多。
同帖中有finereader 16各种破解,我未试过。我对破解版有戒心。最近本坛有人用某种软件的破解版,中了勒索病毒,损失了两个月的资料。
《中医大辞典》第2版目录的图像不够清晰,ocr效果不好,我拿它没辙。
可以参考我以前的这个帖子
重要的事说三遍
原文原典
原文原典
原文原典
49年以前中医医案是中医这个经验学科,唯一真实可信的东西
把医案当做重中之重
先把700本古籍文本好好整理一下
再搞中医原文原典
接下来就是49年以前的中医医案
@Raman
这个《中医大辞典》第2版差点把我难倒了。我绞尽脑汁,想了六、七种方案都碰到障碍,半途而废。
最后把正文ocr的资料导入Access,用第1版的词条来匹配第2版正文的ocr文本,匹配到三万三千条,还有几千条得人工处理。就算不处理,有三万多条能检索到,也不错了。算是大部分能用。
你觉得这个《中医辞海》 怎样?有5万多条。安娜馆只有中册。鸠摩可以搜到百度盘链接,不知道是否能用。百度盘我看不到。假如可以把上册和下册弄到本坛或上载到libgen,或者可以ocr了,把3册的词头都设法弄出来?
理论上,我如法炮制,用《中医大辞典》的词头去匹配《中医辞海》的ocr,应该也可以匹配到三万多条?假如能做出一个粗略的版本,可以让其他人接力改善。
Raman:
中医大辞典第二版的文字您是OCR全书得来
是用finereader ocr的。因为有错字,所以无法完全匹配。
正文图像清晰度还行,所以有错字或赘文的词头不过几千条。finereader 的辨识度算是不错了。据说网上的ocr辨识度更强,但是用起来麻烦,而且还要收费。
知网是有文字版,但我没有账号,也不会爬。