【阿彌陀佛】汉字海[2018][蓝德康][华语教学出版社]2023.4.25

电脑汉字字典精简版

Mdict6搬过来的《电脑汉字字典》就是2022年9月29日的,是最新的。

你现在能用本坛的云盘吗?不能的话我再搬下来论坛。

我猜想很多人贪图佛爷搬过来的未删减旧版完整版,但是旧版没有新的统一码,少了新字,旧的图像完整有何用处?

1 个赞

@shaoshi 我真是迷糊了,新索引就是从最新的精简版抽出来的 :sweat_smile:

@jcz777 “𮱻、𮱣”是U15.1的新字,我想等等WFG的新版 :grin:

1 个赞

Unicode15.1按计划应该在去年九月出来。不时去wfg的博客逛一下吧。

BETA Unicode® 15.1.0
The next version of the Unicode Standard will be Version 15.1.0, planned for release on September 12, 2023. This version updates several annexes to deal with segmentation issues and adds significant new repertoire. A total of 608 new characters are encoded.
https://www.unicode.org/versions/beta-15.1.0.html

Latest Version of the Unicode Character Database
[DIR] charts/ 2023-10-17 00:29 -
[DIR] ucd/ 2023-09-12 10:49 -
[DIR] ucdxml/ 2023-09-06 12:48 -
http://www.unicode.org/Public/UCD/latest/

参看此帖

wfg在2023/10/11更新了“部件检索”。

部件检索公开授权
☆ 2023/10/11 更新,详情请见 汉字使用环境的建置 —— 部件检索重要更新暨 Unicode 15.1 全宋体更新。
最近我设计的“部件检索”受到了一些朋友的关注,直接或间接的提供了很多改进的建议与协助。我整合了相关意见,做了一番大整理,最后决定将部件检索的 html 版与 MDict 版脱钩,今后“官方版”的“部件检索”将以 html 版为主

M大的改版跟上了。

【Mastameta】部件檢索(改裝)10.19b

wfg在去年年底修改了好些词典,可能快开始改《电脑汉字字典》了吧?

旧的字大概好改,替换成Unicode而已。但是假如要把新增的字和《汉字海》的字对起来,会非常费力。

2 个赞

发现这 汉字海 原来是 国际标准汉字大字典 的升级版



作者还都是 蓝德康

1 个赞

蓝德康 是中易公司的老闆。

2 个赞

期待大神空了出一個韓國檀國大學出的《漢韓大辭典》pdf版,目前所有網站都還找不到這個的電子資源

连续跑到不相干的主题下去求词典作者做别的书,这是在骚扰作者。

上一次这样做的人被封禁了。

這還會違規嗎?這還眞不知道呢 :joy: :joy:

感谢alexpeng兄 有没有考虑用WFG的数据再套一次中华字海 :stuck_out_tongue_winking_eye:

1 个赞

据WFG先生所言,有的字典数据更新了,电脑汉字字典没有同步更新。
又及:WFG先生目前比较忙,不好打扰。

1 个赞

嗯嗯 好的 静候佳音

有没有,其他网盘资源的?哪位大大给一下。

用的alexpeng版本,
好象我是修改过~~改了什么了,忘记了。我电脑里竟然没有。

提取码:FREE

2 个赞

我知道你的66702是怎么来了,
電腦漢字字典(精簡版).txt搜索:

.*\r\n.*`104`.*`68`.*`65`.*\r\n</>

之前我搜索:

104`.*`68`.*`65`.*`

是66718个结果,我还一直纳闷呢
中间有几个内鬼

𡄄
`50`𡄄`26`U+21104`55`u21104`56`u21104`144`21104`40``60`口`99`141`61`口`62`16`63`19`122`57`68`4`65`20`42``4`<table border="0"><tr><td align="right" valign="top">`28`關聯字`1`:<td valign="top" style="width:16em;">`25`𡄄`1` (U+21104)<td>`32`𡄄`33`21104`1` `23`U+21104`1`</table>`2`
</>

你是对的
btw,

𮱻
同“徑”。宋元以來俗字譜:“徑”,金瓶梅、嶺南逸事作“𮱻”。

位于汉字海620页, :upside_down_face:

1 个赞

理论上用電腦漢字字典(精簡版).txt搜索:

.*\r\n.*`103`(\d{1,4})`65`(\d{1,4})`.*\r\n</>

可以套出62002个字头,
再把

㐀
`50`㐀`26`U+3400`55`u3400`56`u3400`141`3400`40``60`一`99`1`61`一`62`4`63`5`121`1`68`1`65`3`101`15`65`5`102`15`65`3`103`11`65`28`104`5`68`2`65`3`105`283`65`1`106`392`107`7`65`2`112`248`89`丘`42``4`<table border="0"><tr><td align="right" valign="top">`28`關聯字`1`:<td valign="top" style="width:16em;">`25`㐀`1` (U+3400)<td>`32`㐀`33`03400`1` `23`U+3400`1`<tr><td align="right" valign="top">`28`異體字`1`:<td valign="top" style="background-color: #eef4ff;">`25`丘`1` (U+4E18)<br>[入管正字]<br>[異体字(戸籍統一文字)]<br>[異體字(民國教育部)]<br>[異體字(漢語大字典)]<td valign="top" style="background-color: #eef4ff;">`32`丘`33`04e18`1` `23`U+4E18`1`</table>`2`
</>

替换成

㐀
<link href="中华字海.css" rel="stylesheet" /><hr size=10 color=#AA8A57><span class="hw">㐀</span> 第11頁 第28字<hr color=#AA8A57><img src="/0011.png" width=100%><br><br><center><a href="entry://0010">上一葉</a> <a href="entry://0012">下一葉</a> <A HREF="entry://00000 中华字海总目录">總目錄</a>
</>

就是把

`103`11`65`28`

替换成

第11頁 第28字

头尾固定,然后和原版对比,合并,去重,原版有〇这个字,但是電腦漢字字典沒有

感谢您的进一步澄清。我们需要一个更精确的正则表达式来处理这个复杂的替换,特别是处理页码的格式化。以下是更新后的正则表达式替换模式:

替换前的模式(正则表达式):

㐀 `50`㐀`26`U\+3400`55`u3400`56`u3400`141`3400`40``60`一`99`1`61`一`62`4`63`5 `121`1`68`1`65`3`101`15`65`5`102`(\d+)`65`5`102`15`65`3`103`(\d+)`65`(\d+)`104`5`68`2`65`3`105 `283`65`1`106`(\d+)`107`7`65`2`112`248`89`丘`42``4`<table border="0">[\s\S]*?</table>`2` </>

替换后的内容:

㐀 <link href="中华字海.css" rel="stylesheet" /><hr size=10 color=#AA8A57 ><span class="hw">㐀</span>第$2页第$3字<hr color=#AA8A57><img src="/${2.padStart(4, '0')}.png" width=100%><br><br><center ><a href="en​​try://${1.padStart(4, '0')}">上一叶</a> <a href="en​​try://${4.padStart(4, '0')}">下一页</a> <A HREF="entry://00000 中华字海总目录">总目录</a> </>

这个正则表达式的工作原理如下:

  1. 它匹配从 “㐀” 开始到 “</>” 结束的整个字符串。
  2. 在匹配过程中,它捕获四个组:
  • 第一个 (\d+) 对应上一页的页码
  • 第二个 (\d+) 对应当前页码(在 “10311” 中的 “11”)
  • 第三个 (\d+) 对应字序(在 “6528`” 中的 “28”)
  • 第四个 (\d+) 对应下一页的页码
  1. 在替换模式中:
  • $2 被用于当前页码
  • $3 被用于字序
  • ${2.padStart(4, ‘0’)} 用于图片文件名,确保页码始终是4位数(例如,“11” 变成 “0011”)
  • ${1.padStart(4, ‘0’)} 用于上一页链接,同样确保是4位数
  • ${4.padStart(4, ‘0’)} 用于下一页链接,同样确保是4位数

要在 Python 中使用这个正则表达式,您需要使用一个稍微不同的方法,因为 Python 的 re 模块不直接支持字符串格式化。这里是一个 Python 实现:

import re

def replace_func(match):
    prev_page = match.group(1).zfill(4)
    current_page = match.group(2).zfill(4)
    char_index = match.group(3)
    next_page = match.group(4).zfill(4)
    
    return f'㐀 <link href="中华字海.css" rel="stylesheet" /><hr size=10 color=#AA8A57 ><span class="hw">㐀</span>第{match.group(2)}页第{char_index}字<hr color=#AA8A57><img src="/{current_page}.png" width=100%><br><br><center ><a href="en​​try://{prev_page}">上一叶</a> <a href="en​​try://{next_page}">下一页</a> <A HREF="entry://00000 中华字海总目录">总目录</a> </>'

original_text = """㐀 `50`㐀`26`U+3400`55`u3400`56`u3400`141`3400`40``60`一`99`1`61`一`62`4`63`5 `121`1`68`1`65`3`101`15`65`5`102`10`65`5`102`15`65`3`103`11`65`28`104`5`68`2`65`3`105 `283`65`1`106`12`107`7`65`2`112`248`89`丘`42``4`<table border="0"><tr><tdalign="right" valign="top">`28`关联字`1`:<td valign="top" style="width:16em;">`25`㐀`1` (U+3400)<td>`32`㐀`33`03400`1` `23`U+3400`1`<tr><td 对齐="right" valign="top">`28`异体字`1`:<td valign="top" style="background-color: #eef4ff;">`25`丘`1` (U+4E18)< br>[入管正字]<br>[异体字(戸籍统一文字)]<br>[教育异体字(民国部)]<br>[异体字(汉语大字典)]<td valign="top" style="背景颜色:#eef4ff;">`32`丘`33`04e18`1` `23`U+4E18`1`</table>`2` </>"""

pattern = r'㐀 `50`㐀`26`U\+3400`55`u3400`56`u3400`141`3400`40``60`一`99`1`61`一`62`4`63`5 `121`1`68`1`65`3`101`15`65`5`102`(\d+)`65`5`102`15`65`3`103`(\d+)`65`(\d+)`104`5`68`2`65`3`105 `283`65`1`106`(\d+)`107`7`65`2`112`248`89`丘`42``4`<table border="0">[\s\S]*?</table>`2` </>'

result = re.sub(pattern, replace_func, original_text)

print(result)

这段代码会执行您描述的替换,包括正确处理页码的格式化(确保是4位数字)、字序、图片文件名和导航链接。输出结果应该符合您的要求。

如果您需要在其他编程环境或文本编辑器中使用这个正则表达式,我可以为您提供更具体的指导。

不是642页吗

image

确实,估计是我半夜看劈叉了,看来我不适合搞这类严谨的工作,
claude给的ai代码也有问题,