广州话俗语词典
广东省出版集团,广东人民出版社
欧阳觉亚,周无忌,饶秉才 编
我没对比本坛和annas-archive的版本,大概是同样的书。
2010版epub
广州话俗语词典epub (annas-archive)
https://annas-archive.org/search?q=广州话俗语词典
另外有一本《广州话词典》:
Chinese [zh], pdf, 151.4MB, compressed.pdf
广州话词典 (第二版,616页)
广东人民出版社, 2, 2020
饶秉才, 欧阳觉亚, 周无忌
这本本坛有mdx。
1.我把epub的后缀改成zio,例如x.epub改为x.zip,用7zip把zip解压。
2.把解压后的OEBPS文件夹中的html都复制到一个新的文件夹,把html的后缀改成txt,然后用老马的textforever把文本都合并成单一的txt文件。
3.本书的词头都是粗体字,像这样:
<span class="kindle-cn-bold">剃头佬走警报,懒刮</span>
这就很容易处理,把这种词头都替换为【词头】,再去掉不要的html符号。
在此分享我处理完的文本:
广州话俗语词典.zip (247.1 KB)
我不需要原书的粤语注音,所以都去掉了。需要注音的自己看原书。
图像字都换成了Unicode汉字,另外加了一些“也作”的索引词头。共2556条。
没有通校全书,也许会有错误。使用时如有疑问,请查对原书。
我的目的是导入Access数据库,所以没做mdx。
做完后想到搜一下pdawiki的存档,发现有人做过2010版文字版和2018版图像版了。2018版图像版看不到了,2010版文字版mdx还在百度盘。
2010版文字版mdx (原帖说明)
https://061061.xyz/44667.html
mdx下载链接: https://pan.baidu.com/s/1hG1yCymOYqFxgxLoSy1inQ
提取码: j5sb
能用百度盘的自己去下载吧。我无法用百度盘,自己整理也学到了一些新东西,没白做。