您好! 研究社 日本語口語表現辞典之前APPSTORE入手过,后来得到一本PDF。
这个文件不大,我直接上传看看···【目前还不知道如何上传到云端分享】
此外,同类语的我有一本【 日本語教師必携 日本語類着表現 使い分けい】,这个文件有点儿大,超50mb了。
研究社 日本語口語表現辞典.pdf (11.6 MB)
这两本词典都有日文版了,所以我考虑的是另一个思路,就是词条对齐和把差异作为列表筛选然后选择性应用,以及严格格式和序号检查,很多工作是ai辅助完成的,并不是完全逐条对比看的,我之前做其他词典也是这样的,只关注错字部分,格式最后统一检查处理,在日汉词典上主要ocr出错地方都是假名标注,音调符号之类,单独应用这一部分的差异,因为日文版数据准确,所以可以直接应用不加验证。而需要人工操作的部分主要是前期检查词条对齐问题和后期格式验证失败手动修复。
嗯嗯,这倒也是个法子 ![]()
口语词典这个pdf是初版的。我在做,快了。
偏个题。关于文本化还有一个痛点,以口语词典为例。
里面的词不少都是长句子,或者是几个词组合得到的俚语之类的,还有些带符号。
所以词头不添加优化的话不好查。
现在的数量(暂时)有:12422 = 2997(带html正文) + 9425(补充)
其中2997用的是纯平假名的,剩下的包括:手动从词头中提取出能独立成词的词汇、正文《表記》里提到的词、1135页开始的索引里面有的关联词。
从词典原词头里面找出独立成词的词汇最耗时间。
感谢分享,如果只有50mb的话可以分卷压缩传到论坛,或者用本站云盘也可以传大文件,不过要单独注册。
好的,感谢指导,我试试看看···
anna 上面看到了,日语、日汉都有
关于专类辞书还有一类比较特殊的,就是汇辑日语语词表记形式的工具书。我近几天日本国语研网站排摸了下,发现很多过去遗漏的可利用资源,比如 「中納言」版公開データ 現代日本語書き言葉均衡コーパス(BCCWJ) 这个网页不仅公布有BCCWJ语料库语汇频度表,另外还公布有BCCWJ语料库语汇表记表,有潜在的利用可能。结合unidic-cwj-202512_full内含的词表lex.csv进行考察,还可以收罗到更多同实异形词的表记形式。
另外类语辞典日本国语研编制的分類語彙表(増補改訂版)也不容忽视,我国好几部义类词典如《同义词林》就参考了它的分类体系。印象中似乎还没有相应的mdx电子化成品,而国语研已经释出其多格式的电子文本可供进一步加工利用。尤其是 分類語彙表-増補改訂版データベース 这个网页汇录的BCCWJ-WLSP、UniDic-WLSP语汇素ID编号的对照表可借以将BCCWJ、UniDic、分類語彙表串联起来,考察词种、词频、词形、词类等多种要素信息。
还有国语研 言語データベースとソフトウェア - 言語データベースとソフトウェア 的这个语言资源介绍网站汇总有诸如语料库软件、语料合辑、语汇在线检索网页等信息。既送铲子又送原矿,方便大家进一步采掘。像是前面提到的分類語彙表在这里可以找到再加工的电子文本(不过还算是“原胚”)。此外还有青空文库的语料合辑,粗分为小说和非小说,还贴心地附赠分词数据。如果有有心人大胆发想要建个在线句库甚至词典(词库)-句库统合检索网站,这是一笔难得的现成数据资料。
听不懂。后面是在说BCCWJ公布了语料库统计的使用词汇和词频吧?这是语料库基本功能吧,就能充当工具书吗?你是不是其实想说日外30万語よみ方書き方辞典和日外難読語・固有名大辞典这类词典,这不是单纯收集表记的,也有解释的。只有词头的只能叫词汇表,不是工具书。
日语里有同实异形词这个概念吗?我觉得能有同实异形的,基本单位不是词,而是语。
还有,为什么要收集这些,你是要做形态素分析器或者分词引擎、输入法词库吗?
没听过,用专业术语时能不能给点通俗解释。
大连理工大学引进过一本《国语表记辞典》,中文名是什么我忘了,就是简单汇录不同词汇的表记形式的,而国语研发布的语汇表记表,还结合总词频、各类语料的分布情况以及各种表记形式(实际书写形)的频度来描述一个词语,更有考察价值,可以直观了解到书面行文时各种表记形式的应用倾向性。汉语中有所谓的同实异形,就如倚、椅成一对,席、蓆成一对,字形(词形)不同,但表达的都是同一概念,而日语中如蒟蒻与菎蒻,足慣らし与足馴らし也是此类。
顺带延伸一句,世界图书出版公司也引进过旺文社编的《简明汉字词典》,汇载有五万多汉语词,按音序排布,仅记音记形,附带解释都略过了,充其量也就是便览本的性质,但也不碍于称其为工具书。总归一句,只要可资利用,不论利用价值小大,就算得上工具书。
词种是语料库语言学的概念,大体表示音义形有别的词语个数,不过我这里想表示的是词语是汉语词还是和语词抑或外来语词的意思。
这种叫読み方辞典吧,就是为了查一下假名是什么,知道怎么读。你说很有用吗,其实是给翻纸质书的人能翻薄一点的小册子省事,以及要使用特殊的索引和编排方式。电子化时代,早就没有存在的必要了,手写输入法就解决的事情。
我不知道你从什么书里看来的,闻所未闻,这样就叫同实异名吗?
这一般叫做異字同訓吧。
你想的是倾向于读音,我想的是倾向于写法。很多日语语言科普系列丛书还把文字与表记并列的。同样一个词,子供 子ども コドモ こども 不同表记形式在不同类别语料出现频度也参差不齐,这就具有考察意义
我想表达的是一个更宽泛的概念
同实异形我在古汉语词汇学论著中看过,不自觉借用来了
可能是想说異表記?
类似这个网站提到的?
日本語異表記データベース - The CJK Dictionary Institute, Inc.
说到底,也不是当词典来查的。他是想要一个词频统计(其实现在的NLT和NLB的mdx不好用,免费公开的数据不足),看看哪种表記最常用。不过这个CJK词典协会有提供prefered推荐,也有点用,不过数据是没办法拿到的(收费的,一般面向组织和公司)。
话说从他谈这个开始偏题了
,这个主题是问缺少扫描版或者电子版文本的词典。他应该自己开主题的。
嗯嗯,就是表记法问题这个乏人重视的点,日语书写形并无固定标准,不仅仅不同语体有差异分化,不同时期断面不同书者学养也会导致倾向性不同,像是我青空文库看老一辈作家的文章,表记形式千奇百怪,才催发了探索欲![]()
我就是想把各种涉及到表记形式的词表串起来一起评量琢磨
我最初看的教育基础语汇表附带的“異表記”列信息,但我发现它虽然有利用语料库统计学这一条路子,但所涉基底语料面向少儿的教普资料占了好大比重,附列的表记形式不够客观全面,才慢慢思路打开,找其他词表一起瞅瞅。日语词汇表记法问题对于初窥日语语言门径的人尤其烧脑![]()