使用正则提取包含叠字的成语(AABB,ABCC,AABC)

前几天,侄女问我得意洋洋这种格式的成语还有哪些,我说了几个,但显然不够多。 于是想用正则提取一下一些成语词典的词头。

  1. 得意洋洋 的后两个字重复,那么可以在GoldenDict词头搜索中选择正则表达式:
(\w)\1+$
  1. 然后还需要剔除AABB这样的格式,剩下的就是仅有后半部分叠字的成语(ABCC):
^(\w)\1+

我还不会搜索相邻两个字不重复的情况,请方家指教。

(([\u0391-\uFFE5])(?!\2)){2}[\u0391-\uFFE5]{2}$
(JavaScript 的 \w 匹配不了汉字)