最近拆字字典拆完了又一大批字,現在大部分的中日韓資料庫漢字已拆好了,字典中目前收錄的字多達17678個。

今天沒事想知道漢字裡面到底有多少是“重疊字”(字根重疊的漢字),也就是說由兩個以上相同的字組成的字,例如“磊”是以3個“石”字疊在一起而成的,那麼除此以外還有多少這樣的字呢?

好在資料庫的格式非常簡單,很快就想出了個好的正則表達式可以匹配所有的重疊字。
成功的正則表達式基本上是這樣的:“(. )\1+”,如果需要模式更敏感的話也可以在此基礎上添加參數,如“(. )\1\1+”只匹配3字以上重疊組成的字,也可用“\t”把模式括起來以只允許全部字根都是重疊的結構(這樣可以淘汰像“傘”和“壨”的字)。

以下是本次實驗的結果-2字、3字和4字重疊組成的所有(可打出來或用統一碼顯示)的漢字:
- 兩字篇
二(一 一)
亖(二 二)
仌(人 人)
兓(旡 旡)
兟(先 先)
兢(克 克)
出(山 山)
厸(厶 厶)
吅(口 口)
吕(口 口)
哥(可 可)
喆(吉 吉)
囍(喜 喜)
圭(土 土)
多(夕 夕)
夶(大 大)
奻(女 女)
孖(子 子)
屾(山 山)
幵(干 干)
弜(弓 弓)
从(人 人)
戔(戈 戈)
抙(手 手)
拜(手 手)
拝(手 手)
斦(斤 斤)
昌(日 日)
昍(日 日)
朋(月 月)
林(木 木)
棗(朿 朿)
棘(朿 朿)
槑(呆 呆)
比(匕 匕)
沝(水 水)
炎(火 火)
炏(火 火)
爻(乂 乂)
牪(牛 牛)
犾(犬 犬)
玆(玄 玄)
玨(玉 王)
珏(玉 玉)
甡(生 生)
畕(田 田)
皕(百 百)
砳(石 石)
祘(示 示)
秝(禾 禾)
竝(立 立)
競(竞 竞)
竸(竟 竟)
絲(糸 糸)
丝(纟 纟)
羽(习 习)
聑(耳 耳)
臸(至 至)
艸(屮 屮)
茻(艸 艸)
虤(虎 虎)
豩(豕 豕)
赫(赤 赤)
踀(足 足)
辡(辛 辛)
雔(隹 隹)
双(又 又)
覞(見 見)
誩(言 言)
賏(貝 貝)
闁(門 門)
龖(龍 龍)
- 三字篇
三(一 一 一)
刕(刀 刀 刀)
劦(力 力 力)
厵(原 原 原)
厽(厶 厶 厶)
叒(又 又 又)
品(口 口 口)
嚞(吉 吉 吉)
垚(土 土 土)
壵(士 士 士)
姦(女 女 女)
孨(子 子 子)
尛(小 小 小)
彡(丿 丿 丿)
惢(心 心 心)
掱(手 手 手)
晶(日 日 日)
森(木 木 木)
歮(止 止 止)
毳(毛 毛 毛)
淼(水 水 水)
渁(水 水 水)
灥(泉 泉 泉)
焱(火 火 火)
犇(牛 牛 牛)
猋(犬 犬 犬)
畾(田 田 田)
皛(白 白 白)
众(人 人 人)
瞐(目 目 目)
矗(直 直 直)
磊(石 石 石)
羴(羊 羊 羊)
聶(耳 耳 耳)
舙(舌 舌 舌)
芔(屮 屮 屮)
蟲(虫 虫 虫)
譶(言 言 言)
贔(貝 貝 貝)
赑(贝 贝 贝)
轟(車 車 車)
鑫(金 金 金)
雥(隹 隹 隹)
雦(隹 隹 隹)
靐(雷 雷 雷)
馫(香 香 香)
驫(馬 馬 馬)
骉(马 马 马)
鱻(魚 魚 魚)
麤(鹿 鹿 鹿)
龘(龍 龍 龍)
- 四字篇
叕(又 又 又 又)
朤(月 月 月 月)
灬(丶 丶 丶 丶)
燚(火 火 火 火)
茻(屮 屮 屮 屮)
若對正則表達式及資料處理感興趣的話,不妨下載字典的全文檔,自己試試看!


