汉字数字化已经持续了半个世纪,从最初的各国各厂商使用不同的编码,到现在的统一码,经历了多次变化。
2002年,书同文公司发起了一个名为《古代汉字字频统计》的项目,这可以说是一个中间阶段的典型。这本书是该项目的成果,总结了30136个汉字的字频数据,覆盖了99.99%的汉字,约有22000个字的字频在23以上。
但是,由于当时的技术条件的限制,有些汉字使用了PUA编码,后来又被扩展B-G陆续收录,还有一些汉字使用了GBK的PUA编码。还有一些汉字有独立的异体字编码,用于识别和统计异体字的使用频度。
关于全部的分析结果,请参考知乎上的相关文章。
相关推荐
© 2023-2025 百科书库. All Rights Reserved.
发表评价