2021
/1103
由于“霞鹜文楷”字体文件太大,因此收集了几份字词表,打算统计一下给它弄个子集字体出来。但找了两圈工具,一时竟没有什么简单趁手的家伙可用。忽然一幅画面映入脑海:好像在什么地方看见有官方工具提供来着。于是打开语言文字应用研究所的“语料库在线”网站,果然看见了字词频率统计工具。遂下载,挺好用。
只是这软件上怎么写着一个和我刚刚访问的网址不一样的域名呢?再次打开语料库,首页左上角确实标注着另一个(应该已经废弃了的)网址。访问该链接,发现被某游戏私服注册过去挂广告了。这怎么能忍!马上打开研究所官网,找到联系方式拨打过去。工作人员很温柔,很热情,一边听我讲一边自己打开浏览器实测,没有我想象中那种冷冰冰的套话。想起了上次在知网阅读订杂志时联系的工作人员,也是很耐心地向我解疑答惑。这种沟通就非常让人舒服。
最后问题应该是反馈给负责语料库这块的计算语言学研究室了,大概会修的..吧。
更新:这个软件的字符集好像有些问题。GB2312 以外的字有一些它无法识别,遂弃用。而且我反应过来了,为啥要自己再收集字词表.. 人家通用规范汉字表已做好大量工作了。
再更新:它官网域名显示的问题时隔几个月仍未修。
2022
/0517
今天随意点了进去,终于看到“网站升级维护中,敬请期待”了。