我的中文分词程序的分词速度
分词方法:逆向最大匹配分词法,只对中文字符进行分词

词库大小:43, 937 个词或单字

编写语言:PHP

分词速度:

99% 中文 —— 211 KB —— 68s —— 3.10 KB/s

45% 中文 —— 2, 100 KB —— 425s —— 4.94 KB/s

00% 中文 —— 413 KB —— 6s —— 68.83 KB/s
当前语言: 中文 (简体)
逆向最大匹配分词法分词结果
刚才又试了一下逆向最大匹配分词法,结果比正向的要好:

今天 在 中文 维 基百科 搜索 “ 土人 ” , 没有 匹配 的 条目 。 搜索 “ 风土人情 ” , 找 到 了 徐 霞 客 这 一 条目 , 其 内容 含有 “ ... 业 、 手工业 、 交通 运输 、 名胜 古迹 、 风土人情 , 仍然 具有 很 高 的 科学 和 文学 价值 。 ”

看来 中文 维 基 百科 使用 了 中文 分词 技术 , 但 不知 是 zh.wikipedia.org 自己 增加 的 独有 功能 还是 MediaWiki 中 就 有的 功能 。 如果 MediaWiki 中 就 有 此 技术 , 那么 假期 时 就 可以 参考 一下 它 的程序 了 。

不过 话说 回来 , 除了 搜索 引擎 , 很少 有 搜索 有 中文 自动 分词 技术 的 , 做 不成 这个 功能 也 无所谓 。

后记 : 在 自己 机器 上装 的 MediaWiki 上 测试 了 一下 , 结果 是 — — 不 支持 中文 自动 分词 。
当前语言: 中文 (简体)
试着写了一个中文分词程序
可以把上个日志项分成这样:

今天 在 中文 维 基 百科 搜索 “ 土人 ” , 没有 匹配 的 条目 。 搜索 “ 风土 人情 ” , 找 到 了 徐 霞 客 这 一 条目 , 其 内容 含有 “ ...业 、 手工业 、 交通 运输 、 名胜 古迹 、 风土 人情 , 仍然 具有 很 高 的 科学 和文 学 价值 。 ”

看来 中文 维 基 百科 使用 了 中文 分词 技术 , 但 不知 是  zh.wikipedia.org 自己 增加 的 独有 功能 还是  MediaWiki 中 就 有的 功能 。 如果  MediaWiki 中 就 有 此 技术 , 那么 假期 时 就 可以 参考 一下 它 的程序 了 。

不过 话说 回来 , 除了 搜索 引擎 , 很少 有 搜索 有 中文 自动 分词 技术 的 , 做 不成 这个 功能 也 无所谓 。

后记 : 在 自己 机器 上装 的  MediaWiki 上 测试 了 一下 , 结果 是 — — 不支 持 中文 自动 分词 。

由于用的是正向最大匹配分词法,所以效果不是很好。现在用的词库有 43932 个词。将来再改进一下算法吧。
当前语言: 中文 (简体)
中文维基百科的搜索
今天在中文维基百科搜索“土人”,没有匹配的条目。搜索“风土人情”,找到了徐霞客这一条目,其内容含有“...业、手工业、交通运输、名胜古迹、风土人情,仍然具有很高的科学和文学价值。”

看来中文维基百科使用了中文分词技术,但不知是 zh.wikipedia.org 自己增加的独有功能还是 MediaWiki 中就有的功能。如果 MediaWiki 中就有此技术,那么假期时就可以参考一下它的程序了。

不过话说回来,除了搜索引擎,很少有搜索有中文自动分词技术的,做不成这个功能也无所谓。

后记:在自己机器上装的 MediaWiki 上测试了一下,结果是——不支持中文自动分词。
当前语言: 中文 (简体)
中文分词技术
刚才搜索了一下“PHP 搜索引擎”,发现了很多搜索方面的难题。

现在中文自动分词技术只有一些专门研究这种技术的公司有,而且很少有公开源代码的,更别说用 PHP 写的了。
当前语言: 中文 (简体)
我的桌面搜索系统
最近有个计划,就是开发自己的桌面搜索系统。一是不会泄漏自己的信息,二是可以为自己量身定做。

Google 桌面搜索可以处理 QQ, MSN MessengerAOL Instant Messenger 的聊天记录。但是我哪个程序都不用,而是用 Miranda IM 这个即时通讯软件,只要有协议的插件,它就能支持。如果我自己开发桌面搜索系统,就可以把它加到索引范围里。

Google 桌面搜索支持的邮件客户端有 Outlook Email, Outlook Express, Netscape Mail 和 Thunderbird。很可惜,目前我用的是它不支持的 Becky! Internet Mail

还有,我从去年夏天开始就抛弃 Microsoft Office,转向 OpenOffice.org 了。一是因为 Microsoft Office 是收费的;二是因为从 Microsoft Office XP 开始,我感觉 Microsoft Office 越来越臃肿了,界面看着也没有 2000 那么舒服;三是 Microsoft Office 文件的专有格式是不公开的。虽然 Google 现在也不支持 OpenOffice.org 的专有格式,不过 OpenOffice.org 2.0 里的默认使用的文档格式是 Open Document,将来 Google 很有可能会支持这种开放的、规范的文档格式。

虽然我自己一个人写出来的搜索系统肯定远不如 Google 的,但是因为用 Google 桌面搜索对我来说在软件支持及自定义方面有种种不便,所以我必须开发适合我自己的搜索系统。

Miranda IM 是开源软件,而且我用 UltraEdit 看了看它的数据文件,应该能读取它的聊天记录。Becky 的邮件索引文件格式也比较简单。现在已经有了很多 Perl 的模块来解析 OpenOffice.org 的文档,PHP 的我还不太清楚。不过文档格式是开放的,问题就好解决多了。

最后说一下 Torrent 文件的解析。昨天在网上搜,发现了一个为 Discuz! 设计的解析 BT 文件的插件。但是下载下来一看,发现它是用 Zend Encoder 编译过的,就没什么参考价值了。于是又在国外找,发现了一个德国人写的 TorrentParse,用了一下,效果很好,就是感觉解析的稍微有点慢。TorrentParse - PHP 现在的最后更新时间是 2005-01-24。

不过这一切目前还只是计划,需要等到 7 月 3 日考完试以后再做。
当前语言: 中文 (简体)
更多条目: [1] ... [18] [19] [20] [21] [22] [23] [24]
« 上一页 · 下一页 »