第二次修改后中文分词程序的分词速度
分词方法:逆向最大匹配分词法,只对中文字符进行分词

词库大小:73,226 个词(增加了 29,289 个词,但去除了单字和四字以上的词语)

编写语言:PHP

分词速度:

99% 中文 —— 211 KB —— 16s —— 13.18KB/s (+ 10.08KB/s)

45% 中文 —— 2, 100 KB —— 73s —— 28.76KB/s (+ 23.82KB/s)

00% 中文 —— 413 KB —— 7s —— 59.00KB/s (- 9.83KB/s)
当前语言: 中文 (简体)
我的中文分词程序的分词速度
分词方法:逆向最大匹配分词法,只对中文字符进行分词

词库大小:43, 937 个词或单字

编写语言:PHP

分词速度:

99% 中文 —— 211 KB —— 68s —— 3.10 KB/s

45% 中文 —— 2, 100 KB —— 425s —— 4.94 KB/s

00% 中文 —— 413 KB —— 6s —— 68.83 KB/s
当前语言: 中文 (简体)
逆向最大匹配分词法分词结果
刚才又试了一下逆向最大匹配分词法,结果比正向的要好:

今天 在 中文 维 基百科 搜索 “ 土人 ” , 没有 匹配 的 条目 。 搜索 “ 风土人情 ” , 找 到 了 徐 霞 客 这 一 条目 , 其 内容 含有 “ ... 业 、 手工业 、 交通 运输 、 名胜 古迹 、 风土人情 , 仍然 具有 很 高 的 科学 和 文学 价值 。 ”

看来 中文 维 基 百科 使用 了 中文 分词 技术 , 但 不知 是 zh.wikipedia.org 自己 增加 的 独有 功能 还是 MediaWiki 中 就 有的 功能 。 如果 MediaWiki 中 就 有 此 技术 , 那么 假期 时 就 可以 参考 一下 它 的程序 了 。

不过 话说 回来 , 除了 搜索 引擎 , 很少 有 搜索 有 中文 自动 分词 技术 的 , 做 不成 这个 功能 也 无所谓 。

后记 : 在 自己 机器 上装 的 MediaWiki 上 测试 了 一下 , 结果 是 — — 不 支持 中文 自动 分词 。
当前语言: 中文 (简体)
试着写了一个中文分词程序
可以把上个日志项分成这样:

今天 在 中文 维 基 百科 搜索 “ 土人 ” , 没有 匹配 的 条目 。 搜索 “ 风土 人情 ” , 找 到 了 徐 霞 客 这 一 条目 , 其 内容 含有 “ ...业 、 手工业 、 交通 运输 、 名胜 古迹 、 风土 人情 , 仍然 具有 很 高 的 科学 和文 学 价值 。 ”

看来 中文 维 基 百科 使用 了 中文 分词 技术 , 但 不知 是  zh.wikipedia.org 自己 增加 的 独有 功能 还是  MediaWiki 中 就 有的 功能 。 如果  MediaWiki 中 就 有 此 技术 , 那么 假期 时 就 可以 参考 一下 它 的程序 了 。

不过 话说 回来 , 除了 搜索 引擎 , 很少 有 搜索 有 中文 自动 分词 技术 的 , 做 不成 这个 功能 也 无所谓 。

后记 : 在 自己 机器 上装 的  MediaWiki 上 测试 了 一下 , 结果 是 — — 不支 持 中文 自动 分词 。

由于用的是正向最大匹配分词法,所以效果不是很好。现在用的词库有 43932 个词。将来再改进一下算法吧。
当前语言: 中文 (简体)
中文维基百科的搜索
今天在中文维基百科搜索“土人”,没有匹配的条目。搜索“风土人情”,找到了徐霞客这一条目,其内容含有“...业、手工业、交通运输、名胜古迹、风土人情,仍然具有很高的科学和文学价值。”

看来中文维基百科使用了中文分词技术,但不知是 zh.wikipedia.org 自己增加的独有功能还是 MediaWiki 中就有的功能。如果 MediaWiki 中就有此技术,那么假期时就可以参考一下它的程序了。

不过话说回来,除了搜索引擎,很少有搜索有中文自动分词技术的,做不成这个功能也无所谓。

后记:在自己机器上装的 MediaWiki 上测试了一下,结果是——不支持中文自动分词。
当前语言: 中文 (简体)
中文分词技术
刚才搜索了一下“PHP 搜索引擎”,发现了很多搜索方面的难题。

现在中文自动分词技术只有一些专门研究这种技术的公司有,而且很少有公开源代码的,更别说用 PHP 写的了。
当前语言: 中文 (简体)
更多条目: [1] ... [18] [19] [20] [21] [22] [23] [24]
« 上一页 · 下一页 »