刚才又试了一下逆向最大匹配分词法,结果比正向的要好:
今天 在 中文 维 基百科 搜索 “ 土人 ” , 没有 匹配 的 条目 。 搜索 “ 风土人情 ” , 找 到 了 徐 霞 客 这 一 条目 , 其 内容 含有 “ ... 业 、 手工业 、 交通 运输 、 名胜 古迹 、 风土人情 , 仍然 具有 很 高 的 科学 和 文学 价值 。 ”
看来 中文 维 基 百科 使用 了 中文 分词 技术 , 但 不知 是 zh.wikipedia.org 自己 增加 的 独有 功能 还是 MediaWiki 中 就 有的 功能 。 如果 MediaWiki 中 就 有 此 技术 , 那么 假期 时 就 可以 参考 一下 它 的程序 了 。
不过 话说 回来 , 除了 搜索 引擎 , 很少 有 搜索 有 中文 自动 分词 技术 的 , 做 不成 这个 功能 也 无所谓 。
后记 : 在 自己 机器 上装 的 MediaWiki 上 测试 了 一下 , 结果 是 — — 不 支持 中文 自动 分词 。
看来 中文 维 基 百科 使用 了 中文 分词 技术 , 但 不知 是 zh.wikipedia.org 自己 增加 的 独有 功能 还是 MediaWiki 中 就 有的 功能 。 如果 MediaWiki 中 就 有 此 技术 , 那么 假期 时 就 可以 参考 一下 它 的程序 了 。
不过 话说 回来 , 除了 搜索 引擎 , 很少 有 搜索 有 中文 自动 分词 技术 的 , 做 不成 这个 功能 也 无所谓 。
后记 : 在 自己 机器 上装 的 MediaWiki 上 测试 了 一下 , 结果 是 — — 不 支持 中文 自动 分词 。
Current language: Chinese (Simplified)