中文分词技术
刚才搜索了一下“PHP 搜索引擎”,发现了很多搜索方面的难题。

现在中文自动分词技术只有一些专门研究这种技术的公司有,而且很少有公开源代码的,更别说用 PHP 写的了。
当前语言: 中文 (简体)
我的桌面搜索系统
最近有个计划,就是开发自己的桌面搜索系统。一是不会泄漏自己的信息,二是可以为自己量身定做。

Google 桌面搜索可以处理 QQ, MSN MessengerAOL Instant Messenger 的聊天记录。但是我哪个程序都不用,而是用 Miranda IM 这个即时通讯软件,只要有协议的插件,它就能支持。如果我自己开发桌面搜索系统,就可以把它加到索引范围里。

Google 桌面搜索支持的邮件客户端有 Outlook Email, Outlook Express, Netscape Mail 和 Thunderbird。很可惜,目前我用的是它不支持的 Becky! Internet Mail

还有,我从去年夏天开始就抛弃 Microsoft Office,转向 OpenOffice.org 了。一是因为 Microsoft Office 是收费的;二是因为从 Microsoft Office XP 开始,我感觉 Microsoft Office 越来越臃肿了,界面看着也没有 2000 那么舒服;三是 Microsoft Office 文件的专有格式是不公开的。虽然 Google 现在也不支持 OpenOffice.org 的专有格式,不过 OpenOffice.org 2.0 里的默认使用的文档格式是 Open Document,将来 Google 很有可能会支持这种开放的、规范的文档格式。

虽然我自己一个人写出来的搜索系统肯定远不如 Google 的,但是因为用 Google 桌面搜索对我来说在软件支持及自定义方面有种种不便,所以我必须开发适合我自己的搜索系统。

Miranda IM 是开源软件,而且我用 UltraEdit 看了看它的数据文件,应该能读取它的聊天记录。Becky 的邮件索引文件格式也比较简单。现在已经有了很多 Perl 的模块来解析 OpenOffice.org 的文档,PHP 的我还不太清楚。不过文档格式是开放的,问题就好解决多了。

最后说一下 Torrent 文件的解析。昨天在网上搜,发现了一个为 Discuz! 设计的解析 BT 文件的插件。但是下载下来一看,发现它是用 Zend Encoder 编译过的,就没什么参考价值了。于是又在国外找,发现了一个德国人写的 TorrentParse,用了一下,效果很好,就是感觉解析的稍微有点慢。TorrentParse - PHP 现在的最后更新时间是 2005-01-24。

不过这一切目前还只是计划,需要等到 7 月 3 日考完试以后再做。
当前语言: 中文 (简体)
OpenOffice.org Developer Snapshot Build 1.9.m104
OpenOffice.org v1.1.3 在打开包含很多公式的 Word 文档时,速度极慢。昨天晚上终于不堪忍受它的速度,装了新的快照版本。

感觉新版的界面比 v1.1 系列漂亮了很多,也更接近 Microsoft Office 了。打开含有很多公式的 Word 文档感觉比 v1.1 系列快了很多。

不过,OpenOffice.org 的中文计划组进度太缓慢了,到现在 v1.1.4 的汉化版都没发布。还是只有去年 10 月 24 日发布的 v1.1.3,新的测试版本就更不用说了。不知是人员不够还是什么其他的原因。
当前语言: 中文 (简体)
更多条目: [1] ... [17] [18] [19] [20] [21] [22]
« 上一页 · 下一页 »