Miranda IM 的 QQ 协议插件
今天在搜索引擎搜索 Miranda IM 的 QQ 协议插件的相关信息时,发现了不少介绍用 Miranda IM 挂级的文章,里面写着挂 88 个帐号才占用 8MB 内存,也许腾讯是因为这个禁止的旧版协议。

现在依然活跃的 Miranda IM 上的 QQ 协议插件好像只有 OpenQ 这一个,我装过,不是很稳定。也许过一段时间会好些。没办法,再等一等吧。这个插件的功能比我原来用的那个要强,QQ 秀都支持。
当前语言: 中文 (简体)
可恶的腾讯!
07/06/2005 下午,发现 Miranda IM 用不了 QQ 了:登陆后获取不到好友的在线信息,不到 10s 又断了。换 QQ 登陆,一切正常。问了一个同用 Miranda IM 的好友,说也是不能用 QQ 了。

可恶的腾讯,一定是限制旧版程序了。Miranda IM 里的 QQ 协议插件所用的协议是 0630c 版的,好像作者早就停止更新了。另一个 OpenQ 的 QQ 协议插件特别不好用。

因为好友中用 QQ 的多,迫不得已,开 QQ 了,但 15MB 的内存占用真是不小啊。而且 Miranda IM 还不能关,因为 MSN 和 ICQ 偶尔也要用一下。
当前语言: 中文 (简体)
我的桌面搜索系统
中文分词想做到这样就差不多了,毕竟是自己用。目的就是搜索“土人”不要把“风土人情”相关的内容搜出来就行。

接下来该做英文分词了。也不管动词时态和名词复数等问题了,能分开就行。因为全英文的数据基本都是程序代码。

把中英文分词都做完后,就该考虑如何建立索引了。
当前语言: 中文 (简体)
第三次修改后中文分词程序的分词速度
程序改动:不使用 PHP 中的 Multi-Byte String 函数,自己判断汉字

分词方法:逆向最大匹配分词法,只对中文字符进行分词

词库大小:73,226 个词

编写语言:PHP

分词速度:

99% 中文 —— 211 KB —— 2s —— 105.50KB/s (+ 92.32KB/s)

45% 中文 —— 2, 100 KB —— 22s —— 95.45KB/s (+ 66.69KB/s)

00% 中文 —— 413 KB —— 6s —— 68.83KB/s (+ 9.83KB/s)
当前语言: 中文 (简体)
GBK 汉字内码扩展规范 之 码位分配及顺序
GBK 采用双字节表示,总体编码范围为 0x8140 - 0xFEFE,首字节在 0x81 - 0xFE 之间,尾字节在 0x40 - 0xFE 之间,剔除 0xXX7F 一条线。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个。

全部编码分为三大部分:

1. 汉字区。包括:
  A. GB 2312 汉字区。即 GBK/2: 0xB0A1 - 0xF7FE。收录 GB 2312 汉字 6763 个,按原顺序排列。
  B. GB 13000.1 扩充汉字区。包括:
    (1) GBK/3: 0x8140 - 0xA0FE。收录 GB 13000.1 中的 CJK 汉字 6080 个。
    (2) GBK/4: 0xAA40 - 0xFEA0。收录 CJK 汉字和增补的汉字 8160 个。

2. 图形符号区。包括:
  A. GB 2312 非汉字符号区。即 GBK/1: 0xA1A1 - 0xA9FE。其中除 GB 2312 的符号外,还有 10 个小写罗马数字和 GB 12345 增补的符号。计符号 717 个。
  B. GB 13000.1 扩充非汉字区。即 GBK/5: 0xA840 - 0xA9A0。BIG-5 非汉字符号、结构符和“○”排列在此区。计符号 166 个。

3. 用户自定义区:分为(1)(2)(3)三个小区。
    (1) 0xAAA1 - 0xAFFE,码位 564 个。
    (2) 0xF8A1 - 0xFEFE,码位 658 个。
    (3) 0xA140 - 0xA7A0,码位 672 个。
  第(3)区尽管对用户开放,但限制使用,因为不排除未来在此区域增补新字符的可能性。
当前语言: 中文 (简体)
我的中文分词程序现在存在的主要问题
为了避免出现乱码,我的中文分词程序使用了 PHP 中的 Multi-Byte String 函数。先通过 mb_strlen() 函数取得字符串的长度,然后利用 mb_substr() 把每个字符都存到一个数组里,再进行匹配。

这样效率就会降低很多。如果不使用 Multi-Byte String 函数,而是逐个判断每个字符是单字节还是双字节的,效率应该可以提高不少。

待有时间再研究汉字编码吧。
当前语言: 中文 (简体)
更多条目: [1] ... [17] [18] [19] [20] [21] [22] [23] [24]
« 上一页 · 下一页 »