模式识别 之 分类器
这两天在学习模式识别中的分类方法,由于知识有限,很多内容看不懂。

前两天做了一个简单的基于贝叶斯决策理论的分类器。在应用合并概率公式时发现一个问题,如果一个样本中有一个词在第一类中出现的概率为1,还有一个词在第一类中出现的概率为0(或者说在第二类中出现的概率为1),这时最终就会出现0除以0的问题,这是我不愿意看到的。还有,只要有一个词在某一类中的概率为1或0,最终概率就会等于1或0,这也是我不愿意看到的。为了解决这个问题,对于在某一类中出现的概率为1或0的词,我把这个概率改为0.999999或0.000001这样接近于1或0的数字。最终测试结果还是比较令人满意的,分得八九不离十。

今天下午看到了一篇论文,里面提到了 Winnow 这个线性分类算法。看了半天没怎么看懂,里面的向量 x = (x1, x2, ..., xn) 表示待分类的文本实例,然后这个 x 向量还要和权重向量 w = (w1, w2, ..., wn) 点乘。这样看来 x 向量里的每个坐标应该都是数字,但是分类时提取出来的都是词,进行到这块就不知道该怎么处理了。不过中科院早已经把这个方法应用到垃圾邮件识别上了,据说效果比贝叶斯的要好一些。
Current language: Chinese (Simplified)
Hollywood East Star Trax
昨天开始下载 VeryCD 的 wdfdf 提供的 荷东十个专辑及二个串烧专辑

看论坛里的帖子发现第 2, 3 集由于盘片损伤,有 7-8 首歌受到影响了。但是,aecom 在回复中给出了荷东 BT 版本种子的下载页面。我看了一下,里面的文件大小与 VeryCD 提供的都不相同。但 BT 版本的有些专辑是分开的 WAV 文件,所以怀疑那个版本是拼凑的。而 VeryCD 的都是 wdfdf 自己亲手抓取的。所以打算主要从 VeryCD 下载,有问题的专辑下载 BT 版本的,毕竟听着听着来个几秒钟的静音还是非常不爽的。

PS,该资源已发布: [http://lib.verycd.com/2006/06/08/0000106103.html Various%20Artist%20-%E3%80%8A%E8%8D%B7%E4%B8%9C%E3%80%8B%28Hollywood%20East%20St
ar%20Trax%29%5BMP3%21%5D]。
Current language: Chinese (Simplified)
Miranda IM Database Reader project pages
SourceForge.net:

http://sourceforge.net/projects/mimdbreader/

PHP Classes:

http://www.phpclasses.org/browse/package/3010.html
Current language: English · also available in: Chinese (Simplified)
Miranda IM Database Reader committed
MIM DB Reader is a PHP class that can read the database of Miranda IM, by which you can retrieve contact settings, chat history and other information.

----
Besides PHP Classes, I also committed it to SourceForge.net this time.

The committing on sf.net ought to be proven earlier, while the one on PHP Classes may take some time.
Current language: English · also available in: Chinese (Simplified)
系统各组件简介
Commons

Commons 是系统的中心,实现一些多个程序都会用到的功能,也起到一定的沟通作用。
现在 Commons 的功能较少。仅含有通用文件访问和相关资源查询及处理。

Contacts

Contacts 用于管理联系人信息。其中的所有联系人的姓名都会被用做相关资源里的关键词。
联系人的所有信息均用序列化的关联数组存储,因此信息组织比较自由。
Contacts 支持联系人照片存储,照片的数据存储在 Files 中。
导入程序手机导出的联系人时,处理联系人的照片。导出程序则支持多种格式,完全按照自己的习惯导出,例如为手机导出的联系人的名称可以选择使用“职务,姓名”的格式。
另外,带有生日的联系人的 ID 及生日会提供给 Events,供生日提醒使用。

Events

Events 用于记录各种事件。包括已发生的,将要发生的,固定时间发生的,可能会发生的。
已发生事件主要作回顾用,也可为未来发生的事作一些参考。
将要发生的事件用来作日程安排。
固定时间发生的事件用来作提醒,比如提醒某人哪天过生日。
可能会发生的事件,则是自己的一些猜测,待日期到后看猜测是否准确,纯属消遣。

Files

Files 用于管理文件。它支持虚拟目录(即直接访问 Web 服务器的磁盘)。
照片,文档,音乐,代码等文件均放置其中。各种应用程序可妥善管理。
例如针对照片有在线注释程序,针对音乐有支持歌词同步的播放器。

Resources

Resources 用于查找与处理网络资源。现在可从一些门户网站查找电影、电视及音乐的更新信息。
这样就可以不用关心电影、音乐的相关消息,让程序去发现。自己要做的只是选择对这个资源的处理方式。

Search

Search 用于搜索本地硬盘内的文件,以及系统中的各种信息。

WUSN

WUSN 用于编号与管理资源。
Current language: Chinese (Simplified)
More entries: [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] ... [16]
« Previous page · Next page »