网络新技术:统计学习技术助力数据管理
chenyuewen04
2006年08月01日 20:51:12
只看楼主

为了让Internet和intranet可以更高效为科学、工程和商务活动提供服务,我们必须开发出一整套适应这类应用的新型网络技术。在持续至今的第一波网络技术浪潮里,人们主要侧重研究通信连接、网络带宽和以光缆、路由器为代表的网络硬件以及以协议和缓冲处理为表征的软件问题,正是这些因素形成了我们今天所看到的Internet核心技术。就在人们享受着目前网络技术所带给我们的便利时,一轮新的挑战已经摆在了网络用户的面前:我们应该采用怎样的方式来寻找和管理网络上浩如烟海的信息? 新一轮网络技术的主要设计目标就是围绕这个问题而展开的,具体地说,新技术将通过智能地搜索、索引和组织海量数据以支持事务决策、电子商务、教育和科学研究等工作。新技术必须作到能够“理解”文挡、图像和影片,各种数据表、目录、分子库乃至基因序列等信息。

为了让Internet和intranet可以更高效为科学、工程和商务活动提供服务,我们必须开发出一整套适应这类应用的新型网络技术。在持续至今的第一波网络技术浪潮里,人们主要侧重研究通信连接、网络带宽和以光缆、路由器为代表的网络硬件以及以协议和缓冲处理为表征的软件问题,正是这些因素形成了我们今天所看到的Internet核心技术。

就在人们享受着目前网络技术所带给我们的便利时,一轮新的挑战已经摆在了网络用户的面前:我们应该采用怎样的方式来寻找和管理网络上浩如烟海的信息? 新一轮网络技术的主要设计目标就是围绕这个问题而展开的,具体地说,新技术将通过智能地搜索、索引和组织海量数据以支持事务决策、电子商务、教育和科学研究等工作。新技术必须作到能够“理解”文挡、图像和影片,各种数据表、目录、分子库乃至基因序列等信息。

这种“理解”并不要求非常复杂,仅仅是能够完成我们所提交给的任务即可。但是,这种“理解”必须能够适应网络的易变性和用户不断增长的需求。一种所谓的统计学习(statistical learning)技术正是实现以上目标的关键。我们可以把这种方法用来开发数据项目的分类,比如,文档中的分段或者获得希望的图像和视频等,只要为其分配有意义的类别即可。此外,我们还可以用统计学习的方法精炼信息。

不久的将来,人们采用统计学习技术可以让计算机自动地对文档进行分类,而目前Yahoo!等网络搜索引擎的手工分类以后就可以改用机器自动完成。用户还可以用该技术把自己的电子邮件自动存放到相应的邮件信箱。新技术和已经存在的基于文本的搜索方式是不同的,我们可以把它用在文本、图像和视/音频记录等诸多方面。最终,用户靠自己就可以定制这些学习方法。

一些从事机器学习研究的计算机科学家当前就正在致力于开发管理、组织和搜索多媒体数据的新技术,他们采用了最新的统计学习理论和算法。比如,美国麻省理工学院的一些研究人员就已经开发出一套原型系统对电子邮件进行分类和选路。

麻省理工学院的一个普通行政办公室通常一天之内要接收500多封电子邮件,仅仅是回复这些邮件就需要雇佣两名全职雇员。如果有一个系统可以自动地对这些邮件进行分类显然会大大减轻部门的负担。这类邮件通常都包含标准的问题:系统可以自动采用已经编写的答案应答这些问题或者把邮件转发给相关人员来回复。随着管理制度、人员等因素的变更,系统会采用适度的人工交互适应新的分类原则。

具有以上功能的原始商业系统也已经出现了,但我们还需要作进一步地工作以改进其性能。举个例子。商业搜索引擎一直都在不断地得到改进,但这些搜索引擎无一可以回答多种复杂类型的查询。训练有素的专门人员在这方面比搜索引擎要强大得多。假设用户提出以下的请求:(a)显示Tom Dietterich教授指导学生的照片;(b)请展示1998年摩托罗拉公司出品的手机图片。我们的回答是,首先找到Dietterich的主页,从这个页面上的链接一直追踪到他学生的主页,然后分析这些页面上的图片以确定其学生的照片。怎么回答第二个问题呢?可以这样做:搜索摩托罗拉公司的网站或者在线杂志以找到老产品的介绍。

毋庸置疑,以上的查询将变得越来越普遍,我们迫切需要创建自动系统来回答这些问题。很清楚,开发针对多媒体数据的智能分类软件在新一波Internet技术中扮演着重要角色。我们需要自动化技术路由、组织和搜索信息来帮助人们从数据海洋中获益。

免费打赏

相关推荐

APP内打开