网络新技术:统计学习技术助力数据管理
为了让Internet和intranet可以更高效为科学、工程和商务活动提供服务,我们必须开发出一整套适应这类应用的新型网络技术。在持续至今的第一波网络技术浪潮里,人们主要侧重研究通信连接、网络带宽和以光缆、路由器为代表的网络硬件以及以协议和缓冲处理为表征的软件问题,正是这些因素形成了我们今天所看到的Internet核心技术。就在人们享受着目前网络技术所带给我们的便利时,一轮新的挑战已经摆在了网络用户的面前:我们应该采用怎样的方式来寻找和管理网络上浩如烟海的信息? 新一轮网络技术的主要设计目标就是围绕这个问题而展开的,具体地说,新技术将通过智能地搜索、索引和组织海量数据以支持事务决策、电子商务、教育和科学研究等工作。新技术必须作到能够“理解”文挡、图像和影片,各种数据表、目录、分子库乃至基因序列等信息。这种“理解”并不要求非常复杂,仅仅是能够完成我们所提交给的任务即可。但是,这种“理解”必须能够适应网络的易变性和用户不断增长的需求。一种所谓的统计学习(statistical learning)技术正是实现以上目标的关键。我们可以把这种方法用来开发