现有的搜索引擎在查全率和查准率方面很难满足用户的要求,为了查询到一个相关的内容,用户常常需要使用多个搜索引擎查询相同的内容,然后综合出最适合自己的结果。元搜索引擎通过调用多个成员搜索引擎来进行搜索,因此可以很好地解决上述问题。Web数据提取技术是元搜索引擎的核心,如何准确、高效地从Web页面中提取内容对于一个元搜索引擎来说至关重要。作者对开源的Web数据提取工具Web-Harvest进行了深入的研究,并在此基础上进行了二次开发,摒弃了以前的通过写配置文件(页面抽取规则)进行页面抽取的方式,改用API的方式重新封装了Web-Harvest的几个关键部分。这种方式不但提高了程序提取页面数据的效率,同时提高了程序开发人员的开发效率。智能Agent是人工智能领域发展起来的一个概念,它所特有的自主性、社会性、反应性和能动性可以大大提高系统的灵活性和智能性。作者将Agent技术应用于所构建的信息采集系统,通过实践证明,可以将整个信息采集任务分散到各个Agent上并发运行,这样可以极大提高信息采集的效率。元搜索引擎可以帮助用户整合来自不同搜索引擎的搜索结果,最关键的是重新给出相关度,按新的相关性排列查询结果后提交给用户。作者将Agent技术、Web技术和Web数据提取技术结合,构建了基于MAS的元搜索引擎。通过实验显示,系统在查全率方面有所提高,同时,重新给出了搜索结果的相关度,大大提升了用户的体验。在系统架构方面,这种方式极大地提高了整个系统架构的灵活性和可扩展性,为构建更加复杂、更加智能的系统提供了一种新的模式。