400-685-0732

WJMonitor舆情之声

企业大数据智能舆情监测管理解决方案

全网监测海量数据按需发布监测预警

实时把握舆情动态精准追溯信息源头

获取验证码
企业采购 个人使用
当前位置: 首页 > SEO博客 > 开源web搜索引擎nutch简介

开源web搜索引擎nutch简介

时间:2012-01-20 22:00:45
至今为止,商业化的大搜索引擎公司很多,谷歌,百度,雅虎,必应,搜狗,搜搜,等等。大家都是了然于心。但是,我要是问一句,你了解多少开源数据库框架呢,估计知道的人不是很多吧,这里,我就要献丑一下了,装一下专家,斗胆来写一写开源的web搜索引擎的一些东西,希望大家不要见笑,抛砖引玉吗,应该鼓励一下。

nutch

话不多说,转入正题,今天我要讲的一个开源web搜索引擎框架,那就是nutch。Nutch是一个基于完全开源的搜索引擎包,它是Apache基于Lucene Java项目的产物,它的效率可以和商业搜索引擎相媲美。作为一个研究平台,Nutch有其开放灵活的架构,用户可以基于Nutch来定制自己的搜索引擎。Nutch的建立目的就是增加Web搜索的透明性。

nutch架构

Nutch有其高质量和模块化的架构特点,允许使用插件来进行media-type解析、Html分析、数据检索、查询和集群化处理。Nutch的的核心模块主要有三个:

1)Crawler。用来发现、抓取和获取web页面信息。

2)WebDB。用来存储已有的URL以及获取的网页内容。

3)Indexer。为已有的网站网页信息和相关链接建立基于关键词搜索的索引。

Nutch的优点:

1,极高的扩展性和丰富的爬虫配置特色。

2,鲁棒性。你可以在一个有100个节点的集群上构建你的Nutch系统。

3,丰富的robots.txt规则实现。

4,质量优先。你可以配置爬虫优先去抓取重要的页面信息。

基于Nutch实现的搜索引擎系统有:

1,Creative Commons Search - 2004建立,2006年改为基于 Nutch实现。

2,DiscoverEd - Open educational resources search prototype developed by Creative Commons

3,Krugle。

4,mozDex。

5,Wikia Search -建立于2008, 2009关闭

6,search2.net。

7,Tothego.com。

如何实现自己的基于Nutch的搜索引擎。

实现一个基于Nutch的搜索引擎其实很容易,你只需具备以下几个条件即可:

1,了解搜索引擎工作的基本原理

2,熟悉命令行的一些操作

3,具备一定的java知识,并理解Servlet容器的工作原理。

具备以上一些知识,你就可以配置自己的Nutch搜索引擎了。在这里我就卖个关子,后续我会将Nutch的实践和体会发一篇文章出来,手把手的与你共享如何基于Nutch来构建一个自己的搜索引擎,敬请期待。
分享按钮