vmware7+ubuntu12.04
1,下载文件nutch1.5http://mirror.bjtu.edu.cn/apache/nutch/1.5/
solr3.6:http://mirror.bjtu.edu.cn/apache/lucene/solr/3.6.0/
2,解压,bin/nutch需要添加可执行权限,执行后显示 Usage: nutch [-core] COMMAND
3,配置nutch:
conf/nutch-site.xml
创建文件夹urls,假如文件seed.txt,在文件内加入要爬取的网站:http://www.sina.com.cn/
修改conf/regex-urlfilter.txt末尾的+.为+^http://([a-z0-9]*\.)*sina.com.cn/
执行命令bin/nutch crawl urls -dir crawl -depth 3 -topN 5,生成
crawl/crawldb
crawl/linkdb
crawl/segments
4,在solr目录下找到example/start.jar,执行 java -jar start.jar
访问
http://localhost:8983/solr/admin/
http://localhost:8983/solr/admin/stats.jsp
5,复制nutch目录下conf/schema.xml到solr目录下example/solr/conf/,并加入:
<field name="text" type="text" stored="true" indexed="true"/>
确保重启solr不报错,否则加入<field name="content" type="text" stored="true" indexed="true"/>
6,索引刚刚使用nutch下载的文件:
bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*
7,边下载变索引命令:
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
8,访问http://localhost:8983/solr/admin/,这只是部分网页搜索的配置
更多详细内容参考:
http://www.cnblogs.com/skyme/archive/2012/06/13/2548239.html
分享到:
相关推荐
Nutch+solr + hadoop相关框架搭建教程
本项目是基于Apache Nutch和Solr开发的AJAX页面内容爬取与处理设计源码,主要使用Java进行开发。项目共包含1064个文件,其中Java源代码文件458个,XML配置文件181个,文本文件81个,HTML页面文件56个,JPG图片文件56...
基于Apache Nutch和Solr以及Htmlunit, Selenium WebDriver等组件扩展,实现对于AJAX加载类型页面的完整页面内容爬取、解析、清洗、持久化、全文检索等处理
Nutch 和 Solr (参见 ) 版本 1. 索尔 Solr 用于 8.5.1(或 7.3.1)版本wget http://archive.apache.org/dist/lucene/solr/8.5.1/solr-8.5.1.tgz 2. 阿帕奇纳奇 使用 Apache Nutch 版本 1.17(或 1.16)。 wget ...
nutch2.2.1安装步骤,需要自己下载以下软件: apache-ant-1.10.5-bin.tar.gz apache-nutch-2.2.1-src.tar.gz apache-tomcat-8.5.39.tar.gz jdk-8u201-linux-x64.tar.gz solr-4.10.3.zip
自己写的 hadoop nutch solr 环境搭建手册,成功搭建后写的,会有红色标注容易出错的地方
1.1 Solr 简介 1.1.1 Solr 的特性 1.1.2 Solr 的目录结构 1.1.3 Solr 与Lucene 关系 1.2 Solr 安装 1.2.1 环境介绍 1.2.2 安装Solr 1.2.3 结合Nutch
eclipse配置nutch,eclipse配置nutch
里面描述了Nutch的基本流程,Nutch与eclipse的结合,Nutch与Solr的结合
讲解如何安装JavaJDK1.8,以及如何选取Nutch,Solr,Hadoop,Hbase的版本,来搭建搜索引擎。
Nutch搜索引擎·Nutch简介及安装(第1期) Nutch搜索引擎·Solr简介及安装(第2期) Nutch搜索引擎·Nutch简单应用(第3期) Nutch搜索引擎·Eclipse开发配置(第4期) Nutch搜索引擎·Nutch浅入分析(第5期)
基于Apache Nutch 1.8和Htmlunit组件,实现对于AJAX加载类型页面的完整页面内容抓取解析。 According to the implementation of Apache Nutch 1.8, we can't get dynamic ...
1.1 环境准备 1.1.1 本期引言 1.1.2 环境介绍 1.1.3 JDK 安装配置 1.1.4 ANT 安装配置 1.1.5 IvyDE 安装配置 1.1.5 Tomcat 安装配置 1.1.6 Cygwin 安装配置 1.2 Eclipse 开发 ...1.2.3 Solr 与Nutch 结合
外,很多 Lucene 工具(如 Nutch、 Luke)也可以使用 Solr 创建的索引 Solr 的特性包括: 高级的全文搜索功能 专为高通量的网络流量进行的优化 基于开放接口(XML 和 HTTP)的标准 综合的 HTML 管理界面 可...
Solr是一个基于Lucene的Java搜索引擎服务器。Solr 提供了层面搜索、命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式)。...此外,很多 Lucene 工具(如Nutch、 Luke)也可以使用 Solr 创建的索引。
使用 Nutch 和 Solr 在 hadoop 上进行分布式 XSS fuzz 需要 纽扣 1.7 Solr 4.10.1(最新版本) Hadoop 1.2.1 设置 在使用 map-reduce 设置在 hadoop 上运行的 Nutch 设置 Solr: 从下载最新的 Solr 提取 Solr:...
OCR_FontsSearchEngine, 一种超立方体Nutch和PHP的OCR搜索引擎 Silex框架 ;thiagoalessio ;nutch1.10+solr4.10.4 ;``` shell
课程背景:Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,最大的区别在于2.X对...
基于开源搜索引擎工具(如Heritrix +Lucence,或Nutch+Solr),搭建独立完整的搜索引擎测试平台。 2)垂直搜索行业信息:自主选择某一感兴趣行业,抓取相关行业内容。以抓取结果作为数据库,建立垂直搜索引擎,实现...
Nutch 导入eclipse, 并且简单与solr整合。基本上是wiki上的内容,只是每个步骤后加了相应的图片。