Ubuntu环境下nutch集成HBase

nutch集成HBase

(详见:http://duguyiren3476.iteye.com/blog/2085973 )

1. 修改nutch的hbase配置

//将自己的hbase配置copy到nutch配置中
cp /home/hbase/conf/hbase-site.xml /home/nutch/conf/  

 

2. 使用hbase0.92.2-jar代替原来的hbase文件(在/home/nutch/runtime/local/lib中)

原因:(我使用的hbase时0.94.25)

nutch自带的gora3.0只能最高支持hbase0.92,默认的是hbase0.90

如果使用默认的hbase0.90操作自己安装的hbase0.94,报错:

java.lang.IllegalArgumentException: Not a host:port pair 

 如果直接使用hbase0.94操作自己安装的hbase0.94,报错:

java.lang.NoSuchMethodError:org.apache.hadoop.hbase.HColumnDescriptor.setMaxVersions(I)V  

 解决办法:

使用0.92.2hbase的jar文件

 

3. 抓取

  (1)设置抓取地址

cd runtime/local/  
mkdir -p urls  
sudo gedit urls/seed.txt   

 在seed中填入你要抓取的地址:比如:http://www.apache.org/

  (2)将urls放到hdfs系统中

hadoop fs -copyFromLocal urls /home/hadoop/urls  

   (3)运行nutch,并把结果放到hbase

nutch inject /home/hadoop/urls

   (4)查看hbase

hbase shell

//进入shell后
list

 如果出现 “webpage” 则成功。

  (5)

nutch  generate -topN 3  
nutch fetch -all  
nutch parse -all  
nutch updatedb  

   (6)进入hbase查询

 

郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。