nutch1.4+solr3.4的疑问，虚心求教的名言

点击联系发帖人 时间：2015-04-27 09:48

陈大惠向师父求教全集

org.apache.solr.client.solrj.impl.HttpSolrServer$RemoteSolrException: Document i的相关文章推荐 - 编程语言 - ITeye专栏频道
当在学习使用solr时，solr的环境搭建好后，在进行索引添加操作的时候可能会出现如下操作
org.apache.solr.client.solrj.impl.HttpSolrServer$RemoteSolrException: Document is missing mandatory uniqueKey field: id
这个问题的主要原因是你在添加时，没有添加对应的id字段，你在schema.xml中可以看到&uniqueKey&id&/uniqueKey&在250行左右，在添加时必须添加id字段，否则会报上述错误。
APDPlat充分利用Compass的OSEM和ORM integration特性，提供了简单易用且功能强大的内置搜索特性。
APDPlat的内置搜索，在设计简洁优雅的同时，还具备了强大的实时搜索能力，用户只需用注解的方式在模型中指定需要搜索哪些字段（还可在模型之间进行关联搜索）就获得了搜索能力，而不用编写任何代码。平台自动处理索引维护、查询解析、结果高亮等支撑功能。
然而APD ...
CommonsHttpSolrServer
CommonsHttpSolrServer 使用HTTPClient 和solr服务器进行通信。
String url = &http://localhost:8983/solr&;
SolrServer server = new CommonsHttpSolrServer( url );
高亮功能，一直是全文检索框架必备的一个功能，大大提高了用户界面的友好性，散仙在前面基于lucene的文章里，已经写过关于lucene中的高亮实现，那么，今天呢，我们就来看下如何使用solrj在solr中实现关键字高亮？
solr不愧是封装了lucene的企业级搜索引用，所有功能的实现都非常简单明了，在solr中关于高亮的实现一般有2种方式，第一种基于xml配置的方式，只需配置solrconifg.x ...
Solr 是一个可供企业使用的、基于 Lucene 的开箱即用的搜索服务器。对Lucene不熟？那么建议先看看下面两篇文档：&o:p&&/o:p&
实战Lucene，第 1 部分: 初识 Lucene：/developerworks/cn/java/j-lo-lucene1/&o:p&&/o:p&
用Lucene加速 ...
Apache Solr 3.4发布了。显然是为了配合Lucene 3.4而一起发布的。
Apache Solr是一个性能强大的，基于Lucene的全文搜索开源企业级搜索服务器，支持XML/HTTP、JSON APIs、命中结果突出显示、分面搜索（facet search）、缓存、复制和Web管理界面等诸多功能。Solr运行在Java servlet容器比如Tomcat中。 Solr 3.4主要改进 ...
Apache Solr 3.1发布了。它是继Solr 1.4.1发布之后的第一个版本，因为 Solr 与Lucene 版本号同步，因此在版本号上做了个跳跃。 Apache Solr是一个性能强大的，基于 Lucene 的全文搜索的开源企业级搜索服务器，拥有XML/HTTP,JSON APIs，hit highlighting, faceted search, caching, replicat ...
Apache软件基金会今天正式发布了Lucene 4.9和Solr 4.9版本。Apache Lucene是一个使用Java开发的高性能的全文检索引擎，Solr是基于Lucene的企业级搜索平台。
Lucene 4.9版本中的主要改进包括：新增了Terms.getMin/Max方法，用于检索每个字段中使用率最高和最低的项（term）新增了IDVersionPostingsFormat方法，优化 ...
Apache Solr 3.3 发布了。 Apache Solr 是一个开源的搜索服务器。Solr 使用 Java 语言开发，主要基于 HTTP 和 Apache Lucene 实现。Apache Solr 中存储的资源是以 Document 为对象进行存储的。每个文档由一系列的 Field 构成，每个 Field 表示资源的一个属性。Solr 中的每个 Document 需要有能唯一标识其自身的 ...
solrj的使用
solrj是一个java客户端访问solr，它定义了一个java接口来添加、修改、查询solr的索引。本页描述的solrj使用Solr释放包括1.4 x版本，
solrj/solr兼容性
基于lucene
Solr 主要特性有：强大的全文检索功能，高亮显示检索结果，动态集群，数据库接口和电子文档（Word，PDF等）的处理。而且 Solr 具有高度的可扩展，支持分布搜索和索引的复制
solr wiki :
http://wiki.apache.org/solr/FrontPage
二、jetty简易启动
cd D:\sorl\solr-4.6.0\examp ...
Solr的主要功能是全文检索，该功能分为两个过程：创建索引和对索引进行搜索；
在创建索引之前，需要重点关注两个配置文件：SOLR_HOME/collection1/conf/schema.xml(定义Document的结构类似定义DB的表结构) & solrconfig.xml(solr运行配置如请求如何被处理)；在Solr创建索引的过程中，每条数据被抽象成一个Do ...
&bean id=&httpSolrServer& class=&com.sillycat.easyhunter.plugin.solr.SolrServerFactory&&
&property name=&solrServerClassName& value=&org.apache.so ...
10:32:20 org.apache.solr.client.solrj.impl.HttpClientUtil createClient 信息: Creating new http client, config:maxConnections=128&maxConnectionsPerHost=32&followRedirects=false Exception ...
首先有一点是很奇怪的同样的环境和代码在我电脑上是会有以上问题的结果我移动到同学电脑上他那边可以正常运行通过代码如下:
public static void index() throws SolrServerException, IOException { String url = &http://localhost:8080/solr&; HttpSolrServe ...
package com.hoo. import java.io.F import java.io.IOE import org.apache.solr.client.solrj.SolrS import org.apache.solr.client.solrj.SolrServerE import org.apache.solr.cl ...
nutch1.4+solr3.4
bin/nutch crawl urls -dir crawl -solr http://10.8.1.100/solr -depth 3 -topN 100
问题1：抓取论坛的帖子内容，抓来的title，是统一格式的：文章标题_板块名_论坛名现在想要搜索时，仅搜索“文章标题”这块，能在solrj查询的时候通过设置查询语句来解决吗？我想到的办法是修改Sol ...
刚学solr。我看有的人这么写indexed = true ,stroed=false，还有人写indexed=false,stored=true，我有点不明白，可以索引，为什么不存储呢？那有一篇文章，有10万字，设置为indexed = true ,stroed=false，那占不占空间啊？说到底，还是不明白index和store的意思
首先自己保证你的tomcat能跑起来。第一步：在tomcat的conf目录下新建Catalina目录，在Catalina目录下新建localhost目录，在localhost目录下新建solr.xml solr.xml内信息如下： &Context docBase=&/Volumes/mac_2/data/apache-solr-1.4.0.war& debug=&quo ...
solr新手来提问题了！各位大哥在solr1.3种org.apache.solr.client.solrj.response.FacetField这个类是如何使用的呀！
因为项目每天的索引文件是增量的，所以考虑用solr的分布式查询。但是在试验的时候发现一个奇怪的问题，我一共开了3个tomcat用来模拟3个服务器同样的请求参数wt=javabin,version=1,q=content:哈利主服务报错如下 Internal Server Error request: http://localhost:8080/solr/select?q=content:哈利 ...
Solr 是一个可供企业使用的、基于 Lucene 的开箱即用的搜索服务器。对Lucene不熟？那么建议先看看下面两篇文档：&o:p&&/o:p& 实战Lucene，第 1 部分: 初识 Lucene：/developerworks/cn/java/j-lo-lucene1/&o:p&&/o:p& 用Lucene加速 ...
公司重心转移，不再是搜索。所以比较有空写写博。
solr是lucene的企业级扩展，很好很强大。solr的性能 http://wiki.apache.org/solr/SolrPerformanceData，现在使用solr的网站 http://wiki.apache.org/solr/PublicServers
我习惯使用tomcat，安装参考：http://wiki.apache ...
书名：深入理解Android:卷I
作者：邓凡平 ISBN：9 定价：69.00元出版社：机械工业出版社华章公司 China-pub：http://product./198566
内容简介：
全书共10章，第1章介绍了阅读本书所需要做的准备工作，主要包括对Android系统架构和源码阅读方法的介绍；第2章通过对Android系统中的Med ...
MultiPageEditorPart datasource.xml did not propogate selection for datasource.xml 在插件运行的时候，有时候会出现这样的警告信息，但是没有抛出异常，这个一般是系统把异常捕获，然后以其他的方式对异常进行了处理 emf model加载可能发生异常，一般从org.eclipse.emf.ecore.xmi.impl.XMLLo ...【疑问】求教下我应该学哪一门AP捏…_ap吧_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名：今日本吧第个签到，本吧因你更精彩，明天继续来努力！
本吧签到人数：0成为超级会员，使用一键签到本月漏签0次！成为超级会员，赠送8张补签卡连续签到：天&&累计签到：天超级会员单次开通12个月以上，赠送连续签到卡3张
关注：7,987贴子：
【疑问】求教下我应该学哪一门AP捏…收藏
我是2019er…申请基本已经提交完了，但还没拿到offer。我的专业是数学或者应用数学，另外还想double一个心理… 求各位大神告诉我应该学哪几门呢。
还有就是，AP是不是必须在一月就报名？忘记在哪里看到的了=_=
自己顶顶T^T
1月19开始社会考生报名。可以学下面的：微积分，统计，两门经济，地理，环境，心理学。当然是选几门不是全学。再有问题请移步《2015官方答疑帖》谢谢。
跟楼主很像！我主申工程但也喜欢心理…
登录百度帐号推荐应用
为兴趣而生，贴吧更懂你。或查看: 2619|回复: 7
求教关于大汉泥炭土各型号的疑问
新人一个以前看二木博客一直舍弃泥炭土用椰糠
最近发现我用椰糠种多肉和同事用含泥炭土的混合土明显同事的种的好
一样的环境一样的盆一样的品种
所以考虑换用泥炭土
不过大汉泥炭土品种非常多我又想趁有机会把所有的肉全换了所以希望能了解下大汉土品种哪个适合多肉
我看了写帖子有些是适合育苗甚至有些是养鱼的所以有点混乱了
请高手指点下或者有什么帖子可以学习
我的是别人给我买的&&我也不知道
很多淘宝店有卖店主配好的多肉土，也不贵的。普通育苗用发发得泥炭比较好。
多肉原生地也没用泥炭，不是你是否用泥炭就能养好。
楼主考虑其他因素吧。
据说，大汉422比较适合，纤维的长短适合一般多肉的盆，如果盆大的话，414的粗纤维比较合适。
据说，大汉422比较适合，纤维的长短适合一般多肉的盆，如果盆大的话，414的粗纤维比较合适。
本公司（广东顺达）大量生产的、营养土《泥炭土》大量出售。
泥炭土。它的主要作用是起“宣土”作用，种植花奔树木的时候一起施入种植
，可以起到宣土的作用，使根系生长发达。对于种植最关键的是给予它根源的是营养土（泥炭土有机质 100%55.2营养成份有姑料、木糠、米糠、麦糠等多种原料腐植而成.花奔园林类通用）
顺达产品营养土特点五；
一、由天然草本木质纤维花奔栽培植料；
二、添加适量营养元素；
三、PH植5.8-6.5EC值0.3-0.7MSICM,适宜树木花奔生长；
四、经高温蒸煮消毒，无病原菌，无线虫；干净环保；
五、质轻，疏松，透气，保肥，排水性能好。
联系电话容小姐
422 和 414 都是蓝色包装，一个粗，一个细。我觉得用细的好。
Powered bynutch1.4+solr3.4
bin/nutch crawl urls -dir crawl -solr http://10.8.1.100/solr -depth 3 -topN 100
问题1：
抓取论坛的帖子内容，抓来的title，是统一格式的：文章标题_板块名_论坛名
现在想要搜索时，仅搜索“文章标题”这块，能在solrj查询的时候通过设置查询语句来解决吗？
我想到的办法是修改SolrWriter类，修改抓来的title内容，仅保留文章标题。
但这样出现问题了，修改后的SolrWriter打包后，运行抓取，就会报各种错误。例如：url不是多值但出现了多值；非空字段id、url为空等等。我把未修改的源码打包放上去运行都会报错！只有用原来jar包运行抓取就不会报错……
问题2：
服务器设置了http认证，访问http://10.8.1.100/solr需要输入用户名密码。我在nutch目录也修改了配置文件nutch-site.xml，solr.auth改为true，然后加了2个属性：solr.auth.username和solr.auth.password，抓取之后向solr提交索引也报错！用户名密码都取到了，也拼写正确。
&property&
&name&solr.auth&/name&
&value&true&/value&
&description&
Whether to enable HTTP basic authentication for communicating with Solr.
Use the solr.auth.username and solr.auth.password properties to configure
your credentials.
&/description&
&/property&
&property&
&name&solr.auth.username&/name&
&value&nutch&/value&
&/property&
&property&
&name&solr.auth.password&/name&
&value&&/value&
&/property&
下面是错误日志：
SolrIndexer: starting at
Authenticating as: nutch
Adding 500 documents
java.io.IOException: Job failed!
SolrDeleteDuplicates: starting at
SolrDeleteDuplicates: Solr url: http://10.8.1.100/solr
Exception in thread "main" java.io.IOException: org.apache.solr.client.solrj.SolrServerException: Error executing query
at org.apache.nutch.indexer.solr.SolrDeleteDuplicates$SolrInputFormat.getSplits(SolrDeleteDuplicates.java:200)
at org.apache.hadoop.mapred.JobClient.writeOldSplits(JobClient.java:810)
at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:781)
at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:730)
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1249)
at org.apache.nutch.indexer.solr.SolrDeleteDuplicates.dedup(SolrDeleteDuplicates.java:374)
at org.apache.nutch.indexer.solr.SolrDeleteDuplicates.dedup(SolrDeleteDuplicates.java:354)
at org.apache.nutch.crawl.Crawl.run(Crawl.java:153)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)
Caused by: org.apache.solr.client.solrj.SolrServerException: Error executing query
at org.apache.solr.client.solrj.request.QueryRequest.process(QueryRequest.java:95)
at org.apache.solr.client.solrj.SolrServer.query(SolrServer.java:118)
at org.apache.nutch.indexer.solr.SolrDeleteDuplicates$SolrInputFormat.getSplits(SolrDeleteDuplicates.java:198)
... 9 more
Caused by: org.mon.SolrException: Internal Server Error
Internal Server Error
request: http://10.8.1.100/solr/select?q=id:[* TO *]&fl=id&rows=1&wt=javabin&version=2
at org.apache.solr.client.monsHttpSolrServer.request(CommonsHttpSolrServer.java:430)
at org.apache.solr.client.monsHttpSolrServer.request(CommonsHttpSolrServer.java:244)
at org.apache.solr.client.solrj.request.QueryRequest.process(QueryRequest.java:89)
... 11 more
请求各位指点迷津！
因为url不是多值但出现了多值；非空字段id、url为空等等即url是唯一字段；
因此在新增前应该是先根据唯一键查如果有修改，，否则新增；
或者先查存在老的删除，然后新增；
已解决问题
未解决问题}

杰西卡呢吗信息网