使用的版本是IKAnalyzer2012FF_u1,该版本与Lucene 4.x是适配的
public static void test1() throws IOException { String keyWord = "IKAnalyzer的分词效果到底怎么样呢,我们来看一下吧如果您不能或不想为自己的网站所链接的网页" + "内容提供担保(例如,不可信赖的用户评论或留言板条目),则应该对这些链接使用nofollow。这可以阻止垃圾" + "内容发布者定位您的网站,并且有助于防止您的网站无意中将PageRank传送给网络上的“恶邻”。尤其是,如果垃圾" + "评论发布者发现不受信赖的链接在服务中没有被跟踪,就可能决定不定位相应的内容管理系统或博客服务。如果您希望" + "认可并奖励可靠的内容提供者,那么,对于始终如一地提供高质量内容的成员或用户所发布的链接,您可以决定自动删除" + "或手动删除其中的nofollow属性。付费链接:网站在Google搜索结果中的排名部分取决于对链接到该网站的其他网站" + "的分析。为了防止付费链接影响搜索结果并对用户产生不利影响,我们建议网站管理员对此类链接使用nofollow。" + "搜索引擎指南要求按照在线和离线客户所希望的付费关系公布方式,以机器可读取的方式公布付费链接(例如,整页的" + "报纸广告可能采用“广告”标题)"; // 创建IKAnalyzer中文分词对象 // IKAnalyzer analyzer = new IKAnalyzer(); // 使用智能分词 // analyzer.setUseSmart(true); // 打印分词结果 IKSegmenter ikseg = new IKSegmenter(new StringReader(keyWord), true); Lexeme lex = null; while (null != (lex = ikseg.next())) { System.out.print(lex.getLexemeText() + "|"); } System.out.println(); } public static void main(String[] args) throws IOException { test1(); }
IKAnalyzer.cfg.xml
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties> <comment>IK Analyzer 扩展配置</comment> <!--用户可以在这里配置自己的扩展字典 --> <entry key="ext_dict">ext.dic;</entry> <!--用户可以在这里配置自己的扩展停止词字典 --> <entry key="ext_stopwords">stopword.dic;</entry> </properties>
ext.dic(UTF8 无BOM格式编码)
内容提供者 高质量内容 Google搜索 内容管理系统
stopword.dic
还没用上
遇到的问题,当修改ext.dic,每次运行貌似还是原先的结果,一定要把
IKAnalyzer.cfg.xml 配置文件里的ext.dic;改成/ext.dic 运行一遍,再改回来ext.dic就行了,很奇怪的一个问题。。。
不用ext.dic的结果
ikanalyzer|分词|效果|到底|怎么样|呢|我们|来看|一下|吧|如果您|不能|或|不|想为|自己|网站|所|链接|网页|内容|提供|担保|例如|不可|信赖|用户|评论|或|留言板|条目|则|应该|对|这些|链接|使用|nofollow|这|可以|阻止|垃圾|内容|发布者|定位|您|网站|并且|有助于|防止|您|网站|无意|中将|pagerank|传|送给|网络|上|恶|邻|尤其是|如果|垃圾|评论|发布者|发现|不受|信赖|链|接在|服务|中|没有|被|跟踪|就可能|决定|不定|位|相应|内容管理|系统|或|博客|服务|如果您|希望|认可|并|奖励|可靠|内容|提供者|那么|对于|始终如一|地|提供|高质量|内容|成员|或|用户|所|发布|链接|您|可以|决定|自动|删除|或|手动|删除|其中|nofollow|属性|付费|链接|网|站在|google|搜索|结果|中|排名|部分|取决于|对|链|接到|该|网站|其他|网站|分析|为了|防止|付费|链接|影响|搜索|结果|并|对|用户|产生|不利|影响|我们|建议|网站|管理员|对|此类|链接|使用|nofollow|搜索引擎|指南|要求|按照|在线|和|离线|客户|所|希望|付费|关系|公布|方式|以|机器|可|读取|方式|公布|付费|链接|例如|整页|报纸广告|可能|采用|广告|标题|
使用ext.dic的结果
ikanalyzer|分词|效果|到底|怎么样|呢|我们|来看|一下|吧|如果您|不能|或|不|想为|自己|网站|所|链接|网页|内容|提供|担保|例如|不可|信赖|用户|评论|或|留言板|条目|则|应该|对|这些|链接|使用|nofollow|这|可以|阻止|垃圾|内容|发布者|定位|您|网站|并且|有助于|防止|您|网站|无意|中将|pagerank|传|送给|网络|上|恶|邻|尤其是|如果|垃圾|评论|发布者|发现|不受|信赖|链|接在|服务|中|没有|被|跟踪|就可能|决定|不定|位|相应|内容管理系统|或|博客|服务|如果您|希望|认可|并|奖励|可靠|内容提供者|那么|对于|始终如一|地|提供|高质量内容|成员|或|用户|所|发布|链接|您|可以|决定|自动|删除|或|手动|删除|其中|nofollow|属性|付费|链接|网|站在|google搜索|结果|中|排名|部分|取决于|对|链|接到|该|网站|其他|网站|分析|为了|防止|付费|链接|影响|搜索|结果|并|对|用户|产生|不利|影响|我们|建议|网站|管理员|对|此类|链接|使用|nofollow|搜索引擎|指南|要求|按照|在线|和|离线|客户|所|希望|付费|关系|公布|方式|以|机器|可|读取|方式|公布|付费|链接|例如|整页|报纸广告|可能|采用|广告|标题|
相关推荐
IKAnalyzer中文分词,计算句子相似度
IKAnalyzer中文分词器,里面包含jar包和使用手册
IKAnalyzer非常易用的java分词工具。可以自定义扩展词汇。 这个是一个完整的java项目demo。直接可以用,不用再去google下载了。添加了几个自定义词汇,测试好用。 运行ika.java里的main方法即可
IKAnalyzer继承Lucene的Analyzer抽象类,使用IKAnalyzer和Lucene自带的分析器方法一样,将Analyzer测试代码改为IKAnalyzer测试中文分词效果。 如果使用中文分词器ik-analyzer,就需要在索引和搜索程序中使用一致的...
IK-Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包,也就是可以将一串中文字符分割成一个个的词组或者字词 文件中包含分词工具 ikanalyzer-2012_u6.jar 中文分词配置 IKAnalyzer.cfg..xml
IKAnalyzer中文分词器V3.1.1使用手册 IKAnalyzer中文分词器V3.1.1使用手册
提示:IKAnalyzer中文分词器支持Lucene6.0以上,IKAnalyzer中文分词器支持Lucene6.0以上。
IKAnalyzer 中文分词器V3.2使用手册 lucene
IK Analyzer 安装包 它的安装部署十分简单,将IKAnalyzer3.oGA.jar 部署于项目的lib目录中;
IKAnalyzer中文分词器v2012使用手册,中文文档,带书签
IKAnalyzer中文分词器,里面包含jar包,html文档,pdf文档以及源码
IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。
IK Analyzer 是一个开源的,基于java 语言开发的轻量级的中文分词工具包。从2006 年12 月推出1.0 版开始, IKAnalyzer 已经推出了3 个大版本。最初,它是以开源项目 Luence 为应用主体的,结合词典分词和文法分析...
由于林良益先生在2012之后未对IKAnalyzer进行更新,后续lucene分词接口发生变化,导致不可使用,所以此jar包支持lucene6.0以上版本
文件目录: doc IKAnalyzer2012FF_u1.jar IKAnalyzer.cfg.xml IKAnalyzer中文分词器V2012_FF使用手册.pdf LICENSE.txt NOTICE.txt
Lucene4.7+IK Analyzer中文分词入门教程
IKAnalyzer中文分词器本身已经不支持最新的solr 5,集成到solr中分词会报错,这里将解决了solr 5支持问题的最新IK包共享出来,希望能帮到各位! 附上IK在schema.xml中的配置: <fieldType name="text_ik" class=...