猜您喜欢:
Jcseg是一款专业实用的轻量级Java中文分词工具,提供关键词提取和文章自动摘要等功能,并且拥有一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供最新版本的lucene,solr和elasticsearch的搜索分词接口。感兴趣的小伙伴们赶快来非凡软件站下载吧!
Jcseg核心功能:
中文分词:mmseg算法 + Jcseg 独创的优化算法,七种切分模式。
关键字提取:基于textRank算法。
关键短语提取:基于textRank算法。
关键句子提取:基于textRank算法。
文章自动摘要:基于BM25+textRank算法。
自动词性标注:基于词库+(统计歧义去除计划),目前效果不是很理想,对词性标注结果要求较高的应用不建议使用。
命名实体标注:基于词库+(统计歧义去除计划),电子邮件,网址,大陆手机号码,地名,人名,货币,datetime时间,长度,面积,距离单位等。
Restful api:嵌入jetty提供了一个绝对高性能的server模块,包含全部功能的http接口,标准化json输出格式,方便各种语言客户端直接调用。
Jcseg中文分词:
七种切分模式:
简易模式:FMM算法,适合速度要求场合。
复杂模式:MMSEG四种过滤算法,具有较高的歧义去除,分词准确率达到了98.41%。
检测模式:只返回词库中已有的词条,很适合某些应用场合。
最多模式:细粒度切分,专为检索而生,除了中文处理外(不具备中文的人名,数字识别等智能功能)其他与复杂模式一致(英文,组合词等)。
分隔符模式:按照给定的字符切分词条,默认是空格,特定场合的应用。
NLP模式:继承自复杂模式,更改了数字,单位等词条的组合方式,增加电子邮件,大陆手机号码,网址,人名,地名,货币等以及无限种自定义实体的识别与返回。
n-gram模式:CJK和拉丁系字符的通用n-gram切分实现。
分词功能特性:
支持自定义词库。在lexicon文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类。
支持词库多目录加载. 配置lexicon.path中使用';'隔开多个词库目录.
词库分为简体/繁体/简繁体混合词库: 可以专门适用于简体切分, 繁体切分, 简繁体混合切分, 并且可以利用下面提到的同义词实现,简繁体的相互检索, Jcseg同时提供了词库两个简单的词库管理工具来进行简繁体的转换和词库的合并。
中英文同义词追加/同义词匹配 + 中文词条拼音追加.词库整合了《现代汉语词典》和cc-cedict辞典中的词条,并且依据cc-cedict词典为词条标上了拼音,依据《中华同义词词典》为词条标上了同义词(尚未完成)。更改jcseg.properties配置文档可以在分词的时候加入拼音和同义词到分词结果中。
中文数字和中文分数识别,例如:"一百五十个人都来了,四十分之一的人。"中的"一百五十"和"四十分之一"。并且 Jcseg会自动将其转换为阿拉伯数字加入到分词结果中。如:150, 1/40。
支持中英混合词和英中混合词的识别(维护词库可以识别任何一种组合)。例如:B超, x射线, 卡拉ok, 奇都KTV, 哆啦a梦。
支持英文的类中文切分,同样使用mmseg算法来消除歧义,例如:“openarkcompiler”会被切分成:“open ark compiler”,该功能也可以被关闭。
更好的拉丁支持,电子邮件,域名,小数,分数,百分数,字母和标点组合词(例如C++, c#)的识别。
自定义切分保留标点. 例如: 保留&, 就可以识别k&r这种复杂词条。
复杂英文切分结果的二次切分: 可以保留原组合,同时可以避免复杂切分带来的检索命中率下降的情况,例如QQ2013会被切分成: qq2013/ qq/ 2013, chenxin619315@gmail.com会被切分成: chenxin619315@gmail.com/ chenxin/ 619315/ gmail/ com。
支持阿拉伯数字/小数/中文数字基本单字单位的识别,例如2012年,1.75米,38.6℃,五折,并且 Jcseg会将其转换为“5折”加入分词结果中。
智能圆角半角, 英文大小写转换。
特殊字母识别:例如:Ⅰ,Ⅱ;特殊数字识别:例如:①,⑩。
配对标点内容提取:例如:最好的Java书《java编程思想》,‘畅想杯黑客技术大赛’,被《,‘,“,『标点标记的内容。(1.6.8版开始支持)。
智能中文人名/外文翻译人名识别。中文人名识别正确率达94%以上。(中文人名可以维护lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex来提高准确率),(引入规则和词性后会达到98%以上的识别正确率)。
自动中英文停止词过滤功能(需要在jcseg.properties中开启该选项,lex-stopwords.lex为停止词词库)。
词库更新自动加载功能, 开启一个守护线程定时的检测词库的更新并且加载(注意需要有对应词库目录下的的lex-autoload.todo文件的写入权限)。
自动词性标注(目前基于词库)。
自动实体的识别,默认支持:电子邮件,网址,大陆手机号码,地名,人名,货币等;词库中可以自定义各种实体并且再切分中返回。
以上就是非凡小编为大家带来的Jcseg(Java中文分词器)下载,想要了解更多实用工具类软件就请多多关注非凡软件站吧~
关键词优化 本关键词优化专题相对于其它关键词优化相关专题来说,所提供的关键词优化软件主要针对新更新的关键词优化工具;以确保软件的可用性及实用性。
秋天搜索关键词分析师v1.56 秋天搜索关键词分析师,查询搜索引擎推广商家关联关关键字数量,...详情>>
Keyword Surferv0.3.11 Keyword Surfer 能够帮助用户在谷歌搜索中更好地...详情>>
酷狗k歌为大家提供的听歌服务都是很优质的,还能能够随时随地在线唱歌,所有的音乐自由都是很全面的,支持一键消除原唱,本期小编给大家带来了详细的操作攻略,有想知道的朋友千万不要错过!酷狗k歌消除原唱方法介绍在页面里点击上方的“我要唱”进入后找到想要演唱的歌曲,然后点击右边的“K歌”进入后点击下方蓝色的“开始K歌”在下方菜单栏的可以看到,最左侧的“原唱”是亮起的,代表现在开启了原唱点击一下,变成了“智能
想要在贵州享受购物优惠?一码贵州APP是您的好帮手!这里不定期发放各种消费券,从餐饮、购物到家电,覆盖生活方方面面。只需下载一码贵州APP,进入活动页面,根据提示操作就能轻松领取消费券。本文将教您简单几步获取优惠,让日常生活更省钱,一起来看看吧!一码贵州在哪领消费券进入一码贵州界面点击以旧换新进入多彩贵州欢乐购以旧换新美生活界面点击立即申领补贴进入领券界面找到要购买的设备点击立即领取进入提示界面点
智行火车票是一款高效好用的手机线上出行订票软件,所有的行程都能够自定义更改,还可以在线买机票办理值机,本期小编给大家带来了详细的操作攻略,有想知道的朋友千万不要错过!智行火车票办理值机方法介绍首先打开手机中的智行火车票APP,登录之后进入首页,然后输入自己乘坐车的起始点和终点站,选择日期,最后点击查询会有不同时间的车次,选择有票的点击一下选好之后点击后面的预定添加乘车人的信息之后就可以选择座位了,
网易UU加速器是一款专业的网络加速工具,旨在为玩家提供稳定、流畅的游戏网络环境。那么,你知道网易UU加速器是怎么设置禁用模式的吗?小编这里整理了些相关资料,有需要的小伙伴可以前来看看。网易UU加速器模式切换方法介绍第一步:在UU加速器的主界面或菜单中,找到并点击“设置”按钮。这个按钮通常位于界面的右上角或底部菜单中。第二步:在设置页面中,找到并点击“系统设置”或类似的选项。这个选项通常包含了与加速
Steam是一个广受欢迎的数字游戏分发平台,提供大量的游戏购买、下载、管理以及社交功能。那么,想要在Steam上绑定手机号以增加账户的安全性并方便找回密码等操作,应该如何进行呢?小编这里整理了些相关资料,有需要的小伙伴可以前来看看。Steam绑定手机号步骤一览第一步:双击Steam图标,运行Steam软件。输入自己的账号和密码,登录Steam账户。第二步:登录成功后,进入Steam主界面。点击顶部
飞书是一款集即时通讯、在线协作、项目管理等功能于一体的企业级应用,旨在为企业提供高效、便捷的办公体验。那么,在使用飞书app时,我们该如何设置时间提醒呢?小编这里整理了些相关资料,快来和我一起看看吧!飞书时间提醒设置方法介绍1、首先打开飞书软件。2、然后点击工具栏的工作台按钮。3、最后点击飞书提醒选项开启提醒时间。以上就是今天分享的飞书怎么设置时间提醒的内容了,想要了解更多热门资讯教程就来非凡软件
本站所有资源(含游戏)均是软件作者、开发商投稿,任何涉及商业盈利目的均不得使用,否则产生的一切后果将由您自己承担!本站将不对任何资源负法律责任,所有资源请在下载后24小时内删除。
如侵犯了您的版权、商标等,请立刻联系我们并具体说明情况后,本站将尽快处理删除,联系
(版权说明注意事项)。若有关在线投稿、无法下载等问题,请与本站客服人员联系
!
用户可自行按线路选择相应的下载点,可以直接点击下载/另存为,若直接点击下载速度太慢,请尝试使用高速下载器。为确保下载的文件能正常使用,请使用WinRAR最新版本解压本站软件。
建议大家谨慎对待所下载的文件,大家在安装的时候务必留意每一步!关于360安全卫士或QQ电脑管家的有关提示,请自行注意选择操作。