业界动态
大数据工具:IKAnalyzer分词工具介绍与使用
2024-11-01 12:12

简介

大数据工具:IKAnalyzer分词工具介绍与使用

为什么要分词呢,当大数据处理中要提取语句的特征值,进行向量计算。所有我们要用开源分词工具把语句中的关键词提取出来。

IK Analyzer是什么呢,就是我们需要的这个工具,是基于java开发的轻量级的中文分词工具包。它是以开源项目Luence为主体的,结合词典分词和文法分析算法的中文分词组件。IK有很多版本,在2012版本中,IK实现了简单的分词歧义排除算法。

我们为什么选择IK作为我们的分词工具呢,这里我们简单介绍一下。这里我们采用了网上的一些介绍。

1、IK才用了特有的“正向迭代最细粒度切分算法”,支持细粒度和智能分词两种切分模式。

2、在系统环境:Core2 i7 3.4G双核,4G内存,window 7 64位, Sun JDK 1.6_29 64位 普通pc环境测试,IK2012具有160万字/秒(3000KB/S)的高速处理能力。

3、2012版的只能分词模式支持简单的分词排歧义处理和数量词合并输出。

4、用了多子处理器分析模式,支持 英文字母 数字 中文词汇等

5、优化词典存储,更小的内存占用。

IK的引入使用

在pom.xml中加入如下配置即可

IK的两个重要词典

扩展词典:为的是让需要切分的字符串的词语 根据扩展词典里的词,不要切分开来。

例如:扩展词典中有:中国的中国台湾 。那么原本会切分成:中国 的 中国台湾 在 东海 。会切分成:中国的中国台湾 在 东海

停止词典:对比停止词典,直接删掉停止词典中出现的词语

IK的使用

项目:maven工程

resource目录下三个配置文件

测试

    以上就是本篇文章【大数据工具:IKAnalyzer分词工具介绍与使用】的全部内容了,欢迎阅览 ! 文章地址:http://www.gawce.com/news/9142.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 阁恬下移动站 http://22pru.gawce.com/ , 查看更多   
最新新闻
《与凤行》热度回落 仙侠剧的九重天已撑不起“85花”
图片为《与凤行》公开发布物料□楚天都市报极目新闻记者 付瞰开播日占据热搜榜“半壁江山”的词条,剧集前、后、中插入的大量贴
凡家荣儿视频号周年庆,凡达助阵直播间,风华清泉荣升70级
7月7日,凡家荣儿视频号直播周年庆典,当天热度1400多万,场观18万人次,在线人数突破2万。要知道这位女主播可是众多头部主播们
十月去哪里自驾游最好?10月份去哪里旅游最好
  十月去哪旅游最好,十月是最适合旅游的季节,我们可以选择青海湖、云南、东北、江西庐山、北京香山、西安古城等这些地方,它
云南6天5晚游最佳路线,云南6日游之旅精华路线分享!
  云南是无数人心中的旅行圣地!那里有诗情画意的丽江古城,有永恒宁静的泸沽湖,有风花雪月的洱海...这些美丽的景色无一不让
SEO供应商:为您的网站引流和排名提供服务
  作为现代企业的主要宣传途径之一,网站的优化和推广至关重要。供应商seo供应商是为网站提供搜索引擎优化(SEO)服务的专业机
在小红书,上个月悄咪咪赚了20w
11月5号晚上7点半,我会做一场小红书买手时代解析直播——有兴趣的小伙伴赶紧预约哦10月初,被小红书官方受邀去了汕头小红书澄海
图书管理系统
第4章 网站测试4.1 测试目的软件测试就是在软件投入运行前,对软件需求分析、设计规格说明书和编码的最终复审,是软
我是知乎@银角大仙人,专注数码领域干货分享
固态硬盘颗粒(NAND-Flash)厂商介绍介绍固态硬盘品牌排名之前有必要先介绍下固态硬盘颗粒(NAND-Flash)的生产厂商,因为颗粒的
mysql——cmd进入mysql及常用的mysql操作[通俗易懂]
大家好,又见面了,我是你们的朋友全栈君。cmd进入mysql操作win+R,输入cmd,打开cmd窗口,进入到 mysql bin目录的路径下第一步
力量训练你抓住“核心”了吗?
  原标题:力量训练你抓住“核心”了吗?  来源:中国体育报  核心力量在我们日常的运动中起着至关重要的作用。经常运动的
本企业新闻
推荐企业新闻