素材牛VIP会员
要做中文文本信息抽取,有人给指点下么
 驱***森  分类:Node.js  人气:755  回帖:2  发布于6年前 收藏

最近有个项目需要解析中文文本(格式特征较模糊),解析出一些关键的信息和内容入库
我现在用的是nodejs+ICTCLAS(一个分词插件)
可是单单凭一个分词插件,对于一些存在着分歧的词语,感觉有点力不从心。
之前也百度和google了一些资料,都是在讲各种算法(@_@)
不知道大家在做这块东西的时候都是用什么方法做的,希望大家来讨论讨论,或者有一些开源的案例可以分享出来研究研究。

讨论这个帖子(2)垃圾回帖将一律封号处理……

Lv1 新人
袜***了 PHP开发工程师 6年前#1

谢邀。不过很遗憾,像俺这样的菜鸟能把现有的开源分词库用好就不错了,实在没啥更深入的见解。再加上我日常的工作和语料分析沾不上边,所以经验也匮乏。且邀请其他大神来为做精彩回答吧!

我印象里还能想起来的资源是曾经在知乎上看到的类似问题,在答案里有很多干货,分享给你做进一步参考:http://www.zhihu.com/question/19578687

Lv5 码农
me***20 技术总监 6年前#2

简单的中文分词定制类似IKAnalyzer这样的开源库就可以,但是对于要处理歧义,共指,上下文推理之类的需要重量级的框架,可以考虑用斯坦福的GATE NLP框架。

我一直在用GATE进行中文分词标注工作,主要涉及文本过滤清洗,本体识别这些,在GATE中的以PR(语言处理资源)拼装pipeline(管道)进行标注,主要用到
1)Gazetteer词典标注;
2)JAPE标注模式引擎,基于正规表达式编写规则,通过这些规则来进行较准确的命名实体识别;
3)根据业务需要Java编码定制PR对标注结果进行拓扑分析;

 文明上网,理性发言!   😉 阿里云幸运券,戳我领取