要做中文文本信息抽取，有人给指点下么_Node.js_论坛

要做中文文本信息抽取，有人给指点下么

驱***森分类：Node.js 人气：755 回帖：2 发布于6年前收藏

最近有个项目需要解析中文文本（格式特征较模糊），解析出一些关键的信息和内容入库
我现在用的是nodejs+ICTCLAS（一个分词插件）
可是单单凭一个分词插件，对于一些存在着分歧的词语，感觉有点力不从心。
之前也百度和google了一些资料，都是在讲各种算法（@_@）
不知道大家在做这块东西的时候都是用什么方法做的，希望大家来讨论讨论，或者有一些开源的案例可以分享出来研究研究。

标签：中文分词信息抽取 node.js

讨论这个帖子（2）垃圾回帖将一律封号处理……

Lv1 新人

袜***了 PHP开发工程师 6年前#1

谢邀。不过很遗憾，像俺这样的菜鸟能把现有的开源分词库用好就不错了，实在没啥更深入的见解。再加上我日常的工作和语料分析沾不上边，所以经验也匮乏。且邀请其他大神来为做精彩回答吧！

我印象里还能想起来的资源是曾经在知乎上看到的类似问题，在答案里有很多干货，分享给你做进一步参考：http://www.zhihu.com/question/19578687

Lv5 码农

me***20 技术总监 6年前#2

简单的中文分词定制类似IKAnalyzer这样的开源库就可以，但是对于要处理歧义，共指，上下文推理之类的需要重量级的框架，可以考虑用斯坦福的GATE NLP框架。

我一直在用GATE进行中文分词标注工作，主要涉及文本过滤清洗，本体识别这些，在GATE中的以PR（语言处理资源）拼装pipeline（管道）进行标注，主要用到
1）Gazetteer词典标注；
2）JAPE标注模式引擎，基于正规表达式编写规则，通过这些规则来进行较准确的命名实体识别；
3）根据业务需要Java编码定制PR对标注结果进行拓扑分析；

文明上网，理性发言！ 😉 阿里云幸运券，戳我领取