作者 |
再来篇搜索的,兼回小周。中文搜索的分词技术 演示 |
|
所跟贴 |
再来篇搜索的,兼回小周。中文搜索的分词技术 演示 -- 不说难受 - (172 Byte) 2005-8-19 周五, 01:04 (2142 reads) |
tutu [博客] [个人文集]
头衔: 海归准将 声望: 专家 性别: 加入时间: 2004/02/21 文章: 4238 来自: 广州:gz_venture_club AT yahoo DOT com 海归分: 180045
|
|
作者:tutu 在 海归商务 发贴, 来自【海归网】 http://www.haiguinet.com
中科院计算所汉语词法分析系统ICTCLAS (ZT)
词是最小的能够独立活动的有意义的语言成分,但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词法分析是中文信息处理的基础与关键。为此,我们中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。
ICTCLAS和计算所其他14项免费发布的成果被中外媒体广泛地报道,截止到9月,ICTCLAS被来自于中国、日本、新加坡、韩国、美国以及其他国家和地区的2000多位研究人员和商业机构下载使用。
计算所汉语词法分析系统ICTCLAS同时还提供一套完整的动态连接库ICTCLAS.dll和相应的概率词典,开发者可以完全忽略汉语词法分析,直接在自己的系统中调用ICTCLAS,ICTCLAS可以根据需要输出多个高概率的结果,输出格式也可以定制,开发者在分词和词性标注的基础上继续上层开发。在该系统的学习训练阶段采用了人民日报一个月的切分标注好的语料库。
Word is the minimum meaningful unit of languages. It’s well known that there are no separators between words in Chinese text. Therefore, Chinese lexical analysis is a prerequisite to Chinese information processing. Based on years of research, we have developed a Chinese lexical analysis system ICTCLAS (Institute of Computing Technology, Chinese Lexical Analysis System) using an approach based on multi-layer HMM. ICTCLAS includes word segmentation, Part-Of-Speech tagging and unknown words recognition. Its segmentation precision is 97.58%(result from recent official evaluation in national 973 project). The recalling rates of unknown words recognized using roles tagging achieve more than 90%. Especially, the recalling of Chinese person names achieve nearly 98%. The speed for word segmentation and POS tagging is 31.5KB/s.
ICTCLAS and other 14 free systems from Institute of Computing Technology were broadly reported in China and abroad as well. Until Sep., ICTCLAS had been downloaded by over 2,000 researchers or commercial organizations from China, Japan, Singapore, Korea, USA and other countries or areas. We are honored to distribute ICTCLAS free of fees and help users solve problems from Chinese lexical analysis.
In addition, we provide ICTCLAS.dll for developers invoking in their own systems.
作者:tutu 在 海归商务 发贴, 来自【海归网】 http://www.haiguinet.com
|
|
|
返回顶端 |
|
|
|
- 再来篇搜索的,兼回小周。中文搜索的分词技术 演示 -- 不说难受 - (172 Byte) 2005-8-19 周五, 01:04 (2142 reads)
- 专题搜索又回来了。 -- 保尔 - (590 Byte) 2005-8-19 周五, 15:50 (386 reads)
- 汉语分词系统都有得下载了。除非有独到之处,没有必要自己搞。 -- tutu - (1945 Byte) 2005-8-19 周五, 07:35 (565 reads)
- 您帖子被分为: -- neo - (278 Byte) 2005-8-19 周五, 01:09 (394 reads)
|
|
|
您不能在本论坛发表新主题, 不能回复主题, 不能编辑自己的文章, 不能删除自己的文章, 不能发表投票, 您 不可以 发表活动帖子在本论坛, 不能添加附件不能下载文件, |
|
|