海归网首页   海归宣言   导航   博客   广告位价格  
海归论坛首页 会员列表 
收 藏 夹 
论坛帮助 
登录 | 登录并检查站内短信 | 个人设置 论坛首页 |  排行榜  |  在线私聊 |  专题 | 版规 | 搜索  | RSS  | 注册 | 活动日历
主题: 再来篇搜索的,兼回小周。中文搜索的分词技术 演示
回复主题   printer-friendly view    海归论坛首页 -> 海归商务           焦点讨论 | 精华区 | 嘉宾沙龙 | 白领丽人沙龙
  阅读上一个主题 :: 阅读下一个主题
作者 再来篇搜索的,兼回小周。中文搜索的分词技术 演示   
所跟贴 再来篇搜索的,兼回小周。中文搜索的分词技术 演示 -- 不说难受 - (172 Byte) 2005-8-19 周五, 01:04 (2142 reads)
tutu
[博客]
[个人文集]




头衔: 海归准将

头衔: 海归准将
声望: 专家
性别: 性别:男
加入时间: 2004/02/21
文章: 4238
来自: 广州:gz_venture_club AT yahoo DOT com
海归分: 180045





文章标题: 汉语分词系统都有得下载了。除非有独到之处,没有必要自己搞。 (565 reads)      时间: 2005-8-19 周五, 07:35   

作者:tutu海归商务 发贴, 来自【海归网】 http://www.haiguinet.com

中科院计算所汉语词法分析系统ICTCLAS (ZT)
词是最小的能够独立活动的有意义的语言成分,但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词法分析是中文信息处理的基础与关键。为此,我们中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。
ICTCLAS和计算所其他14项免费发布的成果被中外媒体广泛地报道,截止到9月,ICTCLAS被来自于中国、日本、新加坡、韩国、美国以及其他国家和地区的2000多位研究人员和商业机构下载使用。
计算所汉语词法分析系统ICTCLAS同时还提供一套完整的动态连接库ICTCLAS.dll和相应的概率词典,开发者可以完全忽略汉语词法分析,直接在自己的系统中调用ICTCLAS,ICTCLAS可以根据需要输出多个高概率的结果,输出格式也可以定制,开发者在分词和词性标注的基础上继续上层开发。在该系统的学习训练阶段采用了人民日报一个月的切分标注好的语料库。
Word is the minimum meaningful unit of languages. It’s well known that there are no separators between words in Chinese text. Therefore, Chinese lexical analysis is a prerequisite to Chinese information processing. Based on years of research, we have developed a Chinese lexical analysis system ICTCLAS (Institute of Computing Technology, Chinese Lexical Analysis System) using an approach based on multi-layer HMM. ICTCLAS includes word segmentation, Part-Of-Speech tagging and unknown words recognition. Its segmentation precision is 97.58%(result from recent official evaluation in national 973 project). The recalling rates of unknown words recognized using roles tagging achieve more than 90%. Especially, the recalling of Chinese person names achieve nearly 98%. The speed for word segmentation and POS tagging is 31.5KB/s.
ICTCLAS and other 14 free systems from Institute of Computing Technology were broadly reported in China and abroad as well. Until Sep., ICTCLAS had been downloaded by over 2,000 researchers or commercial organizations from China, Japan, Singapore, Korea, USA and other countries or areas. We are honored to distribute ICTCLAS free of fees and help users solve problems from Chinese lexical analysis.
In addition, we provide ICTCLAS.dll for developers invoking in their own systems.



作者:tutu海归商务 发贴, 来自【海归网】 http://www.haiguinet.com









相关主题
QQ群号14889316:欢迎以下专业人士一起来探讨分词技术,搜索引擎技术... 海归论坛 2005-8-19 周五, 11:36
另外,急求搜索引擎技术人员的帮助,分词技术,SPIDER技术等朋友,请加我MSN 创业论坛 2005-8-18 周四, 23:01
大家都是扯谈,凭什么容许你扯,不让别人扯。看不惯可以不理,兼听则明。 海归主坛 2008-5-13 周二, 12:54
乾坤草:体用之辩,兼回东海(一枭附言) 海归茶馆 2008-3-08 周六, 12:28
《动物的文明》和稀泥,兼回明子矩ID 海归茶馆 2007-7-07 周六, 08:52
为遏制滥用智慧名称,国际中华智慧学会发布“信息技术领域智慧名词使用规范” 创业园区 2013-3-30 周六, 11:53
[波儿的小波]绿妖系列下架,下回分解。 春秋茶馆 2010-10-09 周六, 14:47
请教一下熟悉电力驱动的同学,大功率双电机驱动有什么好技术解决差动问题? 海归主坛 2010-4-21 周三, 07:30

返回顶端
阅读会员资料 tutu离线  发送站内短信
显示文章:     
回复主题   printer-friendly view    海归论坛首页 -> 海归商务           焦点讨论 | 精华区 | 嘉宾沙龙 | 白领丽人沙龙 所有的时间均为 北京时间


 
论坛转跳:   
不能在本论坛发表新主题, 不能回复主题, 不能编辑自己的文章, 不能删除自己的文章, 不能发表投票, 您 不可以 发表活动帖子在本论坛, 不能添加附件不能下载文件, 
   热门标签 更多...
   论坛精华荟萃 更多...
   博客热门文章 更多...


海归网二次开发,based on phpbb
Copyright © 2005-2024 Haiguinet.com. All rights reserved.