海归网首页   海归宣言   导航   博客   广告位价格  
海归论坛首页 会员列表 
收 藏 夹 
论坛帮助 
登录 | 登录并检查站内短信 | 个人设置 论坛首页 |  排行榜  |  在线私聊 |  专题 | 版规 | 搜索  | RSS  | 注册 | 活动日历
主题: [原创]创业日记-374 (data_scrubber, 谷歌翻译及大数据)
回复主题   printer-friendly view    海归论坛首页 -> 海归商务           焦点讨论 | 精华区 | 嘉宾沙龙 | 白领丽人沙龙
  阅读上一个主题 :: 阅读下一个主题
作者 [原创]创业日记-374 (data_scrubber, 谷歌翻译及大数据)   
data_scrubber




头衔: 海归准将

头衔: 海归准将
声望: 讲师

加入时间: 2005/01/15
文章: 1237

海归分: 130921





文章标题: [原创]创业日记-374 (data_scrubber, 谷歌翻译及大数据) (2678 reads)      时间: 2013-5-30 周四, 11:17   

作者:data_scrubber海归商务 发贴, 来自【海归网】 http://www.haiguinet.com

1999年我在硅谷一家公司从事数据处理的软件工作,开发程序用以剔除掉海量芯片测试数据中的不合格或者错误数据。比如温度数据,前一秒钟还是40摄氏度,现在变成60度,而下一秒又回到40度,很明显,这个60度数据是错的,它可能是由于测试生产线温度的传感器Mal Function造成的,也可能是其他原因造成的,不管怎样,这类数据需要剔除。我就是专门写程序干这个的,因为数据量太大,靠人工根本不可能。这份工作我干了三个月就辞职了,太无聊了,太大材小用了。那几个月我上班没事就偷偷干私活,开发黑客程序,需要注册很多网站,需要选一个肯定没人用过的名字,又很酷,又要所有网站都用这个名字注册,选来选去,选了 data_scrubber, 数据处理工。很形象,也够酷。很少有人把Scrub(擦洗)用来描述数据处理的。后来,这个名字就成了我在互联网上的通行证,任何一个网站,甭管多大,拥有多少亿用户,我一个后来者,用 data_scrubber这个名字去注册,准行。如果有人人肉搜索我,在某些一夜情网站上发现了 data_scrubber, 我也承认。。。。。。 那就是我。


从我学计算机开始,就知道,数据是必须精确的,Garbage in Garbage out. 如果数据来源有问题,数据“脏”了,那么再精确的计算和处理也只是在生产垃圾而已。结果一定是错的。


可是这个观念现在被颠覆了。


几天前的周末我又去Voobly打帝国时代游戏,进入游戏后我和香港的好友在聊天,用中文。同房间的一个来自智利的玩家用中文打出“他们以为我不懂中文,哈哈”。我吓了一跳,急忙问他,是不是华裔。他用英文回答说,他骗我们的,他不懂中文,他在用谷歌翻译呢。


谷歌翻译现在可以在60种语言中对任何两门语言进行直接翻译,当然这是假象,很多翻译需要通过英文做个中介转译一下。Google翻译的准确率很高,是有史以来最好的翻译了。它是怎么做到的?


在解释谷歌翻译之前,我想讲讲我的一个朋友,曾经从事过计算机翻译软件开发的一个朋友。他叫严永新,是90年代初很多中国留学生用过的一款中文输入软件“下里巴人”的开发者。他和张朝阳是MIT同学,他甚至还早张朝阳一年,在96年回国创业。但是他创业没有很成功,后来就自己在家里做起了计算机翻译的研究工作,有一次坐在他家里的餐桌旁,他摊开手对我说,“我准备放弃机器翻译了,我觉得我的思路不对了”。他举了个例子给我,削苹果的刀 和 削苹果的皮 对于电脑它是无法像人一样区分出来的。 他说的就是语境,不同的语境,同样的词会有不同的意义,语境如果不能在电脑上分辨出来,那翻译就是不准确的。而语境,他认为,是无法用电脑去扑捉的。所以,研究了几年自动翻译后,他放弃了。后来他还研究过书法体中文字库,再后来,他“回国”了,重新回到美国硅谷做研究去了。


我曾经认为严永新说的都是对的,我对人工智能也总是抱持着一份适度的怀疑态度。然而,谷歌翻译颠覆了我的看法。


谷歌没有去研究复杂的语法,它甚至都懒得去分析语法。它的翻译软件可能几万行代码就完成了。简单的无耻,简单的可笑,简单的让你觉得这是儿戏。然而,它却拥有上万亿的语料库。换句话说,任何一个人说过的任何一句话,用任何语言,十有八九,在谷歌的语料库里都能找到。谷歌的翻译准确地说,不能说是翻译,而是“匹配”,匹配一句话相对应的另一门语言中的话。Peter Novig是谷歌公司的人工智能专家,他这样说到,“从某种意义上,谷歌的语料库是布朗语料库的一个退步。因为谷歌语料库的内容来自于未经过滤的网页内容,所以会包含一些不完整的句子,拼写错误,语法错误以及其他各种错误。况且,它也没有详细的人工纠错后的注解。但是,谷歌语料库是布朗语料库的好几百万倍大,这样的优势完全压倒了缺点。”


欢迎进入大数据时代。薛定锷在他的《生命是什么》一书中提到有机体的根号N定律,它是一个关于物理学定律的不准确度的期望值。薛定锷举了气体压力,温度和密度的关系测量,假设N为气体分子的个数,那么测量的相对误差就是根号N的量级。薛定锷得出一个推测或者结论,一个有机体为了使它的内在生命以及它同外部世界的相互作用都能为精确的定律所描述,它就必须有一个相当巨大的结构。不然的话,参与合作的粒子数太少了,“定律”也就不太准确了。如果这个N是一百万,误差就会有千分之一。如果是一亿,精确性就提高到99.999%。这个也叫大数定律。海量数据时代扩大了那个N,计算机的处理能力对于更大的N都不在话下,大数据处理提高了结果的准确性,大数据中部分数据的不精确,错误并不影响数据整体处理的结果。Garbage in 不再 Garbage out了,因为数据量足够大了。


东莞在西方金融危机下经历了大规模的萧条,工厂倒闭,工人流失,人口锐减,但具体减少了多少,市政府并不清楚,于是下文基层单位进行统计汇报。然而当地移动运营商通过对自己手机用户的一个简单统计,再比对金融危机前的统计数据,很快就得出结论,人口减少20%。几个月后,政府的统计报告也出来了,也是20%,一模一样。然而,移动运营商的统计成本毫无疑问要低的多,要高效的多。这就是大数据带来的新思路。


数字化,网络化,云存储,云计算为大数据时代的来临提供了基础,未来如何发掘大数据,更好地将其应用在研究,商业,生活,工作甚至娱乐领域中去,是我们面临的机遇和挑战。这里将会商机无限,风光无限。

作者:data_scrubber海归商务 发贴, 来自【海归网】 http://www.haiguinet.com









相关主题
[原创]创业日记-505 (看“北平无战事”想到的) 海归商务 2015-3-23 周一, 10:30
[原创]创业日记-497 (Your Potential,Our Pass... 海归商务 2015-2-28 周六, 13:06
[原创]创业日记-490 (给波波堂的肺腑之言) 海归商务 2015-2-02 周一, 09:07
[原创]创业日记-463 (生命与死亡,中国梦) 海归商务 2014-8-04 周一, 16:36
[原创]创业日记-438 (现代化对身体的影响) 海归商务 2014-4-09 周三, 10:40
[原创]创业日记-437 (可以改变现实的游戏) 海归商务 2014-4-08 周二, 09:37
[原创]创业日记-431 (生命的节奏-张弛有道) 海归商务 2014-3-19 周三, 14:36
[原创]创业日记-397 (如何具有上帝的力量) 海归商务 2013-9-16 周一, 10:19

返回顶端
阅读会员资料 data_scrubber离线  发送站内短信
显示文章:     
回复主题   printer-friendly view    海归论坛首页 -> 海归商务           焦点讨论 | 精华区 | 嘉宾沙龙 | 白领丽人沙龙 所有的时间均为 北京时间


 
论坛转跳:   
不能在本论坛发表新主题, 不能回复主题, 不能编辑自己的文章, 不能删除自己的文章, 不能发表投票, 您 不可以 发表活动帖子在本论坛, 不能添加附件不能下载文件, 
   热门标签 更多...
   论坛精华荟萃 更多...
   博客热门文章 更多...


海归网二次开发,based on phpbb
Copyright © 2005-2024 Haiguinet.com. All rights reserved.