网络分析
博客掘宝
从博客里搜寻有用信息
“我注意到门口的垫子有点歪,就蹲下来把它摆正。”这是“世上最无聊博客”网站上最新一篇日志的开头。虽然发布这篇文章,对互联网上空洞愚蠢的博客像是一个讽刺,但科学家却惊讶地发现,从博客世界这样的单调乏味中,确实能挖掘到有用的信息。
安德鲁•戈登与他在洛杉矶南加州大学创新技术研究院的同事,一直在设法教电脑了解因果关系。电脑并不擅长处理因果关系。它们能识别特定事件,但难以找出其中的关联。在涉及用电脑分析人类经验时,尤其如此。
不过,事实证明,电脑通过阅读个人博客,对因果关系能了解多多。每天约有一百万篇英语撰写的博文,其中大部分是新闻评论、活动策划以及关于人生的个人感悟。大致有5%是记叙文,讲述博主最近发生的一些故事。
为让其电脑系统能从博客中获得一些东西,该小组实施了如下两个步骤。第一步,将数千篇博文以人类的定义标记为“叙事型”或“非叙事型”。与其他形式的讲述相比,人们讲故事时,不同词语出现的频率也不同。戈登博士说,通过统计那些标记好的博客中的某些词——比如代词(I,she,we)和过去时态动词(went, said, thought)——出现的频率,无论博文故事内容到底如何,将其区分为上述两种类型,都是可能的。因此,他的电脑系统能浏览其他博文,分析出其属于记叙文还是不属于记叙文。
第二步,教这个系统识别因果关系。此时,研究小组采用了与第一步几乎一样的技术。为让电脑能够识别,戈登博士及其学生随机浏览了数千篇博文,明确指出了与因果关系相关的句式(比如,“我做了X因此Y发生了”)。电脑识别出了博文中的这些句法,因此才能找出来,并将这些包含有因果关系的句子(如“我猛踩刹车,最终却一头撞上了我前面的汽车”或“医生骂我摄入脂肪过量,有得心脏病的危险”)分门别类。
这项研究的想法是,最终引导一个系统产生,该系统能日复一日汇总庞大人口的个人生活统计数据——这些信息不可能从其他任何来源获取到。最后,戈登博士期待这种对博文个人故事的分析,能够像谷歌的“流感追踪”一样广泛应用,但应用规模会更为庞大。谷歌的流感追踪计划,通过挖掘特定地区跟流感相关的搜索用语骤增这样的搜索数据,能发现流感爆发的早期迹象。
挖掘网络,能追踪那些与新趋势及新行为相关的信息,这些信息包罗万象,从毒品使用与种族关系紧张到电影喜好与新产品。博客的本质意味着人们会迅速评论日常生活事件。挖掘这类信息,或许也会因此揭示出观念到底如何传播,趋势究竟怎样产生。
网络问世前,人与人靠闲聊来分享日常生活琐事,并不会诉诸笔端,因此这些闲聊并不会进行如此分析。今天的博主,一边为子孙记下自己的言行,并锲而不舍地查看博文点击数,了解他人是否在浏览这些文字,一边还能用下列想法聊以自慰,那就是,至少还有计算机,认为他们的大作引人入胜。Mar 11th 2010 | From The Economist print edition
《经济学人》(The Economist ( http://www.economist.com ))仅同意ECO (www.ecocn.org)翻译其杂志内容,并未对上述翻译内容进行任何审阅查对。
译者:zhanyisky
中英链接及译文讨论:http://www.ecocn.org/bbs/viewthread.php?tid=31962&highlight=
my name is vane