博客掘宝

网络分析

博客掘宝

从博客里搜寻有用信息

“我注意到门口的垫子有点歪，就蹲下来把它摆正。”这是“世上最无聊博客”网站上最新一篇日志的开头。虽然发布这篇文章，对互联网上空洞愚蠢的博客像是一个讽刺，但科学家却惊讶地发现，从博客世界这样的单调乏味中，确实能挖掘到有用的信息。

安德鲁•戈登与他在洛杉矶南加州大学创新技术研究院的同事，一直在设法教电脑了解因果关系。电脑并不擅长处理因果关系。它们能识别特定事件，但难以找出其中的关联。在涉及用电脑分析人类经验时，尤其如此。

不过，事实证明，电脑通过阅读个人博客，对因果关系能了解多多。每天约有一百万篇英语撰写的博文，其中大部分是新闻评论、活动策划以及关于人生的个人感悟。大致有5%是记叙文，讲述博主最近发生的一些故事。

为让其电脑系统能从博客中获得一些东西，该小组实施了如下两个步骤。第一步，将数千篇博文以人类的定义标记为“叙事型”或“非叙事型”。与其他形式的讲述相比，人们讲故事时，不同词语出现的频率也不同。戈登博士说，通过统计那些标记好的博客中的某些词——比如代词（I,she,we）和过去时态动词（went, said, thought）——出现的频率，无论博文故事内容到底如何，将其区分为上述两种类型，都是可能的。因此，他的电脑系统能浏览其他博文，分析出其属于记叙文还是不属于记叙文。

第二步，教这个系统识别因果关系。此时，研究小组采用了与第一步几乎一样的技术。为让电脑能够识别，戈登博士及其学生随机浏览了数千篇博文，明确指出了与因果关系相关的句式（比如，“我做了X因此Y发生了”）。电脑识别出了博文中的这些句法，因此才能找出来，并将这些包含有因果关系的句子（如“我猛踩刹车，最终却一头撞上了我前面的汽车”或“医生骂我摄入脂肪过量，有得心脏病的危险”）分门别类。

这项研究的想法是，最终引导一个系统产生，该系统能日复一日汇总庞大人口的个人生活统计数据——这些信息不可能从其他任何来源获取到。最后，戈登博士期待这种对博文个人故事的分析，能够像谷歌的“流感追踪”一样广泛应用，但应用规模会更为庞大。谷歌的流感追踪计划，通过挖掘特定地区跟流感相关的搜索用语骤增这样的搜索数据，能发现流感爆发的早期迹象。

挖掘网络，能追踪那些与新趋势及新行为相关的信息，这些信息包罗万象，从毒品使用与种族关系紧张到电影喜好与新产品。博客的本质意味着人们会迅速评论日常生活事件。挖掘这类信息，或许也会因此揭示出观念到底如何传播，趋势究竟怎样产生。

网络问世前，人与人靠闲聊来分享日常生活琐事，并不会诉诸笔端，因此这些闲聊并不会进行如此分析。今天的博主，一边为子孙记下自己的言行，并锲而不舍地查看博文点击数，了解他人是否在浏览这些文字，一边还能用下列想法聊以自慰，那就是，至少还有计算机，认为他们的大作引人入胜。Mar 11th 2010 | From The Economist print edition

《经济学人》（The Economist ( http://www.economist.com ))仅同意ECO （www.ecocn.org）翻译其杂志内容，并未对上述翻译内容进行任何审阅查对。

译者：zhanyisky

中英链接及译文讨论：http://www.ecocn.org/bbs/viewthread.php?tid=31962&highlight=

“博客掘宝”的一个回复

发表评论取消回复

“博客掘宝”的一个回复

发表评论 取消回复

发表评论取消回复