大数据:融合新闻生产中的“金矿”
《大数据时代》作者、英国牛津大学网络学院互联网研究所教授维克托•迈 尔-舍恩伯格(Viktor Mayer-Schonberger)在接受《文汇报》专访时说:“大数据” 的存在“已经不仅仅是一种炒作或者什么宏大的宣言了,而将实实在在地改变我们的工作、生活以及整个社会”。“大数据时代的巨大资源是未来时代的金矿,那些拥有这些数据资源的人获得的回报将是不可想象的。” 新闻传播学者和新闻媒介业者也看到了大数据金色的光芒,并积极思考如何充分挖掘大数据背后潜 藏的巨大新闻价值和经济价值,探索作为新闻生产者又需要具备怎样的智慧与 能力,大数据推进新闻生产变革的号角已经吹响。
一、数据挖掘将让新闻更简明
“大数据”之所以称为“大”,是因为其海量的数据已经大大超出目前软硬件 环境的处理能力。事实上,处理大数据的瓶颈不仅仅是数字化技术的软硬件水 平,而在于人自身。牛津大学进化人类学教授罗宾•邓巴(Robin Dunbar)的“邓 巴数字定律”即150定律(Rule Of 150)认为:人的大脑新皮层大小有限,提供的 认知能力也是有限的,即便数字化的技术可以让你在社交网络中拥有无限数量 的好友和“粉丝”,但最终你能够建立频繁交流的也就是在150人(实为148人) 左右,而这其中能建立亲密关系的更是只有寥寥数人。人们感慨,社交网络给了我们联系,却未必给我们交流;拉近了我们的距离,却未必增加我们的亲密;激发了我们社交的天性,却可能磨平了我们沟通的能力。社交的幸福感来自社交的质量而不是数量,来自于沟通的深度而不是频率。小心,莫让技术令你的人际关系变得越来越扁平和肤浅。因为,再先进的传播技术也很难突破人类本身的生理瓶颈。大数据更是如此,庞大的数据量显然早已超出了人脑处理的能力,它最终的价值需要通过计算机进行挖掘、分析和深度解读,并形成相对简单直接的形式让人们得以接受和理解。对于新闻生产而言,这意味着新闻生产者必须将复杂的数据简单化、庞杂的事项简洁化,而且越简明越好。简明的新闻可能会失去微观层面上的精确度,但能获得宏观层面上的洞察力。
为了实现将大数据简单或简明的要求,数据挖掘(Data Mining)的概念便被提了出来。海量的大数据不易被人们所直接利用,而数据挖掘正是一个将“冰冷数据信息人性化”的过程,也是一个把“数据分析的范围从‘已知’扩大到4未知’, 从4过去’推向‘将来’”的过程。在这个过程中,需要经历从数据准备、数据理 解、模型建立、模型评估、最终得出结果的一系列步骤,而完成这些步骤需要的不 仅是庞大数据量,更需要专业化的数据分析方法和掌握这些方法的数据管理和 分析专家。这在媒介融合和大数据时代,对媒体从业者的能力提出了更大的挑 战,或者意味着今后的融合新闻报道需要有数据分析专家参与或信息挖掘公司 辅助。西方新闻媒体已经在试图突破这种技术上的难题。譬如,“2007年4月路透社就以2500万美金的价格收购了著名的文本信息挖掘公司ClearFor- est”®,通过收购并利用其资源来弥补媒体自身在搜索引擎和数据挖掘方面的不足。
二、让新闻可视化和图表化
建立在大数据基础上的融合新闻作品不仅要简明化和人性化,而且要可视化(Data Visualization)和图表化。数据可视化和图表化可以被追溯到20世纪50年代的计算机图形学,当时人们便开始利用计算机创建了首批图形、图表。 如今随着人类数据规模的不断膨胀,以及数据复杂性程度的不断增强,数据可视 化和图表化变得十分必要。
数据可视化和图表化作为一种信息技术,“其主要目标就是信息沟通,通过将数据设计成为功能与审美并重的图形、图像、地图、动画等形式,让信息的沟通交流更为直观、清晰和高效”®。“生理学也证明,人的大脑皮层当中,有40%是视觉反应区,人类的神经系统天生就对图像化信息最为敏感。而数据可视化的技术,可以通过图像在逻辑思维的基础上进一步激发人的形象思维和空间想象力,吸引、帮助用户洞察数据之间隐藏的关系和规律。”
融合新闻生产也是一种传播者和受众之间信息沟通交流的过程,要让具有大数据特点的新闻信息在这一过程当中清晰、流畅地传递,数据可视化和图表化显然是一个最有效的途径,而融合新闻产品更是为数据可视化和图表化提供了空间和可能。譬如,2010年7月19日《华盛顿邮报》制作的“美国绝 密”(Top Secret America)报道专题,就是数字可视化和图表化的典型例子》 “两位调査记者用了两年多时间,对数百个现任及前任军事、情报官员、政府机构工作人员等进行采访调査,在绘图专家、数据研究员、摄影记者、图表设计者的协作下,用融合报道的形式将美国自‘9 • 11’事件以来的国防和情报系统公之于众。”
在“美国绝密”专题的页面,我们可以看到网站的设计人员通过视频、动画、地图、图表等多种可视化方式的结合将庞大的数据转变成为网站用户可以直观了解的可视化信息,甚至这些信息还具有互动功能,用户可以根据兴趣输入邮编或点击地图获取自己想了解的地区的情况。
清华大学陈昌凤、刘少华也举例说明:彭博社的大数据挖掘类报道栏目“今日图表”(Chart of the Day)就是通过图表和简单的事实而非说教来阐明道理,是彭博新闻“show, don't tell”理念的体现,是一种“简单而优雅的呈现观点以及 点燃想象力的”方式。
图7-2彭博社“今日图表”(Chart of the Day)页面
三、以关联思维创新新闻生产
如果说人们看待数据的方式正在由局部数据转向全部数据、由纯净数据转向凌乱数据,那么现在正在由数据的因果关系转向数据的相关联系。这意味着世界即将告别总是试图了解世界运转方式背后深层原因的态度,向仅仅需要弄清数据之间的关联,以及利用这些关联信息来解决问题、预测未来的方向转变。
因果关系的思维方式是人类长期社会经验积累所形成的一种认识世界的方法。我们习惯性地将所有的问题用因果关系来解释.无论是打雷下雨的天气变化,或者是金融市场的风起云涌,甚至自己突如其来的情绪变化,我们都希望能够找到这些事情的前后因果。事实上,人类长期以来对于因果关系的执着,并不是无理由的,这种快速的思维模式可以帮助人们在短时间内做出判断,并采取行动,这也确实推动了人类社会的发展和进步,帮助我们在关键时刻驱灾避祸、化险为夷。
在新闻生产中执着于探讨事物的因果关系也是人类的天性使然。我们追求新闻报道的完整性,这种完整性不仅要求新闻元素5W缺一不可,而且要求新闻事件有前因后果的逻辑性和连贯性,甚至希望有追踪报道或后续报道;我们追求新闻报道的深度,这种深度不仅是新闻事件不同方式和角度上的立体覆盖,更是对新闻事件前因后果的不断挖掘和深化.人们还希望知道新闻为何发生和未来将产生什么后果。但是,这些因果关系是否真的存在呢?
《大数据时代》的作者则认为.人类通过因果关系了解世界的方式正在被大数据所改变。“在小数据时代,很难证明由直觉而来的因果联系是错误的。将来,大数据之间的相关关系,将经常会用来证明直觉的因果联系是错误的。最终也能表明,统计关系也不蕴含多少真实的因果关系。”®作者所说的“相关关系”, 也就是以关联物的方式帮助我们认识事物和分析现象,通过找到一些现象的良好关联物来捕捉现在和预测未来。而我们现在所拥有的如此庞大的数据量恰好可以使我们的关联性分析变得更准确、更快捷,且更不易受到主观偏见的影响。
大数据的关联思维方式对人类的思维方式有着颠覆性的影响,也使传统新闻生产可以突破固有因果思维的束缚,以一种关联的视角重新审视社会。并不是每一个新闻事件都可以用因果关系来解释,也并不是每一组看似正确的因果关系就真是可靠的。新闻生产中经常出现的错误就是把没有因果关系的两者胡乱地搭配在一起,或者是将复杂的非线性关系简单地归纳为线性的因果关系,甚至在金融报道中经常出现的是勉强为之的倒推式因果解释。新闻生产似乎已经习惯于建立这种简单的因果联系:小悦悦事件是因为公众的冷漠、道德的滑坡,地沟油是因为商家的逐利、道德的沦落,贪污受贿也是因为官员的素质太低和道德水准不高,于是最终的解决途径就都变成了极为简单的加强道德教育和法制建设。但是,在很多情况下,实际情况与常识往往正好相反,或者根本没有因果关系。例如,人们的收人水平与幸福感并不是一个正比的关系,感冒也未必就是 因为受凉,用餐后生病不一定是食物问题。
强调时间、历史和因果关系的传统观念正在受到挑战,而推崇空间、现状和相关联系的新型观念正在逐步占据上风。知识的占有曾经意味着对时间、历史和因果之间关系的洞察和了解,如今知悉知识的存贮空间、发展现状并能预言知识的未来趋势则显得尤为重要。融合新闻生产需要有一种大数据时代下开放与关联的思维理念,要真正致力于揭示社会现象中的复杂关系,不能一味追求或迷信所谓的因果联系。
四、以精准测算生产媒介个性化产品
传统的大众化的新闻生产是一种集中的和粗放的生产方式,新闻媒体在 “车间”以标准化的形式生产新闻产品,再通过特定渠道和媒介向所有人传递和发送,产品内容缺乏针对性和精确性。媒介也是被迫无奈的,因为受众不仅数量众多、成分复杂,而且流动不居、分布广泛、需求各异,甚至那些基本的受众信息在数字化技术发展之前都是隐匿不明的。传统的受众分析方法采用的都是抽样式的调查方法,这种抽样式的调查方法有赖于样本数的大小,如果没有足够的样本数其结果显然也无法体现整体受众市场的真实情况。与此同时,受众抽样调查的方式“更多地关注‘受众’语境下的独立的媒介使用习惯(如阅读、收看、点击 等),而忽视了用户的综合行为习惯以及这些习惯对他们的媒介使用的影响” 。 因此,没有大样本的抽取,没有全方位的调査,媒介根本无从知晓受众到底是怎样的一群人,他们到底又需要些什么。而受众也只是被动接受各种各样并不一定需要的信息.随时随地受到各种信息的“轰炸”,个人十分有限的注意力被各种碎片化的内容“瓜分”。
从营销传播的角度来看,受众分析中媒介企业和一般企业一样试图建立的是受众的“360度视图”。所谓“360度视图”就是指各部门将客户的数据库信息集合成为一个整体,形成一个更为庞大的客户数据库系统。在这个系统中,客户不再是一个模糊的群体,而是一个个独立的个体,他们有自己的1D、姓名、地址、年龄、家庭、收人情况等。在此基础上,企业还不断地将客户的消费时间、地点、 产品、数量、金额、消费频率、消费种类、消费范围等信息存人其中,甚至也包括客 户的消费行为、兴趣爱好等信息,使原有的数据量急剧膨胀,很快爆发性地生成 为大数据群,于是企业可以通过对大数据群的深人挖掘,更深层次地理解客户行 为和消费趋势,使企业不仅能够对每一个客户做到了如指掌,而且对企业生产的 现状和趋势也心中有数。
这样的客户信息收集工作,不少企业早在几十年前就已经开始。譬如,五星级酒店往往会仔细地记录一些VIP客户的生日、兴趣爱好、特殊要求等。但由于数据存储和处理技术的限制,这些工作还处在较低水平。也就是说.在小数据时代,企业存贮的数据其实无法真正满足建立和分析所有用户的“360度视图”。 但在大数据时代则可能完全不同。首先,大数据的采集本身就不是一种样本的抽取和选择.而是无遗漏、全覆盖的数据采集。其次,大数据的采集是24小时全方位、全天候的,尤其是移动智能终端的普及及GPS等定位技术的应用,使得数据追踪和地理信息、位置信息的采集成为可能。
在大数据时代.媒体要建立这样的受众“360度视图”其实更为容易,因为媒介中所有的信息都是数字化的,受众在进行新媒体和网络阅读、浏览时必然会留下他们的足迹。每一位受众有固定的IP地址,计算机通过cookie等技术手段可以精心、细致地记录下受众所有的使用行为。譬如,选择在什么时间上网、上了哪些网站、浏览了哪些信息、下载的是什么内容、对哪些信息有特别的兴趣爱好、 如何评论和转发、如何消费时间等。对这些大数据的存储和分析,将使得媒体生 产的产品和提供的服务更有针对性、更加精准化和个性化,能够选择最适合的时 间、在最适合的空间更准确地向受众推送出最符合其需求的信息内容。
相关试题
判断题 选择新闻角度的方法有:以旧见新找角度、以小见大找角度、虚中觅实找角度、逆向思维找角度、发散思维找角度、统摄思维找角度、全局高度找角度。(七种)
判断题 网络水军即受雇于网络公关公司,为他人发帖回帖造势的网络人员,以注水发帖来获取报酬。有专职和兼职之分。网络水军的存在是网络营销的进阶。除了利用网络进行炒作外,还有部分网络水军使用了诽谤、诬陷、抹黑等手段,攻击竞争对手、编造轰动事件、混淆公众视听等。网络水军具有灵活性、不可控性和零散性的特性.工作内容主要包括论坛传播、话题炒作、事件营销、博客营销和清除负面。
判断题 剖析型社会观察通讯大多报道社会生活中出现的矛盾、问题类题材。这类题材往往已为社会所关注。但受众获知的表面信息虽多,却缺乏对这类问题高屋建领的信息梳理和根源剖析。这类通讯的报道方式大多在纪实的基础上剖析问题。报道中有许多分析解释的段落,是对纪实内容必要的整理和深化,有比较强的社会认识价值。
判断题 《常识》是指北美独立战争时期负有盛名的宣传鼓动家托马斯·潘恩的一本小册子,推动了北美独立的革命风暴。《常识》告诉北美殖民地人民一个最简单的道理:北美应该独立于英国之外。潘恩在书中第一次明确地提出:英国属于欧洲,北美,属于它自己。他从各个方面来论证自己的观点,历史、经济、宗教、政治甚至地理—“上帝在英国和北美之间设置这么远的距离,也有力地而且顺理成章地证明,英国对北美行使权力这点决不是上苍的意图。”他以铿锵有力的言辞反驳那些向英国妥协的言论。
判断题 简述评述型导语的长处。夹叙夹议、有述有评的导语,称评述型导语。评述型导语的长处有二:(1)评述型导语中的评,可以发挥“勾玄”的作用。玄,深奥;玄妙。此处指新闻事件深层的、一般不易为读者所注意、所了解的含义。通过导语中的议论,在消息的开头就将其昭示给读者,可以使读者一接触新闻就获得某种启迪,从而对消息全文产生兴趣。(2)评述型导语可以直截了当地发表意见,能够直接影响舆论。公正的评判才是对艺术的尊重。当电视导演程捷就自己的创作日前在北京举办研讨会时,一种求实、不虚张的评论作风令记者感叹:良好的风尚需要大家创造,更值得在文艺界提倡。这条导语的首句和末句都是“评”,都是直接议论,它们可以引起共鸣,可以令读者对导语之后的“如何”以及“为何”产生兴趣。已有的经验告诉我们,评述型导语的写作应注意以下几点:①评述型导语中的评。应是言人之所未言,深刻而有新意。②评述型导评中的评。应是少而精,点到为止,不宜展开。这是由导语空间狭小、文字讲究所决定的。③为了使导语中的评更具客观色彩、更有说服力,有时,也为了防止因记者直接评论而招致被动,可以使用引语方式发表意见。
判断题 官员是公众人物,可以通过“人肉搜索”来挖掘他们的腐败事迹。24
判断题 标准镜头是指镜头焦距等于或略大于底片对角线的长度的镜头。
判断题 新闻记者的隐性采访一、隐性采访的概述(一)隐性采访的涵义隐性采访是指记者不暴露自己的真实身份和采访目的,在采访对象不知情的情况下,以偷拍、偷录或亲身感受的方式对新闻事实(事件)进行的采访。(二)隐性采访的特征隐性采访是有条件的。出发点的积极意义。要冒一定的风险。(三)隐性采访的类型体验式采访:记者不暴露身份和目的,而作为社会普通公众去获取有关信息的采访方式伪装式采访:记者以隐去真实身份的方法,隐藏采访目的,以获取所需信息的采访方式。(四)隐性采访的重要手段——偷拍、偷录(五)隐性采访适用的新闻报道类型1.揭露或批评性报道2.亲身感受型报道二、隐性采访的方法和程序八条(一)寻找线索和线人1.新闻职业线人2.新闻事实的知情者(公开身份的知情者、匿名的知情者)3.记者的社会网络(二)在采访前确立某种假设⒈提出假设的重要性为记者提供明确的思路,指明调查的方向。方便记者与编辑部门负责人沟通。帮助记者判断线索的新闻价值。⒉对假设的初步求证在隐性采访过程中,对假设的初步核实应当尽快完成,以判断究竟有几分把握可以证明这个假设。3.证实与证伪(三)周密地考虑各种应当考虑的问题1.确定利害关系。2.安排采访的先后顺序。3.资料搜集。4.确定调查的价值。(四)确定被采访者之间的利害关系(五)贴身暗访1.假造一个不易被察觉并且便于进行暗访的身份。2.进入暗访的地区,寻找、接近暗访对象,取得他们的信任。⑴要对被暗访者显示出不可抗拒的利益吸引力。⑵要表现自己是“业内人士”,对这一行很精通。⑶要镇定自若,有时候还要欲擒故纵。3.套取所需要的情况,以证实自己事前的假设。(六)获取必要证据1.必要性证明报道的真实性应对新闻报道所引发的法律纠纷2.合法证据:采访笔记、录音、录像带以及照片、各种书证、实物证据、文件资料的原件、副本、复印件、抄件等。■采访笔记准确记录下可能作为直接引语的原话,并忠实表达采访对象的意见,保证采访笔记的真实性。采访结束应请采访对象在笔记上签字。■录音机和设想设备如果事关重大,应考虑用录音机和设想设备,录音和录像要比采访笔记更有可靠性■照相机对于现场场景以及无法带回的证物来说,拍下照片是最好的选择。它可以辅助采访笔记,增强说服力。■书证与物证书证是指以文字、符号和图画等所表达的思想内容来证明事实的书面文件和物品。物证是指能够证明事实的物品和痕迹。(七)隐性采访中的观察1.记者观察到的细节可以在写作中赋予报道以无限丰富的色彩和质感。2.记者观察到的细节可以帮助记者去伪存真。3.记者观察到的细节可以让记者探知采访对象的心理变化,及时作出应对。(八)对所获取的证据进行司法甄别A级证据(可信度最高)公开的资料、政府文件、档案馆记录、法庭调查报告、警方档案、传统媒体网站、网络数据库和重要的FTP服务器。B级证据(可信度略差)私人的、非公开的资料,在门户网站、商业网站搜索得C级证据(可信度最差)采访对象的口头叙述,来自聊天室和BBS的匿名信息。如何判断采访对象口述的可信度区分采访对象的动机。通过其他信息源求证。提供消息的人是否愿意说出自己的名字。如何鉴别伪证(1)采访对象陈述的情况是根据道听途说或谣传得来的,且多方查证无法证明属实。(2)采访对象提供的消息是通过自己毫无根据的分析、推测和想象得出的结论。(3)证词的明确程度不高,含糊其辞,模棱两可,或者证言内容不够具体,缺乏应有的细节。(4)证言本身自相矛盾,前后不能连贯,漏洞百出,或在两三次采访中证言不一致,出现明显偏差。(5)与科学公理和普遍常识明显相悖。(6)采访对象有幻象型性格,容易自我暗示;或有偏执型性格而极端自负;抑或性格软弱,容易受他人影响而陈述失实证言。(7)证据的内容与其他大多数证据的证明结果相悖,则多数伪证。(8)若一对相关证据的证明意义完全相反,则其中必有一伪。(9)几个采访对象的证词完全相同,甚至连遣词造句都分毫不差,要考虑串供的可能性。(10)经过鉴定和勘验,确认提供的证言和证据不符实。三、隐性采访的法律道德风险(一)关于隐性采访是非的争论1.完全赞同记者使用隐性采访这一采访形式。2.反对记者使用隐性采访。3.对于隐性采访持中立的态度,只有在无法或不能公开采访,或者在正常采访无法实现预期目标的特定情况下,才能考虑使用。(二)隐性采访的道德界线(理解关于隐性采访在道德层面上的问题)1.在隐性采访中记者身份的扮演应有严格的限制✪记者不能装扮成国家公务人员借行使公务获取新闻。✪记者不应装扮成违法犯罪之徒。✪记者装扮不能改变其固有的自然性别角色,而深入到另一个性别世界中采访。2.隐性采访中严禁任何“诱导”3.隐性采访不能干扰公共生活和秩序(三)隐性采访的法律问题1.隐性采访与侵犯人格尊严✪人格尊严是一般人格权的核心,侵害人格尊严就是侵害人格权。✪镜头不能丑化采访对象,更不能出现带有侮辱性的画面。2.隐性采访与侵犯隐私权⑴隐私的要件:一是与社会公共利益、群体利益无关的私事,即所谓“私”;二是本人不愿为他人知悉或受他人干预,即所谓“隐”。⑵隐私权是指自然人享有的对其个人的与社会公共利益无关的信息、私人活动和私人领域进行支配的具体人格权。⑶采访场合对隐私权的影响公共场合、非公众场合案例:迪特曼诉《时代》公司⑷隐性采访侵害隐私权抗辩事由抗辩事由之一:公众知情权。知情权即知的权利,也称作知悉权、了解权,其基本含义就是公民有权知道他应当知道的事情,国家应当最大限度的确认和保障公民知悉、获取信息的权利,尤其是政务信息的权利。抗辩事由之二:基于社会公共利益需要。社会公共利益需要是一个正当的抗辩事由。为了维护社会公共利益需要,法律准许使用他人的肖像,准许将他人的个人信息和活动公之于众。抗辩事由之三:公众人物。公众人物的一般理解应是著名、知名度高、在全国具有重要影响、众所周知的人物。3.隐性采访与侵犯名誉权■新闻侵害名誉权有四个构成要件:①名誉受损的事实;②违法行为;③因果关系;④主观过错。■隐性采访侵犯名誉权的应对①严格把握真实性原则,做到内容真实。②公正评论:第一是出于公众利益发表了意见;第二,是基于一定的事实发表了意见;第三,所发表的意见一定要很客观,不带有个人感情上的色彩;第四,就是不具有恶意。4.隐性采访与侵犯肖像权注意:在记者拍照或电视台摄像的过程中,有时候画面背景的选择稍不注意就有可能侵犯不相干人的肖像权。隐性采访与刑事犯罪