内容摘要:从人工智能背景下大数据方法的关键性改善入手,探讨人工智能对于大数据技术在新闻传播领域中的应用所能提供的关键性技术支撑,分析和预测数据新闻生产的三个重要环节(数据新闻、传感器新闻和可视化新闻)的技术改善之道。
关键词:数据新闻;视化;分析;人工智能;数据信息
作者简介:
【摘要】依靠数据的采集、挖掘和展示所形成的数据新闻已经以其独有的功能和价值在新闻传播领域崭露头角。但是由于受大数据技术发展的限制,还存在一系列问题亟待解决。从人工智能背景下大数据方法的关键性改善入手,探讨人工智能对于大数据技术在新闻传播领域中的应用所能提供的关键性技术支撑,分析和预测数据新闻生产的三个重要环节(数据新闻、传感器新闻和可视化新闻)的技术改善之道。
【关键词】人工智能;大数据方法;数据新闻;数据价值挖掘
虽然,数据新闻已经在既往的实践中有了长足的发展,但数据挖掘(Data mining)不足仍然是数据新闻发展必须面对的主要问题。数据挖掘指的是对数据库中的数据进行探索的一个过程,是在海量数据中挖掘有效数据的重要技术。一般而言,数据挖掘在概念的层面分为三个阶段:数据源数据的收集、对于数据源数据的处理以及最终的有效数据的表示。如图1所示,数据挖掘主要通过四个步骤实现:源数据的收集阶段、数据预处理阶段、数据处理阶段、数据评估以及知识表示阶段[1]。具体来说,数据挖掘不足可以体现在以下三个方面:数据收集来源单一、数据处理能力有限和数据可视化表达程度有限。

一、现阶段数据新闻的实操所存在的主要问题
(一)数据收集来源单一
目前数据新闻面临的首要问题就是缺乏可收集的数据信息源,或者数据库信息过于单一,缺乏全面、结构性的数据源数据库。从我国的情况来看,作为常用来源的商业数据库中的数据,通常只集中在某一个方面,其所能描述的用户特征也只是片面和单一角度的认识。腾讯作为目前拥有最大即时通信工具的互联网巨头公司,掌握着大量用户的社交关系数据,虽然通过微信线上支付(红包)的功能,占据了一定移动支付的市场,但比起支付宝(阿里巴巴旗下的个人第三方支付平台)来说,腾讯对于用户消费习惯和财务状况的洞察和了解又远不及后者。图2是2016年第二季度的第三方互联网支付市场交易份额,财付通(腾讯在线支付平台)虽然仅次于支付宝占据了移动支付市场的第二位,但仍然无法与支付宝等量齐观。从整体的数据库类型的情况看是这样,落实到具体的依靠数据挖掘实现个性化新闻生产的实践中时,依然面对着信息来源单一的挑战。
以今日头条为国内个性化推送新闻的媒体为例,作为国内第一个个性新闻化推送新闻的产品类实践者,今日头条自2012年创建后,到2016年8月,已经拥有装机用户超过5.5亿,日活跃人数超过6000万。从其CEO对今日头条有关用户的数据信息来源的介绍来看,主要是三个方面:第一,今日头条通过对用户的行为,如点击、停留、评论、转发等数据的搜集和聚合分析,获得用户对新闻信息的个人喜好和需求的推算。第二,根据用户所处的环境特征,上网环境是Wi-Fi还是付费流量、GPS所在地,是在常驻地还是旅游,是白天还是晚上等获得用户地理方面的数据信息。第三,基于用户使用社交网络账号关联登录后,系统对于用户社交圈和社交关系的分析,来得到关于用户更清楚的社会化画像,从职业身份或共同爱好入手计算用户的兴趣和需求。最后,系统通过把用户行为、地理、社交三方面特征组合,利用算法综合实现对用户偏好和个性需要的挖掘。

但是,伴随着个性化推送新闻的发展,也出现了“信息茧房”这种对现代人接收信息弊大于利的问题。有学者认为出现“信息茧房”的主要原因是,在互联网时代,人们可以完全根据自己的爱好定制信息,从海量信息中随意选择自己关注的话题,久而久之,这种“个人日报”式的信息选择行为会导致网络茧房的出现。当商业信息服务利用个人定制的需求开始为个人提供个性化新闻时,人们会不自觉地失去了解不同事物的能力和接触机会,深陷个人“信息茧房”之中。减轻“信息茧房”负面影响的方法首先是要提高算法对个人信息需求的构面了解,不但要满足受众显性的,比如根据行为特征收集到的需求,还要结合其社交圈子,综合改善个性化推送新闻对用户需求的完整定义和把握,尽可能避免越推送越窄,越推送越偏的现象。







