分享⑨:我们是如何在一张地图上表现86万个数据的

发表于 讨论求助 2023-05-10 14:56:27

来源:百度新闻实验室

9月12日,在由中国传媒大学国际传媒教育学院、财新数据可视化实验室、百度新闻实验室联合主办的“京华论道——2015可视化与数据新闻分享会”上,超图软件统计事业部技术总监黄骞带来了他在负责国家第三次人口数据普查数据可视化项目中的心得。在该项目里,他需要将86万个数据容纳到一张图当中。他坦言巨大的数据体量让他重新审视了可视化的本质,他认为“可视化需要简洁化表达”。他表达着对当下可视化浮躁、过度表达的不安,也语出惊人地说出“数据可视化是一个‘谎言’”的观点。



以下为演讲实录:




作为一名数据工作者,我每天会接触到很多的数据可视化成果,美好的可视化作品简洁明快炫酷非常,让人心情舒畅。

但是不佳的数据可视化也越来越多。比如这张信息图,通过大大小小的飞机图标展示某岛空军部署情况,但读者能从中迅速获取所表达的信息吗?如果用“数字+图标”重新设计这张图能否更加清晰?最后,这张图也是密集恐惧者的一场灾难。【台下笑】




我认为目前可视化正在快速进入泡沫期。每天在诞生各类优秀作品的同时,会出现数倍的劣质作品。原因在哪里?

我的答案是——

技术的发展激发了人类过度表达的欲望。


2000年前,那时我们的祖先在竹简上刻字,镌刻每一个字都非常辛苦,技术落后使我们的表达简洁,比如说《老子》五千言,文辞深邃,流转久远,陈鼓应先生用厚厚一本书注译。而现在我们有了电脑输入法,打字飞快。但是结果呢(如下图)?【台下笑】


技术的发展在解放生产力的同时,也解放了过度表达的欲望,而这个势头正在数据可视化领域重演。


在现代工具的帮助下,我们点两下鼠标就可以做出精美的图表,而类似的图表在三五年前还要需要专业绘图者花两三天才能做出来。传播就更容易了,轻轻点击按纽就可以立刻传到朋友圈让大家看到【台下笑】。




极简主义面前,数据可视化需要回答的三个问题




这个时代可视化更需要简洁表达。极简主义目前很流行,但做到并不容易,一方面是由于技术局限,另一方面是必须努力控制自身表达欲望。一年前我们也经历了一场理智与欲望的斗争。


2013年,。这是人类历史上空前的一次壮举!国家动用了300多万基层调查员,对960万平方公里上的1200多万个经济单位,进行上千个指标的详细地毯式普查。


我们的团队为国家统计系统建设了十多年的统计地理信息系统,所以2014年接受了一个光荣而艰巨的任务把全国33个省(不包括台湾)328个地市、2000多个县的数据展示在一张地图上,一共3次经济普查每个地区包含90多个指标,总数据量达到86万个。

这个可视化工作很困难。迫使我们去思考三个关键的问题:




数据可视化的目的是什么?

作用对象是谁?

传递信息的关键是什么?

我想到了多年前看过无印良品的创始人原研哉撰写的《设计中的设计》,其中提到“Visualogue”的概念,也就是视觉对话。可以设想两个语言、文字不通的陌生人,给他们一张纸,一杆笔,他们一定是最简洁的方式把自己的想法画下来交流,这就是用视觉对话。这其实就是数据可视化的本质,通过可视化图表将对领域陌生的读者用比文字快十倍百倍的速度带进门。



这给了我一个启示,了解了人类的对话也许是理解可视化的钥匙。所以我破解了一次对话。所有对话都从信息源开始,信息经历通道传输给接收者,并形成反馈,此外还需要考虑来自环境的噪音以及人为噪音——语言中的无效信息。所有对话都是由这样的基本单元组成。





提升可视化效率的三个方法



参照对话模型就可以发现数据可视化的优化密码。提升对话效率通常有三个方法:




第一个是明确,明确的说话内容,

第二需要逻辑,每句话之间需要有关系,

第三是剔除噪音,包括自然和认为的噪音。



在数据可视化领域相对应的三项技术就是数据降维、关联关系和扁平交互。



1
数据降维



数据降维被认为是大数据处理的首要任务。而迄今为止最有效的降维方法依旧是人类已经使用上千年的分类。在没有计算机的时代,图书馆使用分类技术让我们在短时间内可以在成千上万本书中找到需要的信息。


在地理可视化中也充分利用分类技术,分析发现86万数据是可以分为时间和地区两个分组,而90多个指标可以分为综合信息,第三产业,第二产业、能源四大类。这三大维度时间、地区和指标构成数据空间,三个维度值确定就可以获得唯一的数据,比如北京市(地区)2013年(时间)的就业人口总数(指标);




如果确定两个维度就可以获得一个相关的数据集,例如2013年(时间)单位总数(指标),其全国分布图。


我们在是否尝试去了解分析自己面对的数据,良好的数据分类整理是实现优质的可视化的最好起点。




2
关联关系



数据本身并无意义,只有相关才能产生含义与价值,所以关联关系时则从数据到知识跃迁的过程.此过程需要将零散数据集聚,叫做信息加工。


可视化不同于文字,知识不是直白的说出来,而是用隐喻方式表达,综合利用颜色、大小、联动等视觉习惯让读者在不知不觉中自然感受到数据的差异和关联。

地图上不同颜色深浅代表数据值的大小,图标的大小和内容可以代表数据总量大小,和不同成分差异。

数据联动主要体现在人机交互中,随着鼠标移动数据同步变化,此外关联的栏目页随时更新当前热点区域的指标排名和三次经济普查的变化趋势,整个过程基本不依赖文字语言,读者可以直观感受到数据的变化。





3
扁平交互



计算机与手机屏幕是有限的,每增加一个颜色和要素都会增加进入眼睛的信息量,从而干扰对信息的传输,所以要严格控制进入用户眼睛每一个比特,避免冲淡可视化主题。


地理可视化中采取了两种方式实现数据隐藏,一种是逐级钻取,可以充分利用地域的天然的分级包含关系,使得信息不用不一下子全部展开,而是随着“省-市-县”层次逐级展示;另一种是扩展图示

将复杂的信息浓缩为简单的图标,只有读者感兴趣的时候才点击展开。





数据可视化是一个“谎言”



从某种意义上说可视化是一个“谎言”,现在不缺乏数据展示,缺乏的是数据隐藏,只有充分的数据隐藏才能有效的数据展示。这是可视化的关键。


什么叫隐藏?不是不让读者看到这个数据,而是分不同的场合、不同的时间段展示不同的数据,只有当读者需要了才展示,而不是一下子将所有数据铺开来,否则其实是对数据的滥用,也阻碍了读者获取信息。


感谢我们不屈不挠,创意无限的优秀团队,感谢你们为此熬过的多少个不眠之夜,作为你们的一员,我非常骄傲。

我们也于8月份把作品放在国家数据网站上,让全国乃至全球的读者都可以分享中国第三次全国经济普查这项人类壮举的喜悦。
千言万语不如一张图”

但是为什么还会出现过度表达现象呢?我想这和更爱自己还是更爱世界有关,如果一个人更希望去炫耀自己的技术和数据,那么很有可能选择复杂的可视化,如果一个人更关注传递给读者有效信息,那么他肯定会选择简洁的可视化。

所以请行动吧,审视自己的每一幅作品,每一段文字,每一张图片,大胆的剃掉不必要的部分,你会发现舍弃的越多,你将获得的会更多。

发表
26906人 签到看排名