一张黑底、红点,左右两侧列着各国确诊、死亡和恢复病例的地图,成为近来一些国际新闻的背景图片。
美国副总统彭斯去卫生部视察时,美国卫生部就用这张地图监测全国病例,意大利总理、德国内阁开会时,身后电子屏幕也正在依靠这张地图展示疫情实时情况。
这个数据地图由美国约翰·霍普金斯大学系统科学与工程中心(CSSE)一年级博士生董恩盛等人发起并维护。
最初,他只是想要通过追踪数据来观察一场疫情从生到死的整个过程,用这些数据作为他研究疾病的工具,如今,这个每日点击量超过10亿的网站,已经成为多国政府高层、公共卫生学者和主流媒体引用最多的疫情数据来源,更新和运营这个网站成了董恩盛的“主业”。
(董恩盛(右)、杜鸿儒今年1月在美国参加学术会议。)
“无心插柳”的网红数据项目
1月21日寒假过后,在一次博士生组会上,董恩盛的导师、系统科学与工程中心副教授劳伦·加德纳和大家聊起新学期的计划,听说中国的新冠肺炎很严重,便问董要不要做个数据仪表板?
董恩盛的研究方向是疾病模型,也就是用数学模型和计算机代码来解释一些流行病学、公共健康方面的问题,对全球流行病的发展趋势做基本的判断和推测。
当时他已经在搜集数据准备做这个事情了,两人一拍即合,七八个小时后,第一版疫情可视化地图就做好了,1月22日,这个网站便正式面世了。
去年5、6月份的时候,董恩盛与劳伦·加德纳便在另一个流行病风险性分析项目中做了一个类似的数据可视化地图,当时引来一些美国主流媒体的报道。
所以,他说技术思路上是比较成熟的,很快就能调试上线;
另一方面,由于他的中文优势,去中国国家卫健委上面抓取数据即可,所以早期团队在中国疫情上比全球其他一些数据来源更及时。
起初几天,数据都靠他手动整理,每天最多能保持4~5次更新。
2月1日之后,这种方式变得不可持续,于是项目转为半自动化更新:中国的疫情数据来自丁香园的自动更新,而其他国家的数据依然需要人工审核。
为了发现各国新增病例,他们的监测渠道包括世界卫生组织(WHO)、推特、新闻报道、地方卫生部门提供的数据等等。
这一阶段,另一个博士生杜鸿儒也加入数据收集和图表的制作中来。
到了3月初,这个数据小组将美国疫情信息具体到县一级层面。“因为美国郡县大概有3000多个,再加上世界上有200多个国家和地区,人工完成非常吃力。”
董恩盛告诉记者,于是小组招募了一些志愿者,把人员分了很多组,有的组负责国外,有的组负责美国国内不同地区,然后24小时不间断地发布最新数据。
2月19日,董恩盛、杜鸿儒与劳伦·加德纳发表在《柳叶刀》杂志上的文章介绍了这项工作。
文章对比了约翰·霍普金斯大学系统科学与工程中心、WHO和中国疾控中心的数据报告。
结果发现,他们的病例数据与后二者报告一致,而且他们在捕获新国家或地区中首次报告的COVID-19(新冠病毒)病例上更加及时。
董恩盛说,WHO分为不同区域,各区域会及时更新数据,但是等到汇总到总部正式发布时,通常是第二天了——当然,也有极个别意外,尤其是最初全依赖人工操作时。
有一个周六的早晨澳大利亚报告了首例确诊病例,但因为董恩盛当时在睡觉,就没有及时更新。
这个过程中还有很多具体的困难。
比如,2月中旬部分“钻石公主号”邮轮旅客撤回到美国。由于患者具体位置不明,他们就选择了将点标记在美国相对的地理中心——堪萨斯州。
但有些美国人放大地图,最后发现这个点落在他们小区上,以为自己小区竟然有病例,便层层上报,后来学校让他们赶紧调整一下,于是标记点暂时放回了日本横滨港。
如何统一好数据的定义也是个问题。虽然用户看到的是“确诊病例”“死亡人数”这些标签,但团队实际面对的却是各国甚至同一国家对于这些概念不同的定义。
比如,董恩盛说,一开始美国CDC统计的“确诊病例”需要核酸检测呈阳性加上CDC认定才算确诊,但是他们采用“推定阳性病例”的估算,亦即确诊数据是指由州或地方实验室确认的病例,但未经CDC证实,因此数字要比CDC的大一些。
可靠的数据是研究和决策的基础
在线科技出版物Digital Trends3月28日发表文章《最可靠的新冠疫情仪表板》,其中提到六种可视化疫情数据通报平台,约翰·霍普金斯的这套系统获得最高评价。原因是该平台“可视化设计最好,导航明晰、阅读方便,且是六个平台中更新最频繁的。”
美国疾控中心(CDC)也是其中一个平台。
不过,该网站标注:该页面从周一中午至周五定期更新,显示的数据为截至前一天下午4时的统计结果。
另外还有文字提示:CDC与各州和地方的公共卫生部门报告的病例存在差异,各州通报的病例为最新数据。董恩盛说,疫情早期CDC的数据精度比较低,它只是报告每个州病例数量范围。
这样的运作模式使得CDC的数据可视化不如约翰·霍普金斯大学的这个数据项目受欢迎。
在3月6日于华盛顿国会山举行的一场简介会上,劳伦·加德纳介绍,这个仪表板受到关注有一段时间了,现在平均每天点击量为10亿,最高峰一天点击达20亿。
其间有过几次高峰,例如,当意大利疫情暴发时,许多意大利民众涌入网站,意大利用户数超过了美国。
由牛津大学创立的“用数据看世界”网站解释,他们在监测全球各国新冠疫情数据时,最初参照3个数据源:世卫组织、欧洲疾病预防控制中心(ECDC)以及霍普金斯大学。
目前他们已经放弃从世卫组织获取数据,一方面是因为世卫在3月18日修改了每日统计截止时间,另一方面在于其数据库曾出现过错误。
“谁在使用这个仪表板?据我所知,几乎每个人都在使用。它几乎在所有的社交媒体渠道上走红,一直火到美国地方政府、州、联邦政府、公共卫生机构。”劳伦·加德纳说,这说明人们对于可靠的、值得信赖的、客观的信息有巨大需求,所以她认为,非常重要的是看到这种(需求与满足之间的)差距,并且支持这类数据可视化工具走向公众。
约翰·霍普金斯大学是美国的一所研究性大学,也是全美最近连续33年来科研经费开支最高的大学,其公共卫生学院多年来排名全美第一。
美国对外关系委员会全球卫生高级研究员黄严忠说,美国信息渠道很丰富,既有官方的CDC和各州公共卫生部门数据,也有民间机构、高校和媒体的数据更新,这样多元的数据渠道使得疫情更加透明。而约翰·霍普金斯大学的数据地图便是其中一个出色的例子。
复旦大学公共卫生学院原院长、中华预防医学会新冠肺炎防控专家组成员姜庆五告诉记者,在疫情中,任何数据都要公开、透明,保证真实性,否则流行病学家、数学家无法做出判断,也就不能为决策提供可靠的指导。
霍普金斯团队较高质量的数据成为诸多研究团队进行学术研究的基础,是科学界了解新冠疫情的重要信息来源。
董恩盛说,每天他们都会在固定时间发布准确的数据,全世界的学者都可以看到,这方便学者们进行基于时间序列的疫情分析,“而时间序列分析在流行病学,尤其是对于疾病的预测方面有非常关键的作用。”
现在,该数据地图的自动化程度越来越高了,而且学校也给予了很多技术和人力支持。接下来董恩盛希望配合他的导师,利用这些数据研究一下哪些地方比较容易受到新冠病毒的攻击,疫情什么时候会出现拐点等等。
编辑: 应波纠错:171964650@qq.com