美国政府计算机网站(gcn)2020年3月4日刊文称,加拿大数据评估公共健康风险公司bluedot比疾控中心和世卫组织提前几天发出新冠病毒预警,该亮眼表现在最近几周频频见诸报端。bluedot能做到这一点,归功于对官方病例数据之外其他多源信息源的利用。
bluedot的人工智能算法是一种计算机程序,能随着处理数据量的增加而不断改进,它汇集了数十种语言的新闻报道、动植物疾病追踪网络的报告以及机票数据。结果是,与依赖公共卫生数据的算法相比,该算法在模拟疾病传播方面更胜一筹,足以预测疾病爆发。
传统的流行病学追踪人们何时何地感染一种疾病,以确定爆发源头以及感染风险最大的人群。类似bluedot的人工智能系统可以模拟疾病在人群中的传播方式,这样就可以预测疫情的发生地点以及病毒传播的速度和范围。但是,人工智能并不是万灵药。人工智能系统的准确性高度依赖于源数据的数量和质量。人工智能系统的设计和培训方式可能会引发伦理问题,当人工智能技术牵涉到公共卫生等关系大批人口的重要事项时,将会尤其困难。
数据决定一切
传统的疾病爆发分析着眼于爆发的地点、病例的数量和经过的时间来预测疾病在短时间内扩散的可能性。最近的研究进展利用人工智能和数据科学将更多的数据源纳入进来,从而可以对疫情爆发进行预测。随着facebook、twitter和其他社交微媒体网站的出现,越来越多的数据可以与地理位置相关联,进行数据挖掘后便可以获得疫情等事件的信息。数据可以是医务人员在论坛上对异常呼吸道病例的讨论,也可以是社交媒体上说自己染病的帖文。这些数据大多是高度非结构化的,计算机无法轻松理解。非结构化数据可以是新闻报道、航班地图、社交媒体上的消息、个人签到、视频和图像等形式。另一方面,结构化数据(如按位置报告的病例数)更为列表化,通常不需要太多的预处理就可以让计算机进行分析。
深度学习等新兴技术可以帮助理解非结构化数据。这些算法在人工神经网络上运行,该网络由数千个相互连接的小型处理器组成,非常类似于大脑中的神经元。处理器按层排列,数据在每一层进行计算,然后丢弃或传递到下一层。通过在反馈循环中层层反复处理数据,深度学习算法可以学习比如说如何识别youtube视频中的小猫。研究人员通过训练深层学习算法、识别特定类型项目的组成部分来理解非结构化数据。例如,研究人员可以通过训练几种手柄和轮缘的图像来教会算法识别杯子。这样它就可以识别多种类型的杯子,而不仅仅是具有特定特征的杯子。
任何人工智能模型的好坏都取决于训练它的数据。数据太少,疾病跟踪模型所提供的结果可能会出现偏差。数据质量也是至关重要的。控制非结构化数据(包括众包数据)的质量尤其具有挑战性,需要研究人员在将数据输入模型之前仔细过滤数据。这也许是包括bluedot团队在内的一些研究人员选择不使用社交媒体数据的原因之一。
评估数据质量的一种方法是验证人工智能模型的结果。研究人员需要对照实际情况来检查其模型的输出,这一过程叫做真值对照(ground truthing)。在公共卫生领域,不准确预测,尤其是假阳性预测,可能造成对疫情扩散的大规模恐慌。
人工智能造福大众
人工智能在确定疾病传播的地点和速度方面潜力巨大。越来越多的数据科学家使用这些技术来预测疾病的传播。研究人员也利用这些技术来模拟人们如何在城市中活动,在这一过程中有四处散播病毒的可能。但是,人工智能并不能取代在一线防疫的流行病学家和病毒学家。例如,bluedot就聘用流行病学家来确认其算法的结果。人工智能提供了更及时、更准确的警告,可以对疫情做出快速响应。关键在于将人工智能的预测能力提供给公共卫生官员,以提高他们应对疫情的能力。
即使其他条件都充分,人工智能是一切问题的技术良方,但仍将面临伦理上的挑战。数字化歧视待遇,即在计算过程中拒绝向边缘人群提供资源,它可能会影响人工智能结果,这类现象必须引起重视。例如,如果用于训练人工智能系统的数据缺少某些地区或人群的数据,整个地区或人群都可能被排除在医疗保健之外。对收集整理社交媒体数据的人工智能模型而言,数字化歧视待遇会将上网困难的群体排除在外。这些群体可能不会在社交媒体上发布信息,也不会留下许多人工智能模型所依赖的数字指纹。这可能导致人工智能系统在建议哪些地方需要资源时不够周全。
尽管新的人工智能算法层出不穷,诸如了解模型内部的运作过程、最大程度地减少误报以及识别和避免伦理问题等一些基础性问题尚未得到很好的理解,还需要进一步研究。人工智能已成为预测疾病传播的有力工具。但在目前,结合统计学与流行病学的传统方法经过时间检验依然可靠,尚无法被完全取代。
(转载)
以上是网络信息转载,信息真实性自行斟酌。










