IBM提供用于新冠病毒数据分析的开源笔记本
IBM周四发布了一个新的开源工具包,该工具包旨在为开发人员和数据科学家提供帮助,以帮助他们发现正在进行的新冠病毒流行的趋势。这些工具包使用易于开发人员使用的Jupyter笔记本,旨在启动深入分析的方式。例如,用户可以分析美国的县级数据,以找到贫困水平和感染率之间的相关性。
冠状病毒:疫情中的业务和技术
从取消会议到混乱的供应链,全球经济的某个角落都无法避免新冠病毒的扩散。
“ IBM和我们的团队深信技术民主化的重要性,要用最新的数据集和工具来激活开发人员,这可以帮助决策者做出最明智的决策,以维护公民的福祉,” Frederick Reiss,首席架构师IBM的开放源数据和AI技术中心在博客文章中写道。
该工具包可从权威来源汇总并清除新冠病毒数据,并使用Pandas和Scikit-Learn之类的工具对其进行格式化以进行分析。该COVID笔记本电脑依靠从一些关键的,权威的数据源的数据:对于来自美国的县级数据,IBM依赖于从数据COVID-19数据储存库,由中心系统科学与工程(CSSE)运行在约翰霍普金斯大学大学。为了补充这些信息,该工具包依赖于美国资料库中的《纽约时报冠状病毒(新冠病毒)数据》和《纽约市每日新闻》摘要的数据来自纽约市卫生和心理卫生部门。对于其他国家/地区,笔记本电脑使用的是欧洲疾病预防控制中心关于全球新冠病毒病例地理分布的数据。
由于笔记本每天运行,因此它们会在运行时下载数据集。此外,数据集的许可条款禁止商业实体重新分发数据。
为了帮助用户使笔记本电脑保持最新信息,IBM还创建了数据处理管道。例如,如下图所示,用户可以为美国的县级时间序列数据构建管道。每个框代表一个Jupyter笔记本。用户可以单击工作流程上方工具栏中的箭头,以将整个笔记本集发送到云中。从那里开始,所有笔记本都在Kubeflow Pipelines上运行,并将结果保存到云提供商的对象存储中。
Reiss写道:“重要的是要注意,新冠病毒的基础数据每天都在变化。” “在建立自己的分析时,您将需要经常更新自己笔记本的结果。”