从Python取数到BI分析,它只用10分钟就做出了疫情可视化
最近大家最关心的事情是什么?那肯定是疫情了,不能出门的感觉真的很难受有没有? 我的内心和该腾讯员工一样: 为什么会变成这个样子阿!不吃野味会死吗?(此处省略无数字....) 可是生活还是要继续,我们能做的就是不添乱,自我防护。 为了让大家能更了解疫情,我在这里用数据可视化分析出了全国的疫情情况。 根据国家卫健委所公布的数据,我们可以看到重灾区依然是整个湖北省,浙江广东因为人流量较大的原因,也已经变成了重点区域。 一、数据哪里来? 网站的数据是定时更新的,可能上午看到的数据,下午就会更新,而且差异很大。而通过Excel进行数据汇总时,效率不高,很难做到完全同步。 因此我在考虑,利用Python进行抓包,并封装成为.exe文件,点击就可以自动下载数据,并以csv格式,进行结构化的存储,方便大家的各种使用。 这个工具每运行一次,就会从“腾讯新闻”疫情实时播报网站上,抓取并更新一次数据,并存储到你的电脑D盘(C盘往往需要更高权限读写)。 下载完成的csv文件格式如下: 其实,这个数据无论对企业、个人,还是对我们了解疫情变化发展趋势,都是非常实用。而且我看到网上有很多人,会从不同维度分析问题,作为基础数据也将很有帮助。 二、拿什么分析? 上面说了,拿Excel之类的工具进行数据分析最大的坏处就是数据不能同步,得需要手动录入,而且熟悉数据行业的人应该都知道,Excel遇到大数据就会卡死。 其实