数据来源:知乎爬取(一万条),鉴于数据样本较小且考虑到取样可能存在偏差,该分析仅用于数据分析实例练习。
工具:Excel、tableau、mysql、navicat
先用Excel进行简单的数据处理--删除空行、删除重复项、无关数据隐藏。
通过mysql(由navicat导入,此前excel文件无关数据尽量做删除处理)和tableau对数据进行分析。
1、用户性别比例。分别通过mysql、tableau饼图发现一万条数据中,男性(m)占比约四分之三,女性(f)仅四分之一左右。
2、用户登记学校与否的比例。比较登记学校和没有登记学校的人数,发现97.9%的用户没有对学校进行登记,可能多数用户对个人信息的保护意识比较强烈,也可能是注册的时候觉得麻烦并未填写。
用户登记学校与否男女比例。分别对男、女用户登记学校百分比进行对比发现,男生登记学校的比例高于女生。说明跟女生相比,男生更不在乎别人知道自己更多的信息。(左边为男生,右边为女生)
3、用户工作领域分布。未标记工作领域用户占比45.17%。标记了工作领域的用户中,互联网行业占多数,可能在互联网从业人员眼中,知乎是一个可以分享和学习的比较不错的工具。
同时没有标记工作领域的男性和女性的比例也接近3:1。
比较有意思的是,互联网从业者男女比例低于这一平均比例,倒也不算失衡,实际情况应该不会如此乐观吧。
4、行业粉丝数(可能某种程度也可以说用户粉丝数)的多少和那些因素有关呢?
这是知乎行业的粉丝排行榜,这张图给我的疑问太多。是不是回答的数量越多,粉丝越多呢?是不是获得感谢越多,粉丝越多呢?是不是文章写得越多,粉丝越多呢?
带着上述疑问,我做了如下这张图,根据分析结果,上面这几个疑问的答案就不言而喻了。并不是答题数越多,粉丝就越多,这也提醒大家,产出高质量的答案和文章,比高数量的答案和文章更有价值,更能得到别人的关注。由于提取的用户数据多数没有标记城市,所以比较喜欢作答的地区没有办法进行数据分析,有点遗憾。
5、那么各行业的好奇宝宝(提问最多)与热心市民(答题最多)分别是哪一位呢? 博物馆行业平均答题数最高,刚好与我们对行业的直观认知相契合。此处数据统计可用mysql或excel透视表实现。
6、用户粉丝数与答题数、获得感谢数的关系是不是和行业粉丝数一致呢?通过下面这个图可以看出,用户的粉丝数和回答数及感谢数没有必然的联系,与上面的行业粉丝数一样,回答问题质量高,粉丝数才会高。
7、那么男女用户答题数、提问数、获得感谢数和粉丝数有什么区别呢?
对比发现,男用户比女用户更喜欢提问与回答,社区积极性更高。同时女用户的粉丝数和感谢数与男用户基本持平,结合答题数来说,女用户答题质量更高一些,分析认为女生更倾向于围观。
8、总结(数据只有一万条,在分析过程中会存在较大误差,以下结论对此不予考虑)
1)针对1、7两个问题,知乎可以从女用户视角入手来增加其用户数,对女性群体的共同特点、兴趣点等进行挖掘分析,开发出服务于女用户的板块,满足这类用户群体的需求。
2)针对用户是否登记学校的问题,建议知乎从某种角度(例如,对登记了学校的用户赠送知乎盐值等)鼓励用户登记学校,然后将同一学校的用户进行分类,设计一个校友推荐板块(类似大街网),方便交流,增加用户粘性。另外,可以设置通过学校查找用户所在地址,设计一个同城板块。
3)对于填写工作领域的问题,用户在注册知乎时,应给以提醒(例:登记工作领域可以将工作领域和推荐内容更好的进行匹配),进而增强行业板块话题热度。
4)知乎的初衷就是让每个人高效获得可信赖的解答,针对上面的4、5、6三个问题,可从用户粘性的角度出发采取相应措施(将知乎盐值和盐选会员挂钩,盐值越高,开通会员的价格梯度越低,价格梯度根据知乎盈利情况设定)。
来源:oschina
链接:https://my.oschina.net/u/4289610/blog/3417972