奶茶起源于中国北方游牧民族,知名于中国台湾。早期的台湾奶茶品牌,如CoCo、50岚、老虎茶等等。前两家CoCo和50岚(现在的1点点)都已经成为中国大陆大型的连锁奶茶店。随着奶茶越来越受大众喜爱,涌现出更多的本土奶茶品牌,如蜜雪冰城、益禾堂。再到如今的网红时代,由于不同奶茶品牌的口味差异不大,如何更好地营销自己的奶茶品牌,让消费者能从众多奶茶中翻到自己的牌子,变得更加重要。例如奈雪的茶主打高端路线,奶茶均价在40元左右;喜茶主打品牌差异化,注重茶饮口感的同时营造店面排长龙的“时尚文化”。
图1 奶茶发展史
1-数据获取
本文数据来源于美团网,抓取了12个热门城市的奶茶店名单,城市包括:北京、上海、广州、深圳、天津、西安、重庆、杭州、南京、武汉、成都和长沙。共计68614家奶茶店,3万多个奶茶品牌。在构建抓取URL时,需要注意将城市的维度具体到城市商圈,因为每个URL最多只显示32页内容,保证抓取每个城市时的数据量是准确的。
# 构建抓取URL
def get_url_1():
for city,city_code in city_dict.items():
for block_dict in area_dict[city]:
for children in block_dict['children']:
for page in range(1,33):
block_code = children['id']
offset = 32 * (page-1)
# print(city, area, block, block_code)
url = 'https://apimobile.meituan.com/group/v4/poi/pcsearch/{}?uuid=6ddabcb37fdd4a8e9cdf.1599125825.1.0.0&userid=280531290&limit=32&offset={}&cateId=-1&q=奶茶果汁&areaId={}&sort=solds'.format(city_code,offset,block_code)
redis_db.sadd('meituan_milk', url)
2-数据清洗
数据清洗部分,主要清洗了奶茶店铺名称,虽然数据均来源于美团网,但是同一个奶茶品牌会有多种格式,如1点点和1點點,大卡司和大卡司DAKASI。由于奶茶品牌数量众多,并且真假难辨,所以只能进行针对性清洗,对部分名气高的奶茶品牌名称要保证其统一。
# 清洗字段
def clean(x):
title = re.sub(u"(.*?)", "", x['title'])
title = title.replace('點點','点点').replace('(','').replace(')','')
title = title.replace('一点点','1点点')
if '一杯会说话的茶' in title:
title = '1314一杯会说话的茶'
elif '大卡司' in title:
title = '大卡司DAKASI'
elif '1点点' in title:
title = '1点点'
elif '都可' in title:
title = 'CoCo都可'
elif '书亦烧仙草' in title:
title = '书亦烧仙草'
elif '蜜雪冰城' in title:
title = '蜜雪冰城'
elif 'royal' in title or 'Royal' in title or 'ROYAL' in title:
title = 'Royaltea皇茶'
elif 'ALS' in title:
title = 'ALS GONG CHA贡茶'
elif 'GONG' in title:
title = '贡茶'
elif '茶百道' in title:
title = '茶百道'
elif '吾饮良品' in title:
title = '吾饮良品'
elif '悸动烧仙草' in title:
title = '悸动烧仙草'
elif '沪上阿姨' in title:
title = '沪上阿姨'
elif '7分甜' in title:
title = '7分甜'
elif '古茗' in title:
title = '古茗'
elif '奈雪' in title:
title = '奈雪の茶'
elif '悦色' in title:
title = '茶颜悦色'
else:
pass
return title
df['title'] = df.apply(clean, axis=1)
3-数据可视化
当笔者在制作可视化图表的时候,会发现有些奶茶品牌的名称极为相似,让人有一种傻傻分不清楚的感觉。
图2 类似的奶茶品牌名称
图3 热门城市奶茶店铺数量情况
图4 奶茶品牌店铺数量 TOP15
图5 特色奶茶分布情况
图6 大众奶茶分布情况
图7 奶茶品牌均价情况
4-结语
此次笔者只分析了12个热门城市的奶茶门店数据,如果将范围扩展到全国进行分析,或许能得到更多有意思的结果。另外,由于奶茶的含糖量高,茶叶中又含有咖啡因,容易导致肥胖和失眠,毕竟某个周姓天王歌手由于爱好奶茶已经日益发胖,就是最好的样例。身边也有朋友说晚上喝完奶茶,会睁眼到天亮的情况,所以奶茶不能多喝。目前也有部分品牌开始推出无糖茶,用代糖来代替白糖,这也许是奶茶的未来趋势,既好喝又健康的奶茶,谁不爱呢?最后,如果有同事或朋友想请你喝奶茶,请参考图7价格表,好好“善待”一番吧。
回复下方 「关键词」,获取优质资源
回复关键词 「linux」,即可获取 185 页 Linux 工具快速教程手册和154页的Linux笔记。
回复关键词 「Python进阶」,即可获取 106 页 Python 进阶文档 PDF
回复关键词 「Python面试题」,即可获取最新 100道 面试题 PDF
回复关键词 「python数据分析」,即可获取47页python数据分析与自然语言处理的 PDF
回复关键词 「python爬虫」,满满五份PPT爬虫教程和70多个案例
回复关键词 「Python最强基础学习文档」,即可获取 168 页 Python 最强基础学习文档 PDF,让你快速入门Python
回复关键词 「linux」,即可获取 185 页 Linux 工具快速教程手册和154页的Linux笔记。
回复关键词 「Python进阶」,即可获取 106 页 Python 进阶文档 PDF
回复关键词 「Python面试题」,即可获取最新 100道 面试题 PDF
回复关键词 「python数据分析」,即可获取47页python数据分析与自然语言处理的 PDF
回复关键词 「python爬虫」,满满五份PPT爬虫教程和70多个案例
end
推荐我的微信号
来围观我的朋友圈,我的经验分享,技术更新,不定期送书,坑位有限,速速扫码添加!
备注:开发方向_昵称_城市,另送你10本Python电子书!
本文分享自微信公众号 - 印象Python(Python_logic)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。
来源:oschina
链接:https://my.oschina.net/u/3742960/blog/4653419