技术黑科技轻松选酒店,大连地区酒店数据分析
本项目来自实验楼《 楼+ 数据分析与挖掘实战 》第6期学员 Miss_candy。《楼+数据分析与挖掘实战》是实验楼以满足数据分析或数据挖掘初级工程师职位需求而定制的课程内容。包含 35 个实验,20 个挑战,5 个综合项目,1 个大项目。6 周时间,让你入门数据分析与挖掘。 数据读取 数据是在2019-08-27日取得的,08-28~08-29号的酒店价格,酒店价格会随着旅游淡旺季有浮动变化,目前大连属于季节转换的交界处,价格水平趋于合理但仍比正常水平偏高。 import pandas as pd import jieba from tqdm import tqdm_notebook from wordcloud import WordCloud import numpy as np from gensim.models import Word2Vec import warnings warnings.filterwarnings('ignore') df = pd.read_csv('https://s3.huhuhang.com/temporary/b1vzDs.csv') df.shape 输出: (2475, 7) 数据清洗 #获取的数据会有重复的情况,首先根据酒店的名字将一项,将名称完全相同的项从数据表中删除 df = df.drop_duplicates([