高邮做网站推广普通话的意义简短
工作的这几年,点了不知道多少外卖。从最开始的石景山到后来的海淀再到朝阳。外卖已经成了大部分上班族生活中不可或缺的一部分,中午公司附近的餐厅人满为患,只能点外卖!晚上加班,还是点外卖!! 偶尔下班早了,路上买了菜买了肉准备大展身手,回到了合租的房子,发现隔壁小姐姐和男朋友在厨房做饭。得嘞,又一次打开App,点外卖!
有时候又会面临这样的烦恼,今天吃个啥?这家麻辣烫不错,另一家麻辣香锅也不错,突然发现又有一家的专享红包快过期了。
今天正好有空,想统计一下过去时间里我在饿了么上的订单情况,看看这些日子里,吃了什么?贡献了多少钱,当然再看看有什么好吃的已经很久没吃了。
经过多次测试,总结了以下几条
为了方便可以在网页访问饿了么,登录自己的账号
饿了么目前只能看到18年之后的账单
请求中只要携带包含登录信息的Cookie即可
近三个月订单与更早的订单,请求接口和参数稍有不同
通过手机&验证码登录自己的饿了么账号,成功之后会返回当前用户的user_id 和 登录Cookie。这两个信息为后续的请求提供必要的信息。
一开始访问订单,是这样的请求
h5.ele.me/restapi/bos/v2/users/26803312/orders?limit=8&offset=0h5.ele.me/restapi/bos/v2/users/26803312/orders?limit=8&offset=8h5.ele.me/restapi/bos/v2/users/26803312/orders?limit=8&offset=16
当继续下拉,出现"查看三个月前的外卖订单"按钮时,请求是这样的
h5.ele.me/restapi/bos/v2/users/26803312/old_orders?limit=8&from_time=h5.ele.me/restapi/bos/v2/users/26803312/old_orders?limit=8&from_time=1557718107
from_time的值在上次请求的响应中可以看到:
获取订单部分代码如下所示:
"""获取近3个月订单
"""
def get_new_order():num = 0while 1:# 偏移量offset = num * limitresponse = requests.get(url + f'?limit={limit}&offset={offset}', headers=headers, verify=False)resp_json = response.json()insert_mongo(resp_json)# 当响应订单数小于8时 跳出循环if len(resp_json) < 8:print('====================')breaknum += 1
"""
历史订单
"""
def history_order():from_time = ''while 1:response = requests.get(old_url + f'?limit={limit}&from_time={from_time}', headers=headers, verify=False)resp_json = response.json()from_time = resp_json['from_time']orders = resp_json['orders']# 经过测试,最后一个订单时,会在请求一次 响应为空if not orders:breakinsert_mongo(orders)
运行之后发现,这一年多的时间,光外卖竟然花费了1W多一点。爬取的数据可以选择将数据保存在csv文件中,也可以选择Mongod。这里我是插入到了MongoDB中。
def insert_mongo(resp_json):if not resp_json:return for i in resp_json:# 菜品foods_group = i['basket']['group'][0]for j in foods_group:j['name'] = clean_data(j['name'])with open('foods_name_banxia.txt', 'a+') as f:f.write(j['name'] + '\n') # 将菜品写入文件,方便处理 # 配送费deliver_price = 0if 'deliver_fee' in i['basket'].keys():deliver_price = i['basket']['deliver_fee']['price']# 计算总花费global totaltotal += i['total_amount']# 餐馆名restaurant_name = clean_data(i['restaurant_name'])with open('restaurant_name_banxia.txt', 'a+') as f:f.write(restaurant_name + '\n') # 记录餐馆名clo.insert_one({# 餐馆名'restaurant_name': restaurant_name,# 订单时间 formatted_created_at也可以取,但是近期的会显示xx小时之前'created_timestamp': time_convert(i['created_timestamp']),# 价格'total_amount': i['total_amount'],'foods_group': foods_group,'deliver_price': deliver_price})
在查看数据过程中,发现有的菜品和店铺名后面都有括号、或者方括号等特殊字符,里面的信息对我们来说也没有什么价值。可以简单的进行处理一下。
import re
def clean_data(data):a = re.sub("\\(.*?\\)|\\(.*?\\)|\\[.*?\\]|\\【.*?\\】|[A-Za-z0-9\@\\!\/]", "", data)a = a.replace('盒', '').replace('克', '').replace('个', '')\.replace('大份', '').replace('小份', '').replace('瓶', '').replace('组', '').replace(' ','')return a
这样,我们就将订单中的信息存在了数据库中。为了方便统计我将每个订单的菜品、以及餐馆名保存在了txt文件中。
可以通过wordcloud将餐品进行一个简单的可视化。
from random import randint
from matplotlib import pyplot as plt
from wordcloud import WordCloud
def random_color(word=None, font_size=None, position=None, orientation=None, font_path=None, random_state=None):"""Random Color func"""r = randint(30, 255)g = randint(30, 180)b = int(100.0 * float(randint(60, 120)) / 255.0)return "rgb({:.0f}, {:.0f}, {:.0f})".format(r, g, b)
content = open('foods_name.txt', encoding='utf-8').read()
wordcloud = WordCloud(background_color="white",width=1000,height=600,max_font_size=50,font_path='/System/Library/Fonts/PingFang.ttc', # 需要根据实际操作系统更换路径color_func=random_color).generate(content)
plt.imshow(wordcloud)
plt.axis("off")
plt.savefig('ele_wordcloud.png', format='png', dpi=200)
结果如下,有没有口味一样的同学呢?
同样我们可以在终端通过sort命令去常光顾的餐馆进行统计。
sort -n 按照数值大小排序 升序
sort -r 降序排列
uniq -c 去重和统计
head -5 展示前5条
cat mao_out.txt | sort | uniq -c | sort -rg | head -5
结果如下 去的最多的是贡贡米线和张亮麻辣烫,统计范围内均光顾了14次。
Python3XXXAir:$ cat restaurant_name.txt |sort|uniq -c| sort -rg| head -5
14 贡贡米线14 张亮麻辣烫13 京客隆11 沁香缘家常菜11 小巷麻辣香锅
可以通过matplotlib去统计一下每次定外卖的价格,并展示出来。
import pymongo
import matplotlib.pyplot as plt
client = pymongo.MongoClient('mongodb://localhost:27017/')
db = client['ele']
clo = db['info_banxia']
result = clo.find({})
y = [i['total_amount'] for i in result]
x = [i for i in range(len(y))]
plt.ylabel("The unit price")
plt.xlabel("Times")
plt.plot(x, y)
plt.show()
结果图:
可以看出,大部分价格在20 ~ 40 之间, 因为有时候为了满减,大部分都是跟同事朋友一起拼单。偶尔超过这个范围是买的水果、药等一些商品。
从这些数据中,我们同样得出,哪个月定外卖次数最为频繁。
# 该月定外卖次数
count = []
for i in data:ele_count = clo.count({'created_timestamp': re.compile(i)})count.append(ele_count)
plt.scatter(data, count)
plt.xticks(rotation=45)
plt.show()
可以看出 18年3月定了22次外卖是最多的一次。11月份的时候定外卖次数最少。
有人陪着一起,谁还愿意一直吃外卖啊!心塞!最后,大家辛苦工作的同时,也要多注意饮食卫生哟。