数据分析职位招聘情况及发展前景分析
一、分析目的
了解数据分析这个职位的招聘情况以及发展前景。
二、分析维度
根据分析目的,主要提出了以下三个分析维度:
1、职位地区分布
主要对地区进行分组,对各地区职位分布数量进行对比分析;
2、工资待遇
通过对最低薪酬进行描述分析,观察整体的一个最低工资分布;
3、工作年限要求
通过对工作年限进行分组,观察岗位需求主要分布在哪几个年限段,并对工作年限对工资的影响进行了分析,有助于自己今后对职业进行规划;
4、技能要求
主要了解进入该行业所需要必备的技能;
5、学历要求
了解该职位对学历的最低要求;
6、公司福利待遇
主要分析大部分公司给与的福利有哪些,共同点是什么。
三、分析工具
这里主要想熟悉python的使用,所以主要使用了python中的pandas包、以及matplotlib。
四、数据清洗
1、数据集描述
数据集名称:拉勾网数据分析招聘情况
数据集来源:通过八爪鱼爬取拉勾网数据分析招聘数据(对于python爬虫还不太熟悉)
数据集量:431*9
2、添加列
2.1、添加最高工资(high_salary)列和最低工资(low_salary)列;
由于需要分析最低工资情况,而数据表中是按范围给出的(图a),因此需要将工资范围拆分为最高工资(high_salary)和最低工资(low_salary)(图b)。
2.2、添加地区(location)列
数据表中的地区是按每个区域的详细信息给出的(图a),而我只需要分析整个区域的情况,因此需要将区域信息中的详细信息去掉,添加location列(图b)。
图a
图b
3、处理’工作年限’列中多余字符
将’工作年限一列中的’经验’(图a)去掉(图b)。
4、处理缺失值
经过检查未出现缺失值。
5、处理重复值
未出现重复记录
五、数据分析
1、对职位的地区分布进行分析:
通过以上分析可以看出:北京和上海对数据分析岗位需求较大,其次就是广州、深圳、杭州了,如果对地区没有特别要求的话,还是很建议去北京上海等地区发展的。
2、对工资待遇进行分析
由于获取的数据是一个最低到最高工资的区间,所以本文只对最低工资进行了分析;
从上表可以看到最低工资是1000(实习生),最高工资是65000,平均工资在13k-22k,所以说该职业的薪资情况还是很可观的。
3、工作年限要求
通过分析可以看出:公司对该职位的工作年限要求主要集中在1-5年,3-5年的需求最多,其次是具有1-3年工作经验的,对于一年以下工作经验的需求量很少,5年以上需求基本上就呈现下降趋势了,基本上不需要十年以上工作经验的员工;所以打算入行的需要做好自己的职业规划,在工作中积累经验。
另外,还分析了薪资随着工作年限的变化情况,由于获取的数据是一个最低到最高工资的区间,所以只对最低工资进行了分析;如下:
由此看出:在10年内,工资无论是从最低工资、最高工资还是平均工资来看,工资水平都是随着工作年限的增加而上涨的,而且上升的幅度很大;由此可知,工作经验非常重要,所以,要做好规划,努力积累经验,至少在十年内,得到的回报是很可观的。
4、技能要求
利用wordart进行分词处理,生成了词云图如下:
从词云图可以看出,进入该行业需要学习的技能有很多,主要共同点就是需要具备统计学、excel、python/R、MySQL(sql)等知识,当然了,这些都只是工具,最重要的是数据分析的思维以及与业务知识的结合,这些都是需要在工作中不断培养的。
5、学历要求
这部分主要想分析哪些学历对该职位来说比较吃香,如下图:
很明显,大多数公司都要求有本科学历,对于大专和学历不限的需求量很少,仅从上图来看,还是有一部分公司对学历的要求是很高的,由此可以看出,该职业对于学历来说,门槛还是相对比较低的。
6、公司福利待遇
这部分依然是采用了词云图的方式来展示公司的福利构成;词云图如下所示:
可以看出,公司的共同点基本上是五险一金、带薪年假、周末双休等,其实从目前所有行业来看,五险一金基本上都是有的,只不过很难找到双休的工作,所以说,从福利来看,如果是更倾向于双休的人士,进入该行业的选择还是没错的,至少从以上分析来看,周末双休的工作还是不少的。
六、结论
通过以上几个方面的分析,大致可以得出以下几点:
(1)数据分析这个行业发展前景是很不错的,薪资水平也相对较高;
(2)就目前分布的区域来看,北上广地区相对来说发展机会多一些;
(3)从入行门槛来看,大部分公司都要求本科学历;
(4)从公司要求来看,除了一些硬性的技能要求外,工作经验也尤为重要;
(5)从各公司福利来看,各公司福利都大同小异。
最后说明一下:本文数据来源于拉勾网,所以大多数是针对的互联网行业,所以分析的不是很全面;另外,由于本人想借此熟悉python相关知识,所以利用的是python相关知识进行分析,但是该数据量很小,完全可以用excel进行分析,还有就是想绘出的图表美观最好使用其他绘图工具,比如pyecharts、tableau以及excel等相关工具。
还有就是想转行的朋友,也包括自己啦,要坚定信心哦,不要半途而废!
import pandas as pdfrom matplotlib import pyplot as pltfrom matplotlib import font_managerdf = pd.read_excel('C:/Users/Administrator/Desktop/拉勾网数据分析招聘情况(最新).xlsx')salary_low = []salary_high = []for i in range(0,len(df)):df1 = df.iloc[i]['工资待遇'].split('-')salary_low .append(df1[0])salary_high.append(df1[1])# print(salary_low)# print(salary_high)df['salary_low'] = salary_lowdf['salary_high'] = salary_high# 将工资中的看转化为'000',才能转化为int类型df['salary_low'] = df['salary_low'].str.replace('k','000')df['salary_high'] = df['salary_high'].str.replace('k','000')# 将工资列转换为int类型# df['salary_low'].astype(np.int16)# print(df['salary_high'])# df['salary_high'].astype(np.int64) #方法1df['salary_low'] = df['salary_low'].astype('i8') #方法2df['salary_high'] = df['salary_high'].astype('i8')df"""# 将工作地点进行拆分,只对市进行分组# location = []# for j in range(0,len(df)):# location1 = df.iloc[j]['工作地点'].split('·')# location.append(location1[0])# df.insert(2,'location',location)df# 这里把经验不限和应届毕业生改为1年以下# df['工作年限'] = df['工作年限'].str.replace('经验','')#df['工作年限'] = df['工作年限'].str.replace('不限','1年以下')# df['工作年限'] = df['工作年限'].str.replace('应届毕业生','1年以下')# 查看概况df.info()# 查看是否重复df.duplicated()# 删除重复值df.drop_duplicates()df.shape# 对地区进行一个分组group_by_location=df.groupby('location')[‘职位名称’].count().sort_values(ascending = False)my_font=font_manager.FontProperties(fname='C:/Windows/Fonts/msyh.ttf',size = 10)group_by_location.plot(kind = 'bar',title = '岗位分布',label = '个数',alpha = 0.4,rot = 45)plt.title('各地区职位分布',fontproperties = my_font)plt.legend(prop = my_font,loc = 'upper right')plt.xticks(fontproperties = my_font)plt.xlabel('区域名称',fontproperties = my_font)plt.savefig('./picture1.png')plt.show()# 查看下工资的大概情况df.describe()<代码># 工作年限要求df.groupby('工作年限')['公司名称'].count().sort_values(ascending = False).plot(kind = 'bar',alpha = 0.4,rot = 0)# 对中文标签进行处理plt.xlabel('工作年限',fontproperties = my_font)plt.ylabel('职位个数',fontproperties = my_font)plt.xticks(fontproperties = my_font)plt.title('各年限职位分布情况',fontproperties = my_font)plt.savefig('./picture2')plt.show()# 工作经验与最低薪水之间的相关性y1 = df.groupby('工作年限')['salary_low'].agg([('最低薪水','min'),('平均薪水','mean'),('最高薪水','max')]).sort_values(by = '平均薪水')y1.plot.bar(alpha = 0.4,rot = 0)plt.xticks(fontproperties = my_font)plt.xlabel('工作年限',fontproperties = my_font)plt.ylabel('工资水平',fontproperties = my_font)plt.title('薪水随年限分布情况',fontproperties = my_font)plt.legend(loc = 'upper right',prop = my_font)# 调整纵坐标刻度范围plt.ylim(ymax = 50000)plt.savefig('./picture3')plt.show()df.groupby('学历要求')['公司名称'].count().plot.bar(alpha = 0.4,rot = 0)plt.xticks(fontproperties = my_font)plt.xlabel('学历',fontproperties = my_font)plt.ylabel('职位数量',fontproperties = my_font)plt.title('不同学历职位需求情况',fontproperties = my_font)plt.savefig('./picture5')plt.show()
作者:~Sunshine~
来源链接:https://www.cnblogs.com/liuxiaomin/p/liuxiaomin.html
版权声明:
1、JavaClub(https://www.javaclub.cn)以学习交流为目的,由作者投稿、网友推荐和小编整理收藏优秀的IT技术及相关内容,包括但不限于文字、图片、音频、视频、软件、程序等,其均来自互联网,本站不享有版权,版权归原作者所有。
2、本站提供的内容仅用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯相关权利人及本网站的合法权利。
3、本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站(javaclubcn@163.com),我们将第一时间核实后及时予以删除。