首先先谢谢点进来的小伙伴,这是我在自媒体平台的第一篇文章,你的点击对我将是莫大的鼓励。
其实在写这篇文章之前,我想了很久,想了很多框架,想了很多逻辑,想了很多算法,最终我选择分享数据的获取。
数据分析、大数据分析这两个短语近几年被炒的火热,有太多人转行或者开始学习数据分析,行业竞争也变的越来越激烈,想要成为人上人,那就务必吃得苦中苦。
我也是从16年开始接触数据分析这个行业,从excel开始,到现在的python,在此期间学习了很多数据相关的技能,走过数不清的弯路。最终每天不断的看视频、查百度、社区交流,得以小成,可谓是苦尽甘还没来,毕竟有那么多的后浪在前赴后继的涌向数据分析这个职业,如果跑得慢,就死在了沙滩上。
在学习的过程中,总是会遇到各式各样的问题。看懂了记不住,记住了不会用,会用了不贴合业务。这在数据分析这个行业里应该是大多数小伙伴的现状了。纠结、痛苦、怀疑自己。
后期终结了一下经验。终于在经历了山路十八弯后来到了一个小下坡,发现自己在学习数据分析的时候大多数都是与实际业务相脱节。那么怎么办呢,我的解决办法是通过使用贴近真实业务的数据进行分析,从脏数据到干净数据,从明细数据到汇总数据,从统计分析到建立模型,一步一个脚印,zhu大zhu强。
好了,废话不多说,直接上干货。
数据获取的途径多种多样,可简单划分为以下几种:
- 业务系统数据库提取
- 网络爬虫
- 自主生成
- 程序语言随机生成
- 公开数据集下载
从业务系统数据库提取需要在公司数据库系统使用,对于学习者而言这部分数据取到较为困难,并且也没有公司会愿意开放数据;通过网络爬虫进行数据爬取需要一定的编程语言能力;自主生成和程序语言随机生成又会与实际业务产生较大偏差,因此,在学习数据分析的时候最好的方法是去公开数据集网站进行下载。
1、kaggle——全球机器学习和人工智能竞赛平台
官方网站:https://www.kaggle.com/
主要为开发商和数据科学家举行数据挖掘、机器学习比赛等,提供多元化公开数据集,这一平台吸引了众多的开发者参赛。kaggle主要分为三个子平台:compete竞赛平台,database数据平台等。而且开发者还可以通过kaggle举办的比赛获取奖金。
优点:数据集可以不用下载,使用API访问;可以查看别的玩家的模型,开拓思路
缺点:在国内访问不是很友好,容易加载不出界面
kaggle——datasets截图
2、阿里天池(简称天池)
官方网站:https://tianchi.aliyun.com/
个人感觉阿里天池类似于国内版的kaggle。天池下的子版块“天池大赛”包含了算法大赛,创新应用大赛,程序大赛和新人赛四个赛事。在天池的另一子版块“天池学习”下,包含了AI课程和学习赛两个板块,让你在一边学习的时候还可以在上面查找数据集进行练手,真正的达到了手脑并用。毫无疑问,天池也提供公开数据集的下载,与天池notebook(实时在线的数据分析协作工具,享受免费的计算资源)一起在“天池实验室”板块下。因此在国内访问的小伙伴建议使用天池。
优点:国内访问很快、数据多元化、可一边学习一边训练,提供机器学习路径
缺点:成立时间短,公开数据集偏少
阿里天池——天池学习网页截图
3、国家数据
官方网站:http://data.stats.gov.cn/
这个名字一听就知道是相对官方的网站,是国家统计局的一个公开数据查询网站,从数据上体现了国家宏观经济运行情况,提供了国内生产总值(GDP)、居民消费者价格指数(CPI)、生产者价格指数(PPI)、工业生产增长速度、固定资产投资、普查数据、部分国际数据等政务数据查阅,还可查阅国家政务数据可视化产品,了解当前国家状况等。
优点:数据权威性高、数据无需加工可直接使用、查阅方便
缺点:暂时没有想到
国家数据网站部分截图
其它类型的数据应用网站:
百度指数(行业指数排行):http://index.baidu.com/v2/rank/index.html?#/industryrank
百度搜索风云榜(关键词搜索指数):http://top.baidu.com/
微博报告发布平台(微博官方报告聚集地):https://data.weibo.com/report
360趋势(行业搜索指数):https://trends.so.com/
搜狗指数(关键词搜索指数):http://zhishu.sogou.com/
数据局(行业数据分析):http://www.shujuju.cn/
艾瑞网(互联网数据咨询聚合平台):https://www.iresearch.cn/
骨朵数据(电视综艺数据分析平台):http://data.guduodata.com/
淘数据(国内电商数据、跨境电商数据统计分析平台):https://www.taosj.com/
火烧云数据(B站大数据分析平台):http://www.hsydata.com/home/index
Toobigdata(短视频网红排行):https://toobigdata.com/
飞瓜数据(短视频热门视频、商品及直播数据分析平台):https://dy.feigua.cn/
七麦数据(APP榜单):https://www.qimai.cn/
大数据工具导航:http://hao.199it.com/
在线制作图表网站:
百度图说:https://tushuo.baidu.com/
Echarts:https://echarts.apache.org/
以上就为鄙人在数据分析生涯积累的数据相关的一些网站(仿佛身体被掏空),希望对各位在数据分析路上越走越远的小伙伴有较大的帮助。
,