【大数据实例】4个大数据科学项目,免费获取资源看这里

大数据观察2019-01-10 14:00:43

大数据观察

了解大数据,关注大数据观察吧!




每个想了解最新大数据资讯的人,都关注了我

文 / 数据君



数据科学项目为你在这个领域的深入研究提供了一个基础。通过实际应用,你不仅可以学习数据科学,也能够写在简历中提升你的资历。在这上边花费的时间越多,你学到的知识就越多。


这部分的数据集很容易处理,使用基础的回归/分类算法就可以处理这些数据集。并且,这些数据集有足够的教程供你学习。

1.Iris Data数据集(花的类别识别)

Iris Data Set可能是模式识别领域学习分类技术最基本入门级的数据集,适合初学者。该数据集里面包含了150行4列个数据。

问题: 根据已有特征预测花的类别。

资源:

数据集:

https://archive.ics.uci.edu/ml/datasets/Iris?spm=a2c4e.11153940.blogcont603256.5.333b1d6f05ZggC

教程:

http://www.slideshare.net/thoi_gian/iris-data-analysis-with-r?spm=a2c4e.11153940.blogcont603256.6.333b1d6f05ZggC


2.Loan Prediction 数据集(贷款预测)

它是保险领域最常引用的一个数据集。利用这个数据集,你可以充分体验到如何处理保险公司的数据,包括会遇到哪些挑战、需要什么策略、哪些变量会影响结果等。这是一个分类问题,数据集包含615行13列个数据。

问题: 预测一个贷款是否能够被批准。

资源:

数据集:

https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/?spm=a2c4e.11153940.blogcont603256.7.333b1d6fYOsiOK

教程:

https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/?spm=a2c4e.11153940.blogcont603256.8.333b1d6fYOsiOK


3. Bigmart Sales 数据集(零售业销售)

零售业是另一个充分利用数据分析优化商业流程的行业。我们可以利用数据科学对商品的放置、库存管理、定制供应、商品捆绑等任务进行巧妙的处理。该数据集包含了商店的交易数据,是一个回归问题,共包含8523行12列个数据。

问题:预测销量。

资源:

数据集:https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/?spm=a2c4e.11153940.blogcont603256.9.333b1d6fYOsiOK

教程: 

https://www.analyticsvidhya.com/blog/2016/02/bigmart-sales-solution-top-20/?spm=a2c4e.11153940.blogcont603256.10.333b1d6fYOsiOK


4. Boston Housing 数据集(波士顿房屋)

这是另一个模式识别领域较为常见的数据集,来自于波士顿的房地产业,是一个回归问题,数据集有506行14列个数据。这个数据集并不大,你可以尝试使用任何技术,而不用担心笔记本的内存不够。

问题:预测业主拥有房屋数量的中间值。

资源:

数据集:

https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html?spm=a2c4e.11153940.blogcont603256.11.333b1d6fYOsiOK

教程:

https://www.analyticsvidhya.com/blog/2015/11/started-machine-learning-ms-excel-xl-miner/?spm=a2c4e.11153940.blogcont603256.12.333b1d6fYOsiOK




主题 |大数据科学项目

插图 | 网络来源




作 者 介 绍

数据君:)

了解大数据,关注大数据观察

部分图文来自网络,侵权则删


“嘿,长按二维码,跟我一起有趣”

我想给你一个理由 继续面对这操蛋的生活

Copyright © 古田计算器虚拟社区@2017