数据科学与机器学习数据集

数据科学与机器学习数据集

原文链接:https://elitedatascience.com/datasets
现今,我们有与5-10年前相反的问题…

那时,实际上,很难找到适合数据科学和机器学习项目的数据集。
从那时起,我们已经被数据集列表淹没。今天,问题不在于找到数据集,而是通过筛选来保存相关的数据。
接下来,我们做了这件事。
下面,你看到一个根据使用案例组织的,数据科学和机器学习免费数据集的策划列表。你会发现手工采集的数据集和我们喜欢的聚合器。
datasets-feature-with-text

目录

  • 探索性分析
  • 一般机器学习
  • 深度学习
  • 自然语言处理
  • 基于云的机器学习
  • 时间序列分析
  • 推荐系统
  • 具体行业
  • 流数据
  • 网页抓取
  • 时事

    探索性分析数据集

    探索性分析是大多数数据科学练习的第一步。用于练习探索性分析的最佳数据集应该是有意思的、有趣的和不平凡的(即要求你挖一点来发现所有的见解)。

    我们的选择:

  • 权力游戏 - 权力游戏是基于George R.R. Martin的《冰与火之歌》系列的流行电视剧 。有了这个数据集,你可以探索它的政治格局、人物和战争。
  • 世界大学排名 - 排名大学可能是困难以及争议的。有数百个排名系统,很少达成共识。该数据集包含三个全球大学排名。
  • IMDB 5000电影数据集 - 此数据集探讨了我们是否可以预测电影上映之前的受欢迎程度。

    聚合器:

  • Kaggle数据集 - 由Kaggle社区提供的开放数据集。在这里,你会发现一大堆主题。此外,你还可以从数据集附带的简短教程和脚本中学习。
  • r/datasets - 由Reddit社区贡献的数据集。这是另一个有趣古怪的数据集来源,但数据集往往不那么完善。

    传统机器学习数据集

    在这种情况下,「传统」机器学习指的是像基于相关关系的回归、分类和聚类。这些是最常见的机器学习任务。

    我们的选择:

  • 葡萄酒品质(回归) - 葡萄牙以北的红葡萄酒和白葡萄酒样本的性质。目标是根据物理化学测试建立葡萄酒品质模型。
  • 信用卡违约(分类) - 预测信用卡违约是有价值的,并且通常用于机器学习。这个丰富的数据集包括人口统计、付款历史记录、信用额度和默认数据。
  • 美国人口普查数据(聚类) - 基于人口特征的聚类是一种可靠和真实的来进行市场调研和分割的方法。

    聚合器:

  • UCI机器学习存储库 - UCI ML存储库是很久之前流行的机器学习数据集的聚合器。提示:他们的大多数数据集已经连接了作为基准的学术论文。

    深度学习数据集

    虽然不适用于传统机器学习,但深度学习已经主导某些特定的领域,特别是那些使用图像、文本或音频数据的领域。根据我们的经验,因为有丰富的教程可用,开始深度学习的最佳方式是基于图像数据实践练习。

    我们的选择:

  • MNIST - MNIST包含用于手写数字分类的图像。它被认为是一个很好的深度学习入门数据集,因为它足够复杂以保证神经网络在单个CPU上仍然可以管理。
  • CIFAR - 下一步的难点是CIFAR-10数据集,其中包含6万个图像,分为10个不同的类。一个更大的挑战,你可以尝试CIFAR-100数据集,该数据集有100个不同的类。
  • ImageNet - ImageNet每年都会举办一次计算机视觉竞赛,许多人认为它是现代性能的基准。当前的图像数据集有1000个不同的类。
  • YouTube 8M - 准备好处理视频,但无法节省大量的存储空间?此数据集包含数百万YouTube视频ID和数十亿个音频和视频专题,它们是使用最新的深入学习模型预提取的。

    聚合器:

  • Deeplearning.net - 用于基准深度学习算法的数据集的最新列表。
  • DeepLearning4J.org - 深度学习研究的高质量数据集的最新列表。
    youtube-8m-screenshot

    自然语言处理数据集

    自然语言处理(NLP)是关于文本数据。并且对于像文本这样的凌乱数据,对有真实应用的数据集特别重要,以便你可以执行简单的完整性检查。

    我们的选择:

  • 安然数据集 - 来自安然资深管理层组织整理的电子邮件数据。该数据库最初由联邦能源管制委员会在调查期间公开发布到网络。
  • 亚马逊评论 - 包含从亚马逊18年来的约3500万评论。数据包括产品和用户信息、评级和评论。
  • 新闻组分类 - 收集大约20000个新闻组文件,在20个不同的新闻组中几乎平均分配。非常好的练习文本分类和主题建模的数据。

    聚合器:

  • nlp-datasets - 按照字母顺序排列的使用NLP的包含文本数据的免费/公共数据集列表。
  • Quora答案 - NLP的注释语料库列表。

    云机器学习数据集

    从技术上讲,如果你将数据集上传到云端,则任何数据集都可用于基于云的机器学习。但是,如果你只是开始并评估一个平台,你可能希望跳过所有数据传输。
    幸运的是,主要的云计算服务都提供了可以轻松导入的公共数据集。他们的数据集都是可比较的。

    我们的选择:

  • AWS公共数据集
  • Google云端公共数据集
  • Microsoft Azure公共数据集

    时间序列分析数据集

    时间序列分析需要由时间戳标记的观察值。换句话说,每个主题和/或特征被跨越时间跟踪。

    我们的选择:

  • EOD股票价格 - Quandl社区策划的3000家美国公司的收盘股票价格、红利和分割。
  • Zillow房地产研究 - 房价和房租按照大小、类型、层次通过邮政编码、街区、城市、都会区、县和州划分。
  • 全球教育统计 - 超过4000个国际可比较的指标,描述了教育机会、进展、完成、识字、教师、人口和支出。

    聚合器:

  • Quandl - Quandl包含用于金融分析的免费和高级时间序列数据集。
  • 世界银行 - 包含全球宏观经济时间序列,可按国家或指标进行搜索。
    zillow-real-estate-screen.png

推荐系统的数据集

推荐系统在娱乐和电子商务行业取得巨大成功。亚马逊,Netflix和Spotify都是很好的例子。

我们的选择:

  • MovieLens - 来自MovieLens网站的评估数据集。由于各种数据集大小可用,适合入门使用。
  • Jester - 构建简单的协同过滤器的理想选择。包含来自73421位用户的100个笑话的410万连续评级(-10.00至+10.00)。
  • 百万歌曲数据集 - 丰富的数据集,用于音乐推荐。你可以从纯协同过滤器开始,然后使用其他方法(例如基于内容的模型或网页抓取)进行扩展。

    聚合器:

  • entaroadun - 推荐系统数据集的收集。提示:检查最近数据集的注释部分。

    特定行业的数据集

    在本纲要中,我们通过用例组织了数据集。如果你需要练习一些技能,例如深度学习或时间序列分析,这是有帮助的。
    但是,你也可能希望通过特定行业进行搜索,例如神经科学、气象或制造业的数据集。这里有两个选项:

    聚合器:

  • Awesome Public Datasets - 由行业划分高质量数据集。
  • Data.gov - 按行业划分的政府数据。

    流数据集

    流数据集用于构建实时应用程序,如数据可视化、趋势跟踪或可更新(即“在线”)机器学习模型。

    我们的选择:

  • Twitter API - twitter API是一个经典流数据来源。你可以跟踪推文、主题标签等。
  • StockTwits API - StockTwits就像一个交易者和投资者的Twitter。你可以通过使用时间戳和代码符号将其添加到时间序列数据集中,以许多有趣的方式扩展此数据集。
  • Weather Underground - 覆盖全球的可靠天气API。提供免费层级和付费选项进行扩展。

    聚合器:

  • Satori - Satori是一个平台,可让你以超低延迟(免费)连接到流式实时数据。他们经常添加新的数据集。

    Web Scraping的数据集

    Web Scraping是数据科学研究的常见部分,但你必须小心违反网站的服务条款。幸运的是,有一个网站被设计来自由抓取。

    我们的选择:

  • ToScrape.com - 有两个子域。你可以练习抓取一个虚构的书店或一个列出名人的网站。
    toscrape-bookstore

    当前事件的数据集

    查找当前事件的数据集可能很棘手。幸运的是,一些出版物已经开始发布他们在文章中使用的数据集。

    聚合器:

  • FiveThirtyEight - FiveThirtyEight是一个有数据驱动文章的体育新闻网站。他们在Github上公开数据集。
  • BuzzFeedNews - 他们的数据集可在Github上获得。

    更多课程和文章尽在微信号:「datartisan数据工匠」

由 Editor 于 2017 年 12 月 14 日 发布在 数据科学 栏目