数据科学与机器学习数据集

Blog Picture

现今,我们有与5-10年前相反的问题... 那时,实际上,很难找到适合数据科学和机器学习项目的数据集。 从那时起,我们已经被数据集列表淹没。今天,问题不在于找到数据集,而是通过筛选来保存相关的数据。

由 Editor 于 2017 年 12 月 14 日 发布在 数据科学 栏目
阅读全文

变量选择

Blog Picture

本章包括以下主题: * 常规机器学习算法(预测或聚类)的最佳变量排名。 * 选择具有和不具有预测模型变量的规则。 * 变量在群体中的作用(直觉和信息理论)。 * 用R探索在实践中最好的变量子集.

由 Editor 于 2017 年 12 月 06 日 发布在 数据科学 栏目
阅读全文

神经网络算法的优势与应用

Blog Picture

人工神经网络(ANN)以大脑处理机制作为基础,开发用于建立复杂模式和预测问题的算法。 首先了解大脑如何处理信息: 在大脑中,有数亿个神经元细胞,以电信号的形式处理信息。外部信息或者刺激被神经元的树突接收,在神经元细胞体中处理,转化成输出并通过轴突,传递到下一个神经元。下一个神经元可以选择接受它或拒绝它,这取决于信号的强度。

由 Editor 于 2017 年 11 月 29 日 发布在 数据科学 栏目
阅读全文

Jupyter与Spark开发环境配置指南

Blog Picture

Spark是使用大量数据进行计算的框架。为什么需要Spark?比如,一个易于读入内存的小型数据集,Gb级的,你可能会使用Pandas,R或其他工具加载整个数据集,并且之后进行一些清洗和可视化,如果使用合适的计算机(或云计算基础设施),你将轻松完成而没有计算性能相关的麻烦。

由 Editor 于 2017 年 11 月 23 日 发布在 数据科学 栏目
阅读全文