变量选择

Blog Picture

本章包括以下主题: * 常规机器学习算法(预测或聚类)的最佳变量排名。 * 选择具有和不具有预测模型变量的规则。 * 变量在群体中的作用(直觉和信息理论)。 * 用R探索在实践中最好的变量子集.

由 Editor 于 2017 年 12 月 06 日 发布在 数据科学 栏目
阅读全文

神经网络算法的优势与应用

Blog Picture

人工神经网络(ANN)以大脑处理机制作为基础,开发用于建立复杂模式和预测问题的算法。 首先了解大脑如何处理信息: 在大脑中,有数亿个神经元细胞,以电信号的形式处理信息。外部信息或者刺激被神经元的树突接收,在神经元细胞体中处理,转化成输出并通过轴突,传递到下一个神经元。下一个神经元可以选择接受它或拒绝它,这取决于信号的强度。

由 Editor 于 2017 年 11 月 29 日 发布在 数据科学 栏目
阅读全文

Jupyter与Spark开发环境配置指南

Blog Picture

Spark是使用大量数据进行计算的框架。为什么需要Spark?比如,一个易于读入内存的小型数据集,Gb级的,你可能会使用Pandas,R或其他工具加载整个数据集,并且之后进行一些清洗和可视化,如果使用合适的计算机(或云计算基础设施),你将轻松完成而没有计算性能相关的麻烦。

由 Editor 于 2017 年 11 月 23 日 发布在 数据科学 栏目
阅读全文

Kaggle入门手册

Blog Picture

Kaggle是数据科学竞赛的热门平台,它可能会让初学者陷入困境。毕竟,一些比赛有超过100万美元奖池和数百个竞争对手。顶尖的团队拥有数十年的综合经验,处理有挑战的问题,如改善机场安全或分析卫星数据。

由 Editor 于 2017 年 11 月 08 日 发布在 数据科学 栏目
阅读全文

数据处理性能对比(Python原生 vs Pandas vs Numpy)

Blog Picture

对于任何数据科学家来说,速度和时间都是一个关键因素。在商业活动中,通常不会使用仅仅有数千个样本的玩具数据集。大部分时候你的数据集包括数百万或数亿个样本。客户订单,网络日志,帐单活动,股票价格等 - 现在的数据集非常庞大。

由 Editor 于 2017 年 11 月 01 日 发布在 数据科学 栏目
阅读全文