数据预处理

在现实世界中,我们通常需要处理大量的原始数据。 这种原始数据不容易被机器学习算法吸收。 为了准备用于机器学习的数据,我们必须在将其应用到各种算法之前对其进行预处理。 数据标准化 常用的方法是z-score标准化,经过处理后的数据均值为0,标准差为1, 数据缩放 数据点中每个特征的值可以在随机值之间变化。 因此,有时重要的是缩放它们 数据正规化 当要调整特征向量中的值,以便可以在共同刻度上测量时,将

线性回归

回归是估计输入数据和连续值输出数据之间的关系的过程,线性回归是指使用输入变量的线性组合来估计基础函数。 线性回归的目的是提取将输入变量与输出变量相关的基本线性模型。 这旨在使用线性函数使实际输出和预测输出之间的差的平方和最小化。 这种方法称为普通最小二乘法。 你可能会说,有一条弯曲的线条适合这些点更好,但线性回归不允许这样。 线性回归的主要优点是它不复杂。 如果你进入非线性回归,你可能会得到更准确

理解Compressed Sparse Column Format (CSC)

title: 理解Compressed Sparse Column Format (CSC) date: 2016-10-14 14:57:35 tags: 机器学习 categories: 机器学习 最近在看《Spark for Data Science》这本书,阅读到《Machine Learning》这一节的时候被稀疏矩阵的存储格式CSC给弄的晕头转向的。所以专门写一篇文章记录一下我对这种格