Spark 通用数据访问 ##Data abstractions RDD is the core abstraction in Apache Spark. It is an immutable, fault-tolerant distributed collection of statically typed objects that are usually

大约 10 分钟
理解Compressed Sparse Column Format (CSC) 最近在看《Spark for Data Science》这本书,阅读到《Machine Learning》这一节的时候被稀疏矩阵的存储格式CSC给弄的晕头转向的。所以专门写一篇文章记录一下我对这种格式的理解。 ##目的 Compressed Sparse Column Forma

大约 4 分钟