
书: https://pan.baidu.com/s/1LWWovU7IScpiddLrDhjl1w?pwd=pc5n
笔记如下:
- Spark简介:Apache Spark是一个快速、通用的分布式计算引擎,支持内存计算和容错机制。
- RDD(弹性分布式数据集):不可变分布式数据集合,支持并行操作(如
map、filter、reduce)。 - DataFrame与Dataset:结构化API,提供优化执行(如
df.select("column").filter("value > 0"))。 - MLlib简介:Spark的机器学习库,提供分类、回归、聚类、推荐等算法。
- 特征提取:
Tokenizer、StopWordsRemover、TF-IDF等工具处理文本数据。 - 特征转换:
StringIndexer、OneHotEncoder、VectorAssembler等转换非数值特征。 - 标准化与归一化:
StandardScaler、MinMaxScaler调整特征尺度。 - 分类算法:逻辑回归(
LogisticRegression)、决策树(DecisionTreeClassifier)、随机森林(RandomForestClassifier)。 - 回归算法:线性回归(
LinearRegression)、梯度提升树(GBTRegressor)。 - 聚类算法:K-Means(
KMeans)、高斯混合模型(GaussianMixture)。 - 推荐系统:协同过滤(
ALS)用于用户-商品推荐。 - 模型评估:
BinaryClassificationEvaluator(AUC)、RegressionEvaluator(RMSE)等评估指标。 - 交叉验证:
CrossValidator结合ParamGridBuilder调优超参数。 - 流水线(Pipeline):串联多个转换器和估计器(如
Pipeline(stages=[tokenizer, hashingTF, lr]))。 - 模型保存与加载:
model.save("path")和Model.load("path")持久化模型。 - 流式机器学习:
StreamingLinearRegression等算法处理实时数据流。 - 图计算(GraphX):
PageRank、ConnectedComponents等图算法支持。 - 分布式深度学习:与TensorFlow、Keras集成(如
Elephas库)。 - 性能优化:缓存RDD(
persist())、调整分区数(repartition())提升计算效率。 - Spark与大数据生态:集成Hadoop、Hive、Kafka等工具构建端到端ML流程。