Spark机器学习.第2版([印]拉结帝普•杜瓦[印]曼普利特•辛格•古特拉南非]尼克•彭特里思) – 技术分享

书: https://pan.baidu.com/s/1LWWovU7IScpiddLrDhjl1w?pwd=pc5n
笔记如下：

Spark简介：Apache Spark是一个快速、通用的分布式计算引擎，支持内存计算和容错机制。
RDD（弹性分布式数据集）：不可变分布式数据集合，支持并行操作（如map、filter、reduce）。
DataFrame与Dataset：结构化API，提供优化执行（如df.select("column").filter("value > 0")）。
MLlib简介：Spark的机器学习库，提供分类、回归、聚类、推荐等算法。
特征提取：Tokenizer、StopWordsRemover、TF-IDF等工具处理文本数据。
特征转换：StringIndexer、OneHotEncoder、VectorAssembler等转换非数值特征。
标准化与归一化：StandardScaler、MinMaxScaler调整特征尺度。
分类算法：逻辑回归（LogisticRegression）、决策树（DecisionTreeClassifier）、随机森林（RandomForestClassifier）。
回归算法：线性回归（LinearRegression）、梯度提升树（GBTRegressor）。
聚类算法：K-Means（KMeans）、高斯混合模型（GaussianMixture）。
推荐系统：协同过滤（ALS）用于用户-商品推荐。
模型评估：BinaryClassificationEvaluator（AUC）、RegressionEvaluator（RMSE）等评估指标。
交叉验证：CrossValidator结合ParamGridBuilder调优超参数。
流水线（Pipeline）：串联多个转换器和估计器（如Pipeline(stages=[tokenizer, hashingTF, lr])）。
模型保存与加载：model.save("path")和Model.load("path")持久化模型。
流式机器学习：StreamingLinearRegression等算法处理实时数据流。
图计算（GraphX）：PageRank、ConnectedComponents等图算法支持。
分布式深度学习：与TensorFlow、Keras集成（如Elephas库）。
性能优化：缓存RDD（persist()）、调整分区数（repartition()）提升计算效率。
Spark与大数据生态：集成Hadoop、Hive、Kafka等工具构建端到端ML流程。

Post Views: 126

发表评论 取消回复

发表评论取消回复