.jpg)
书: https://pan.baidu.com/s/1o53U8DJYBlzPKes4X47C8Q?pwd=ymj8
笔记如下:
- “NumPy的核心是
ndarray(N维数组),支持矢量化运算,比Python原生列表快100倍。” - “
np.where(condition, x, y)实现条件逻辑,避免低效的for循环。” - “Pandas的
DataFrame是带标签的二维表,Series是带标签的一维数组,均基于NumPy构建。” - “
pd.read_csv()的dtype参数指定列类型(如{'price': 'float32'}),减少内存占用。” - “
df.groupby('category').agg({'sales': ['sum', 'mean']})实现多维度聚合分析。” - “
pd.merge()的how参数(inner/left/right/outer)控制表连接逻辑,类似SQL的JOIN。” - “
df.pivot_table(values='sales', index='region', columns='month')快速生成透视表。” - “
df.isna().sum()统计缺失值,df.fillna(method='ffill')用前向填充填补空缺。” - “
df.apply(lambda x: x*2)应用函数到列,df.apply(np.log, axis=1)按行计算。” - “
pd.cut()和pd.qcut()将连续数据分箱(Binning),便于离散化分析。” - “
df.nlargest(5, 'score')替代df.sort_values().head(),更高效获取Top N数据。” - “时间序列处理:
pd.to_datetime()转换时间列,df.resample('D').mean()按天重采样。” - “
df.duplicated()检测重复行,df.drop_duplicates(subset=['col'])删除重复项。” - “
df.eval('profit = revenue - cost')字符串表达式计算,避免中间变量内存开销。” - “
df.to_parquet()比CSV节省70%存储空间,且读写速度更快。” - “
df.corr()计算列间相关系数,sns.heatmap()可视化相关性矩阵。” - “性能优化:
df.itertuples()比iterrows()快10倍,df.values直接获取NumPy数组。” - “分类数据(
df.astype('category'))减少内存占用,加速groupby操作。” - “
pd.option_context临时修改显示设置(如display.max_rows),避免截断输出。” - “实战原则:先
df.head()检查数据,再df.info()了解结构,最后df.describe()看统计摘要。”