目录
- 特征工程
-
- 数值型特征编码
-
- 常用的数值型特征处理方法
- log变换
-
- 例:广告费用与销量预测
- 区间量化
-
- 例:根据分位数进行区间量化
- 1、数据预处理
-
- Scikit-learn中常用的特征缩放器
- Scikit-learn中特征缩放器的API
- 2、数据标准化
-
- 类别型特征编码
- 标签编码
- 独热编码
-
- Scikit-learn中的OneHotEncoder
- 例:独热编码
- 计数编码
-
- 两类分类的计数编码
- 例1:两类分类的计数编码
- 例2:两类分类的计数编码
- 稀有取值的处理
- 信息泄漏及其防范
- 哈希编码
- 嵌入编码
- 推荐系统中的Wide & Deep模型
- 如何获取重要特征
-
- 领域专家的知识
- 通用规则
- 深度学习自动学习特征
- 3、特征构造
- 4、特征抽取
-
- 关于维度
-
- 数据空间
-
- 数据空间的维度可能非常大
- 高维数据示例
- 维度灾难
- 降维
-
- 例1:手写字符识别
-
- 特征表示
- 本质结构参数
- 图示说明
- 例2:文本文档分析
-
- 文本表示
- 潜在的结构参数
- 示例
- 降维方法概览
-
- 数据集表示
- 降维方法
- 主成分分析
-
- 关键步骤
- 目的
- 应用
- 内积和投影
-
- 两个向量 x \mathbf{x} x和 w \mathbf{w} w的内积:
- 几何意义
- 图示
- 向量表示:在基方向的投影(与基的内积)
-
- 例子
- 向量描述
- 基向量的性质
- 向量在新基下的表示
-
- 例子
- 批处理:矩阵乘法
-
- 矩阵表示
- 例子
- 新的基矩阵
- 计算新基下的坐标
- 矩阵乘法
- 线性降维的一般形式
- 主成分分析(PCA)目标函数1:最小化重建误差
- PCA 目标函数1:推导
- PCA 目标函数推导:最小重构误差
-
- 数学表达式
- 目标解释
- 图示解释
- 结论
- 主成分分析(PCA)目标函数2:最大投影后的方差
- PCA目标函数计算
- 求解PCA
-
- 算法过程:
- PCA步骤图解
- 例:PCA 应用
- (续)例:PCA 应用
- 原始维度不是非常大时表现良好
- 附:矩阵的秩和迹
-
- 矩阵
- 矩阵的迹
- 矩阵分解
- 特征值分解
- 奇异值分解 (SVD)
- 特征值或奇异值的物理意义
- 奇异值向量的含义
- SVD → PCA
- 求解PCA(2)
-
- 算法过程:
- 参数 D ′ D' D′
- PCA应用(1):人脸识别
- PCA用于人脸识别:特征脸
- PCA用于人脸识别:特征脸
- 计算特征脸
- 例:鸢尾花分类
- (续)例:鸢尾花分类
- PCA 总结
- sklearn中的降维方法
-
- 2.5. 分解信号为组件(矩阵分解问题)
- 5、特征选择
-
- 随机特征选择
- 手工特征选择
- 过滤式选择
- 信息增益(Information Gain)
- χ 2 \chi^2 χ2统计量
- 例:糖尿病风险预测
-
- 特征与标签之间互信息
- 特征与标签之间的关系:可视化
- 例:特征选择:文本分类
- 包裹式特征选择
- Scikit-learn支持递归特征消除:RFE
- 嵌入式选择
- 例:采用决策树模型判断鸢尾花类别
- 例:嵌入式维度选择
- Scikit-learn支持嵌入式特征选择:SelectFromModel
- 总结
特征工程
特征工程是机器学习项目中的一个关键步骤,它充当原始数据与学习器之间的桥梁。
- 特征工程的重要性:特征工程是原始数据与学习器的连接器。它涉及将原始数据转换成适合机器学习模型处理的格式。
- 确定学习器类型:首先,我们根据原始数据的特性初步确定学习器的类型。这是因为不同的数据类型和分布可能需要不同类型的模型来最有效地进行学习。
- 数据转换的必要性:原始数据可能不能直接输入到学习器中。例如,字符串类型的数据不能直接送入到线性分类模型中,因为这些模型需要数值输入。因此,我们需要通过特征工程将这些非数值数据转换成数值形式,如通过独热编码(one-hot encoding)或标签编码(label encoding)。
特征工程不仅包括数据类型的转换,还可能涉及特征选择、特征缩放、特征创建等多个方面,以确保数据能够有效地支持模型的学习过程。
特征工程是机器学习中至关重要的一环,它直接影响模型的性能。特征工程主要包括以下几个步骤:
- 数据预处理:这是特征工程的第一步,包括清洗数据、处理缺失值、标准化或归一化等,以确保数据的质量。