特征工程 (Feature Enginering)基础知识2

特征工程
- 数值型特征编码
- - 常用的数值型特征处理方法
- log变换
- - 例：广告费用与销量预测
- 区间量化
- - 例：根据分位数进行区间量化
- 1、数据预处理
- - Scikit-learn中常用的特征缩放器
  - Scikit-learn中特征缩放器的API
- 2、数据标准化
- - 类别型特征编码
  - 标签编码
  - 独热编码
  - - Scikit-learn中的OneHotEncoder
    - 例：独热编码
  - 计数编码
  - - 两类分类的计数编码
    - 例1：两类分类的计数编码
    - 例2：两类分类的计数编码
  - 稀有取值的处理
  - 信息泄漏及其防范
  - 哈希编码
  - 嵌入编码
  - 推荐系统中的Wide & Deep模型
  - 如何获取重要特征
  - - 领域专家的知识
    - 通用规则
    - 深度学习自动学习特征
- 3、特征构造
- 4、特征抽取
- - 关于维度
  - - 数据空间
    - - 数据空间的维度可能非常大
      - 高维数据示例
    - 维度灾难
  - 降维
  - - 例1：手写字符识别
    - - 特征表示
      - 本质结构参数
      - 图示说明
    - 例2：文本文档分析
    - - 文本表示
      - 潜在的结构参数
      - 示例
  - 降维方法概览
  - - 数据集表示
    - 降维方法
  - 主成分分析
  - - 关键步骤
    - 目的
    - 应用
    - 内积和投影
    - - 两个向量 $\mathbf{x}$ 和 $\mathbf{w}$ 的内积：
      - 几何意义
      - 图示
    - 向量表示：在基方向的投影（与基的内积）
    - - 例子
      - 向量描述
      - 基向量的性质
    - 向量在新基下的表示
    - - 例子
    - 批处理：矩阵乘法
    - - 矩阵表示
      - 例子
      - 新的基矩阵
      - 计算新基下的坐标
    - 矩阵乘法
    - 线性降维的一般形式
    - 主成分分析（PCA）目标函数1：最小化重建误差
    - PCA 目标函数1：推导
    - PCA 目标函数推导：最小重构误差
    - - 数学表达式
      - 目标解释
      - 图示解释
      - 结论
    - 主成分分析（PCA）目标函数2：最大投影后的方差
    - PCA目标函数计算
    - 求解PCA
    - - 算法过程:
    - PCA步骤图解
    - 例：PCA 应用
    - （续）例：PCA 应用
    - 原始维度不是非常大时表现良好
    - 附：矩阵的秩和迹
    - - 矩阵
      - 矩阵的迹
    - 矩阵分解
    - 特征值分解
    - 奇异值分解 (SVD)
    - 特征值或奇异值的物理意义
    - 奇异值向量的含义
    - SVD → PCA
    - 求解PCA(2)
    - - 算法过程:
    - 参数 $D^{'}$
    - PCA应用（1）：人脸识别
    - PCA用于人脸识别：特征脸
    - PCA用于人脸识别：特征脸
    - 计算特征脸
    - 例：鸢尾花分类
    - （续）例：鸢尾花分类
    - PCA 总结
    - sklearn中的降维方法
    - - 2.5. 分解信号为组件（矩阵分解问题）
- 5、特征选择
- - 随机特征选择
  - 手工特征选择
  - 过滤式选择
  - 信息增益（Information Gain）
  - $\chi^2$ 统计量
  - 例：糖尿病风险预测
  - - 特征与标签之间互信息
    - 特征与标签之间的关系：可视化
  - 例：特征选择：文本分类
  - 包裹式特征选择
  - Scikit-learn支持递归特征消除：RFE
  - 嵌入式选择
  - 例：采用决策树模型判断鸢尾花类别
  - 例：嵌入式维度选择
  - Scikit-learn支持嵌入式特征选择：SelectFromModel
- 总结