# EasyMachineLearning # ~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ## 介绍 - 版本:v1.0 - 作者:李凌浩 - 有任何出现的问题请私信 或 在Github上反馈 ~ - 有任何新功能的想法请加作者微信 ~ - 合作请联系作者 ~ - *( WX: llh13857750421 )* - ଘ(੭ˊ꒳​ˋ)੭ ## 注意事项 - 模型训练和可视化过程暂未实现进度条,后续版本可能会出该功能 ## 解释 ### 1.数据源 ##### *i.选择所需数据源 [必选]* ```angular2html ·自定义:上传自己的Excel表格作为数据源 ·Iris Dataset: 鸢尾花数据集 (用于分类任务) [sklearn内置数据集] ·Wine Dataset: 酒的数据集 (用于分类任务) [sklearn内置数据集] ·Breast Cancer Dataset: 乳腺癌数据集 (用于分类任务) [sklearn内置数据集] ·Diabetes Dataset: 糖尿病数据集 (用于回归任务) [sklearn内置数据集] ·California Housing Dataset: 加利福尼亚房价数据集 (用于回归任务) [程序内置数据集] ·为机器学习任务的起始操作 ·更改数据源会自动清理所有已训练的模型缓存和其他部分缓存 ``` ### 2.当前数据信息 ```angular2html ·总列数: 当前操作的数据的总列数 ·总行数: 当前操作的数据的总行数 ·保留的行数 [可选]: 拖动滑动条可以选择 当前操作的数据中所需保留的行数,其余行全部删除 ·存在缺失值的列: 显示当前操作的数据中有缺失值如Nan等的列名 ·删除所有存在缺失值的列 [可选]: 删除当前操作的数据中含有缺失值如Nan等的列 ·重复的行数: 当前操作的数据中一样的行数 ·删除所有重复行 [可选]: 删除当前操作的数据中一样的行 ·实时显示当前操作的数据 (只能查看,不能更改) ·[*index]列为当前数据索引,非数据内的列 (自动添加该列是为了方便查看数据) ·最左边第一列始终为因变量的列,其余为自变量的列 ·可随时将当前操作的数据下载到本地 (Excel格式) ``` ### 3.数据处理 ##### *i.选择因变量 [必选]* ```angular2html ·当前操作数据中的所有列名 ·在显示的所有行名字中选择作为任务的因变量的列 (选中后自动将该列移动到当前数据的第一列) ``` ##### *ii.将所有数据强制转换为浮点型 (除第1列以外) [必选]* ```angular2html ·"列名-数据类型"数据表: 当前操作中的数据的所有列对应的数据类型 (字符型为"object") ·第1列因变量的列在这里不会成为被转换的对象 ``` ##### *iii.选择任务类型 (同时会根据任务类型将第1列数据强制转换) [必选]* ```angular2html ·分类 ·回归 ·选择分类会将第1列的数据强制转换为字符型数据 ·选择回归会将第1列的数据强制转换为浮点型数据 ``` ##### *iv.选择所需删除的列* ```angular2html ·当前操作数据中的所有列名 ·删除 [可选]: 在当前操作的数据中删除所选列 ``` ##### *v.选择所需标签编码的字符型数值列* ```angular2html ·当前操作数据中是字符型数据的所有列名 ·字符型转数值型 [可选]: 将选中的数据列强制转换为浮点型 ``` ##### *vi.选择所需标准化的列* ```angular2html ·当前操作数据中尚未标准化的所有列名 ·标准化 [可选]: 将选中的数据列根据各自列进行标准化 (变成0~1范围) ``` ### 4.数据模型 (上述[必选]全部选择完毕后才会显示!) ##### *i.选择所需训练的模型* ```angular2html ·当前可选择的所有模型名 ·选中后会展示当前选中模型的相关信息和选项 ``` ##### *ii.分割出的训练集所占比例* ```angular2html ·该比例为训练集占所有数据的比例 ·默认为0.8 ``` ##### *iii.选择超参数优化方法* ```angular2html ·无: 直接训练 (速度快) (如果其他超参数优化方法速度较慢可选择当前项看效果) ·网格搜索: (速度相对适中) (请作为模型调参的首选项) ·贝叶斯优化: (速度很慢) ·请优先选择网格搜索 ·树模型如决策树、随机森林、XGBoost模型的超参数优化速度在数据量大的情况下非常慢,自行考虑是否需要等待 ·参数量越大速度越慢 ``` ##### *iv.超参数列表 (选择超参数优化方法后会显示)* ```angular2html ·橙色边框的文本框为超参数名称 (可修改) ·每行无颜色边框的文本框为超参数对应的各个候选参数 (可修改) ·将文本框中的参数删除后(空字符串),就相当于删除了该参数 ·只能修改和减少参数,不能增加 ·每次加载默认显示每个模型的默认参数字典 ``` ##### *v.模型是否完成训练* ```angular2html ·若选中的该模型训练完成后,会勾选 ``` ### 5.数据可视化 ##### *i.数据分布图* ```angular2html ·需要选择可视化的相应列 ·每列数据的数量统计的柱状图 ``` ##### *ii.箱线统计图* ```angular2html ·需要选择可视化的相应列 ·每列数据的常见统计量的箱线图 ``` ##### *iii.系数热力图* ```angular2html ·需要选择可视化的相应列 ·列与列之间的皮尔逊相关系数 ``` ##### *iv.学习曲线图* ```angular2html ·需要选择已训练的模型名称 ·训练集与验证集数据的拟合效果 (1个模型有2条曲线) ``` ##### *v.数据拟合图* ```angular2html ·需要选择已训练的模型名称 ·测试集的真实数值曲线与模型预测数值曲线 ``` ##### *vi.特征蜂群图* ```angular2html ·需要选择已训练的模型名称 ·需要选择图像类型 ·特征对模型整体能力的表征程度 ·若样本量大于123,则随机抽样123个作为输入 ``` ##### *vii.特征瀑布图* ```angular2html ·需要选择已训练的模型名称 ·需要选择相关特征的变量索引 ·特征对模型整体能力的表征程度 ·若样本量大于123,则随机抽样123个作为输入 ``` ##### *viii.特征力图* ```angular2html ·需要选择已训练的模型名称 ·需要选择相关特征的变量索引 ·特征对模型整体能力的表征程度 ·若样本量大于123,则随机抽样123个作为输入 ``` ##### *viiii.特征依赖图* ```angular2html ·需要选择已训练的模型名称 ·需要选择对应的列 ·特征对模型整体能力的表征程度 ·若样本量大于123,则随机抽样123个作为输入 ``` ##### *图例* ```angular2html ·图中每个图例的名称 ·图中有图例才会显示 (不支持中文) ``` ##### *坐标轴* ```angular2html ·标题 ·x轴名称 ·y轴名称 ·不支持中文 ``` ##### *颜色* ```angular2html ·图中每个颜色对应的取色器和十六进制 ·图中有可更改的颜色才会显示 ``` ##### *图* ```angular2html ·可随时将当前操作的图片下载到本地 (png格式) ```