LLH
2024/03/09/15:00
9ceac59
|
raw
history blame
6.98 kB
# EasyMachineLearning
# ~~~~~~~~~~~~~~~~~~~~~~~~~~~~
## 介绍
- 版本:v1.0
- 作者:李凌浩
- 有任何出现的问题请私信 或 在Github上反馈 ~
- 有任何新功能的想法请加作者微信 ~
- 合作请联系作者 ~
- *( WX: llh13857750421 )*
- ଘ(੭ˊ꒳​ˋ)੭
## 注意事项
- 程序部署在Hugginface上,为gradio框架,由于gradio直接部署的方案是刚出的,所以有时候程序可能存在不稳定
- 若程序出现ERROR,刷新重新开始即可
- 模型训练和可视化过程暂未实现进度条,后续版本可能会出该功能
## 解释
### 1.数据源
##### *i.选择所需数据源 [必选]*
```angular2html
·自定义:上传自己的Excel表格作为数据源
·Iris Dataset: 鸢尾花数据集 (用于分类任务) [sklearn内置数据集]
·Wine Dataset: 酒的数据集 (用于分类任务) [sklearn内置数据集]
·Breast Cancer Dataset: 乳腺癌数据集 (用于分类任务) [sklearn内置数据集]
·Diabetes Dataset: 糖尿病数据集 (用于回归任务) [sklearn内置数据集]
·California Housing Dataset: 加利福尼亚房价数据集 (用于回归任务) [程序内置数据集]
·为机器学习任务的起始操作
·更改数据源会自动清理所有已训练的模型缓存和其他部分缓存
```
### 2.当前数据信息
```angular2html
·总列数: 当前操作的数据的总列数
·总行数: 当前操作的数据的总行数
·保留的行数 [可选]: 拖动滑动条可以选择 当前操作的数据中所需保留的行数,其余行全部删除
·存在缺失值的列: 显示当前操作的数据中有缺失值如Nan等的列名
·删除所有存在缺失值的列 [可选]: 删除当前操作的数据中含有缺失值如Nan等的列
·重复的行数: 当前操作的数据中一样的行数
·删除所有重复行 [可选]: 删除当前操作的数据中一样的行
·实时显示当前操作的数据 (只能查看,不能更改)
·[*index]列为当前数据索引,非数据内的列 (自动添加该列是为了方便查看数据)
·最左边第一列始终为因变量的列,其余为自变量的列
·可随时将当前操作的数据下载到本地 (Excel格式)
```
### 3.数据处理
##### *i.选择因变量 [必选]*
```angular2html
·当前操作数据中的所有列名
·在显示的所有行名字中选择作为任务的因变量的列 (选中后自动将该列移动到当前数据的第一列)
```
##### *ii.将所有数据强制转换为浮点型 (除第1列以外) [必选]*
```angular2html
·"列名-数据类型"数据表: 当前操作中的数据的所有列对应的数据类型 (字符型为"object")
·第1列因变量的列在这里不会成为被转换的对象
```
##### *iii.选择任务类型 (同时会根据任务类型将第1列数据强制转换) [必选]*
```angular2html
·分类
·回归
·选择分类会将第1列的数据强制转换为字符型数据
·选择回归会将第1列的数据强制转换为浮点型数据
```
##### *iv.选择所需删除的列*
```angular2html
·当前操作数据中的所有列名
·删除 [可选]: 在当前操作的数据中删除所选列
```
##### *v.选择所需标签编码的字符型数值列*
```angular2html
·当前操作数据中是字符型数据的所有列名
·字符型转数值型 [可选]: 将选中的数据列强制转换为浮点型
```
##### *vi.选择所需标准化的列*
```angular2html
·当前操作数据中尚未标准化的所有列名
·标准化 [可选]: 将选中的数据列根据各自列进行标准化 (变成0~1范围)
```
### 4.数据模型 (上述[必选]全部选择完毕后才会显示!)
##### *i.选择所需训练的模型*
```angular2html
·当前可选择的所有模型名
·选中后会展示当前选中模型的相关信息和选项
```
##### *ii.分割出的训练集所占比例*
```angular2html
·该比例为训练集占所有数据的比例
·默认为0.8
```
##### *iii.选择超参数优化方法*
```angular2html
·无: 直接训练 (速度快) (如果其他超参数优化方法速度较慢可选择当前项看效果)
·网格搜索: (速度相对适中) (请作为模型调参的首选项)
·贝叶斯优化: (速度很慢)
·请优先选择网格搜索
·树模型如决策树、随机森林、XGBoost模型的超参数优化速度在数据量大的情况下非常慢,自行考虑是否需要等待
·参数量越大速度越慢
```
##### *iv.超参数列表 (选择超参数优化方法后会显示)*
```angular2html
·橙色边框的文本框为超参数名称 (可修改)
·每行无颜色边框的文本框为超参数对应的各个候选参数 (可修改)
·将文本框中的参数删除后(空字符串),就相当于删除了该参数
·只能修改和减少参数,不能增加
·每次加载默认显示每个模型的默认参数字典
```
##### *v.模型是否完成训练*
```angular2html
·若选中的该模型训练完成后,会勾选
```
### 5.数据可视化
##### *i.数据分布图*
```angular2html
·需要选择可视化的相应列
·每列数据的数量统计的柱状图
```
##### *ii.箱线统计图*
```angular2html
·需要选择可视化的相应列
·每列数据的常见统计量的箱线图
```
##### *iii.系数热力图*
```angular2html
·需要选择可视化的相应列
·列与列之间的皮尔逊相关系数
```
##### *iv.学习曲线图*
```angular2html
·需要选择已训练的模型名称
·训练集与验证集数据的拟合效果 (1个模型有2条曲线)
```
##### *v.数据拟合图*
```angular2html
·需要选择已训练的模型名称
·测试集的真实数值曲线与模型预测数值曲线
```
##### *vi.特征蜂群图*
```angular2html
·需要选择已训练的模型名称
·需要选择图像类型
·特征对模型整体能力的表征程度
·若样本量大于123,则随机抽样123个作为输入
```
##### *vii.特征瀑布图*
```angular2html
·需要选择已训练的模型名称
·需要选择相关特征的变量索引
·特征对模型整体能力的表征程度
·若样本量大于123,则随机抽样123个作为输入
```
##### *viii.特征力图*
```angular2html
·需要选择已训练的模型名称
·需要选择相关特征的变量索引
·特征对模型整体能力的表征程度
·若样本量大于123,则随机抽样123个作为输入
```
##### *viiii.特征依赖图*
```angular2html
·需要选择已训练的模型名称
·需要选择对应的列
·特征对模型整体能力的表征程度
·若样本量大于123,则随机抽样123个作为输入
```
##### *图例*
```angular2html
·图中每个图例的名称
·图中有图例才会显示 (不支持中文)
```
##### *坐标轴*
```angular2html
·标题
·x轴名称
·y轴名称
·不支持中文
```
##### *颜色*
```angular2html
·图中每个颜色对应的取色器和十六进制
·图中有可更改的颜色才会显示
```
##### *图*
```angular2html
·可随时将当前操作的图片下载到本地 (png格式)
```