Spaces:
Sleeping
Sleeping
# EasyMachineLearning | |
# ~~~~~~~~~~~~~~~~~~~~~~~~~~~~ | |
## 介绍 | |
- 版本:v1.0 | |
- 作者:李凌浩 | |
- 有任何出现的问题请私信 或 在Github上反馈 ~ | |
- 有任何新功能的想法请加作者微信 ~ | |
- 合作请联系作者 ~ | |
- *( WX: llh13857750421 )* | |
- ଘ(੭ˊ꒳ˋ)੭ | |
## 注意事项 | |
- 模型训练和可视化过程暂未实现进度条,后续版本可能会出该功能 | |
## 解释 | |
### 1.数据源 | |
##### *i.选择所需数据源 [必选]* | |
```angular2html | |
·自定义:上传自己的Excel表格作为数据源 | |
·Iris Dataset: 鸢尾花数据集 (用于分类任务) [sklearn内置数据集] | |
·Wine Dataset: 酒的数据集 (用于分类任务) [sklearn内置数据集] | |
·Breast Cancer Dataset: 乳腺癌数据集 (用于分类任务) [sklearn内置数据集] | |
·Diabetes Dataset: 糖尿病数据集 (用于回归任务) [sklearn内置数据集] | |
·California Housing Dataset: 加利福尼亚房价数据集 (用于回归任务) [程序内置数据集] | |
·为机器学习任务的起始操作 | |
·更改数据源会自动清理所有已训练的模型缓存和其他部分缓存 | |
``` | |
### 2.当前数据信息 | |
```angular2html | |
·总列数: 当前操作的数据的总列数 | |
·总行数: 当前操作的数据的总行数 | |
·保留的行数 [可选]: 拖动滑动条可以选择 当前操作的数据中所需保留的行数,其余行全部删除 | |
·存在缺失值的列: 显示当前操作的数据中有缺失值如Nan等的列名 | |
·删除所有存在缺失值的列 [可选]: 删除当前操作的数据中含有缺失值如Nan等的列 | |
·重复的行数: 当前操作的数据中一样的行数 | |
·删除所有重复行 [可选]: 删除当前操作的数据中一样的行 | |
·实时显示当前操作的数据 (只能查看,不能更改) | |
·[*index]列为当前数据索引,非数据内的列 (自动添加该列是为了方便查看数据) | |
·最左边第一列始终为因变量的列,其余为自变量的列 | |
·可随时将当前操作的数据下载到本地 (Excel格式) | |
``` | |
### 3.数据处理 | |
##### *i.选择因变量 [必选]* | |
```angular2html | |
·当前操作数据中的所有列名 | |
·在显示的所有行名字中选择作为任务的因变量的列 (选中后自动将该列移动到当前数据的第一列) | |
``` | |
##### *ii.将所有数据强制转换为浮点型 (除第1列以外) [必选]* | |
```angular2html | |
·"列名-数据类型"数据表: 当前操作中的数据的所有列对应的数据类型 (字符型为"object") | |
·第1列因变量的列在这里不会成为被转换的对象 | |
``` | |
##### *iii.选择任务类型 (同时会根据任务类型将第1列数据强制转换) [必选]* | |
```angular2html | |
·分类 | |
·回归 | |
·选择分类会将第1列的数据强制转换为字符型数据 | |
·选择回归会将第1列的数据强制转换为浮点型数据 | |
``` | |
##### *iv.选择所需删除的列* | |
```angular2html | |
·当前操作数据中的所有列名 | |
·删除 [可选]: 在当前操作的数据中删除所选列 | |
``` | |
##### *v.选择所需标签编码的字符型数值列* | |
```angular2html | |
·当前操作数据中是字符型数据的所有列名 | |
·字符型转数值型 [可选]: 将选中的数据列强制转换为浮点型 | |
``` | |
##### *vi.选择所需标准化的列* | |
```angular2html | |
·当前操作数据中尚未标准化的所有列名 | |
·标准化 [可选]: 将选中的数据列根据各自列进行标准化 (变成0~1范围) | |
``` | |
### 4.数据模型 (上述[必选]全部选择完毕后才会显示!) | |
##### *i.选择所需训练的模型* | |
```angular2html | |
·当前可选择的所有模型名 | |
·选中后会展示当前选中模型的相关信息和选项 | |
``` | |
##### *ii.分割出的训练集所占比例* | |
```angular2html | |
·该比例为训练集占所有数据的比例 | |
·默认为0.8 | |
``` | |
##### *iii.选择超参数优化方法* | |
```angular2html | |
·无: 直接训练 (速度快) (如果其他超参数优化方法速度较慢可选择当前项看效果) | |
·网格搜索: (速度相对适中) (请作为模型调参的首选项) | |
·贝叶斯优化: (速度很慢) | |
·请优先选择网格搜索 | |
·树模型如决策树、随机森林、XGBoost模型的超参数优化速度在数据量大的情况下非常慢,自行考虑是否需要等待 | |
·参数量越大速度越慢 | |
``` | |
##### *iv.超参数列表 (选择超参数优化方法后会显示)* | |
```angular2html | |
·橙色边框的文本框为超参数名称 (可修改) | |
·每行无颜色边框的文本框为超参数对应的各个候选参数 (可修改) | |
·将文本框中的参数删除后(空字符串),就相当于删除了该参数 | |
·只能修改和减少参数,不能增加 | |
·每次加载默认显示每个模型的默认参数字典 | |
``` | |
##### *v.模型是否完成训练* | |
```angular2html | |
·若选中的该模型训练完成后,会勾选 | |
``` | |
### 5.数据可视化 | |
##### *i.数据分布图* | |
```angular2html | |
·需要选择可视化的相应列 | |
·每列数据的数量统计的柱状图 | |
``` | |
##### *ii.箱线统计图* | |
```angular2html | |
·需要选择可视化的相应列 | |
·每列数据的常见统计量的箱线图 | |
``` | |
##### *iii.系数热力图* | |
```angular2html | |
·需要选择可视化的相应列 | |
·列与列之间的皮尔逊相关系数 | |
``` | |
##### *iv.学习曲线图* | |
```angular2html | |
·需要选择已训练的模型名称 | |
·训练集与验证集数据的拟合效果 (1个模型有2条曲线) | |
``` | |
##### *v.数据拟合图* | |
```angular2html | |
·需要选择已训练的模型名称 | |
·测试集的真实数值曲线与模型预测数值曲线 | |
``` | |
##### *vi.特征蜂群图* | |
```angular2html | |
·需要选择已训练的模型名称 | |
·需要选择图像类型 | |
·特征对模型整体能力的表征程度 | |
``` | |
##### *vii.特征瀑布图* | |
```angular2html | |
·需要选择已训练的模型名称 | |
·需要选择相关特征的变量索引 | |
·特征对模型整体能力的表征程度 | |
``` | |
##### *viii.特征力图* | |
```angular2html | |
·需要选择已训练的模型名称 | |
·需要选择相关特征的变量索引 | |
·特征对模型整体能力的表征程度 | |
``` | |
##### *viiii.特征依赖图* | |
```angular2html | |
·需要选择已训练的模型名称 | |
·需要选择对应的列 | |
·特征对模型整体能力的表征程度 | |
``` | |
##### *图例* | |
```angular2html | |
·图中每个图例的名称 | |
·图中有图例才会显示 (不支持中文) | |
``` | |
##### *坐标轴* | |
```angular2html | |
·标题 | |
·x轴名称 | |
·y轴名称 | |
·不支持中文 | |
``` | |
##### *颜色* | |
```angular2html | |
·图中每个颜色对应的取色器和十六进制 | |
·图中有可更改的颜色才会显示 | |
``` | |
##### *图* | |
```angular2html | |
·可随时将当前操作的图片下载到本地 (png格式) | |
``` | |