图 :“选择活动列”组件的配置对话框。除了选择活动列之外,它还提供选择目标函数值的选项。
在优化每种机器学习方法之后,我们希望比较模型性能并根据我们的用例选择最佳模型。
“选择最佳模型”组件提供了一个交互式视图,帮助我们评估每个模型的性能(图 )。
平行坐标图显示了不同模型性能指标的值。
在我们的示例中,我们针对 的富集 埃及电话号码数据 因子优化了模型,并且所有模型在 的富集因子和 的发现率方面表现同样出色。因此,我们必须考虑其他模型性能指标。对于我们的示例,我们将主要关注以下内容,因为这些模型性能指标特别适合不平衡的类别(就像我们的数据集的情况一样):
科恩的卡帕
测量
平衡精度
对于 的 和 度量, 模型优于其他模型。就平衡准确度而言, 是第二好的模型。因此,我们选择 模型作为我们用例的最佳模型。
图 :“选择最佳模型”组件的交互式视图,显示平行坐标图中所有模型的性能。目标函数值(例如,富集因子为 )在所有模型中同样最佳。可以在表格视图中选择最佳模型。
在“构建模型”组件中,对最终的模型进行训练和部署(详细描述见下面的“集成部署”部分)。
最佳超参数和模型性能报告
最后一个组件“模型报告”会创建一份简短的报告,其中包含有关模型最佳超参数和性能的信息(见图 )。在我们的示例中,选择了使用 指纹的 模型,因为它在 方面优于其他模型。