摘要
获取有代表性的标记数据集是学习监督检测模型所必须克服的障碍。 标注数据集在计算机安全性方面特别昂贵,因为执行注释需要专家知识。 在本文中,我们介绍了ILAB,这是一种新颖的交互式标记策略,可帮助专家标记大型数据集以减少工作量以进行入侵检测。 首先,我们将ILAB与公开标记数据集上的两种最新标记策略进行了比较,并证明了它是有效且可扩展的解决方案。 其次,我们证明了ILAB可以与对来自生产环境的大型未标记NetFlow数据集进行的现实注释项目一起使用。 我们提供了一个开放源代码实施(https://github.com/ANSSI-FR/SecuML/),以允许安全专家标记自己的数据集,并允许研究人员比较标记策略。
1 介绍
在本文中,我们介绍了ILAB,这是一种新颖的交互式标记策略,可帮助专家以减少的工作量获取具有代表性的标记数据集。 ILAB依靠具有二进制标签(恶意与良性)以及用户定义的恶意和良性族的新的分层主动学习方法。它避免了传统主动学习遇到的抽样偏差问题,因为它旨在发现不同的恶意和良性家庭。此外,ILAB中使用的可扩展算法使它可用于大型数据集,并保证了专家等待时间短,从而可以实现良好的专家模型交互。
2 相关工作