7月14日,阿里安全峰会在国家会议中心召开。东巽科技CTO李薛认为,近年不断出现新型网络攻击方式,每天增加大量的恶意样本数量,但分析与判别是两回事。面对大量恶意样本数据,利用机器学习并进行大数据分析才是合理的解决之道。
李薛在现场分享机器学习成果
“机器学习与网络安全是完全不同的两个领域,两个领域在知识结构上存在很大的差异,而且在各自的领域,如果想做出成果都需要极高的门槛。两个学科的结合,需要建立在大量的实验之上。算法的优劣、数据量、数据抽取比例、样本训练等等因素,都会导致判别的精度。”李薛说,“分析的工作容易一些,但是利用机器学习去判别恶意样本很难”。
从机器学习的概念,入门级的简单实践,到在研究过程中遇到的困难,李薛系统地分享了东巽科技公司在研究机器学习道路上取得的成果,以及在实践中踩到的“坑”,为同行专业人士在同样的研究中提供了诸多可参考的经验。
机器学习还是处于边学习边探索的阶段,未来还有很多工作需要落地,比如优化输入的数据,尝试对输入数据进行更为细致的标签分类、引入特定行为检测规则作为抽取特征的一部分、降维去噪,做特征统计和人工分析,筛选掉一些效果不明显的特征、尝试不同算法&不同特征向量的搭配组合、增加静态分析的数据并抽取相应的高价值特征等等。
对此李薛做了一个比喻,他说“在利用机器学习检测恶意样本方向上,就是刚刚上路而已,未来的路还很远很长,在未来的路上会有山有水有河流,当然也有鲜花和果实。未来充满期待。”