地大新闻网讯 (通讯员 樊彦鹏 许峰)近日,我校2020级巴基斯坦籍硕士研究生胡文硕(穆萨拉特·侯赛因)以第一作者的身份,在国际知名期刊《信息科学》上,发表学术论文《一种轻量级的基于字符级卷积神经网络的网络钓鱼网址检测方法》。论文通讯作者为我校计算机学院信息安全系主任程池副教授。
胡文硕(左)与导师程池副教授(右)
网络钓鱼是一种利用社会工程和技术欺骗来诱导互联网用户泄露敏感信息的网络犯罪。恶意网址是网络犯罪分子常用的策略,以欺骗受害者进入钓鱼网站并谋取利益。据统计,网络钓鱼骗局正不断增加,每年由于网络钓鱼所造成的金融损失和信息泄露,价值在数十亿美元左右。
过去,网络钓鱼的检测依赖于黑名单,但黑名单并不全面,也缺乏对新生成恶意网址的检测能力。最近,机器学习被广泛用于检测恶意网址的攻击,其中最常见的方法是通过提取网址的词汇属性来分析各种特征,然后采用支持向量机、梯度提升和随机森林等机器学习模型去预防攻击。但这些方法存在缺陷,无法记录语义或顺序模式,也需要人工提取网址特征,增加了计算和操作的开销,而且无法在训练期间处理未见过的特征并泛化到测试数据。
为了应对这些挑战,该论文提出了一种基于字符级卷积神经网络(CNN)的有效且轻量级的钓鱼网站检测方法(CNN-Fusion),它从原始网址中提取多级特征,而不需要一些专业领域知识或任何第三方服务来帮助检测恶意的网址。该论文的基本想法是并行部署多个具有不同大小内核的单层CNN变体,以提取多级特征。相比于具有固定内核大小的多个顺序层,具有不同内核大小的单层CNN能更有效地捕捉文本模式,这是由于不同的内核宽度可以检测输入网址中的不同模式。例如,一个小的内核可以检测局部模式,但一个较大的内核却可以检测全局模式。该模型采用了被证明在正则化方面非常有效的SpatialDropout1D(深度学习技术),并利用了时序最大池化操作,显著提高了鲁棒性和整体性能。
CNN-Fusion: 论文中提出的模型架构
据实验结果表明,相较于现有基于深度学习的方法,该论文提出的方法训练时间减少了5倍,内存消耗更少。在五个不同的数据集和AI生成的恶意网址上,平均检测准确率超过了99%,为打击网络钓鱼骗局提供了更加快速、精准和低成本的预防措施思路。
本项研究由程池副教授团队、英国伯明翰城市大学计算与数据科学系教授穆罕默德·阿夫扎尔共同完成,并获得国家自然科学基金项目的支持。
(编辑 孙彦钦 审稿 陈华文)