▲ 中企通信信息科技服务与数据科学部副总裁李超群:他山之石可以攻玉,团队走出传统网络安全思维,以数据算法,设计出突破性AI网络安全检测系统。
新科技速递
随着数字化转型,企业数字基建的攻击面愈来愈大,一些潜伏的攻击也很难发现,如何防御恶意软件,一直是网络安全的挑战。
近年来,勒索软件、木马、病毒、恶意挖矿程序等恶意软件不断大量涌现,不少更化整为零,绕过了防御系统,几乎是防不胜防。
虽然说侦察软件已推陈出新,但不少恶意软件仍通过各种手段逃逸侦察,绕过防御,传统网络安全防御手段已穷于应付。
去年, 中企通信团队就发明了崭新检测手法,将恶意软件变为图形,再以神经网络,融合深度学习提取特征并建立检测模型,只要恶意软件具备共同图形特征,通过视觉运算的边缘推理引擎,就可快速判断是否为恶意软件并分门别类。
跳出框框打破传统
这种检测手法跳出传统框框,不从网络安全出发,甚至不须知道攻击的手法,只纯粹通过机器学习和视觉运算以辨识恶意软件,有点类似以人脸识别执行安保。
中企通信信息科技服务与数据科学部副总裁李超群说,团队开发出上述技术,获得了 中国CCF大数据与计算智能大赛(CCF BDCI)「一等奖」 ,去年12月总决赛答辩日获 「人工智能恶意软件家族分类」全场总冠军 。目前正在申请专利,以便有关技术可实际应用。
这种侦察技术的优势,除了易于部署以外,亦更具效率。 由于恶意软件开发不易,不少只是旧酒装新瓶,将原有软件加入逃逸掩饰,或者转换包装;除非全新设计,否则都会被上述技术抽测出来。
变种的恶意软件之所以难以侦查,主要是基于逃逸机制,通过不断变种来增加掩饰。中企通信推出的AI网络安全检测系统,通过图像特征即可准确识别恶意软件,任恶意软件如何变种亦无所遁形。
为防范恶意软件,市场有多种侦察技术;一般简单的是靠「标识符」(Signature)或特征代码来进行侦察,一旦符合预定特征,就可判断是恶意软件。但随着恶意软件遭不停修改,再加入混淆,标识符逐渐失去作用,原本隶属于同一家族的恶意软件,可化身为不同档案,如妖怪变身,再加上层层伪装,很难通过外表去分辨是否为同一恶意软件。
▲中企通信信息科技服务与数据科学部团队获得了中国CCF大数据与计算智能大赛(CCF BDCI)总决赛答辩日获「人工智能恶意软件家族分类」全场总冠军,正在申请专利,以便有关技术可实际应用。(图源网络)
恶意软件魔高一丈
高度非结构化的恶意软件,一般包括了ASM(ASCII)和PE(二进制)两种数据的档案结构;ASM属于可执行的代码,内容凭肉眼就可以解读,但PE档则通常由编辑器产生;例如Windows系统的.exe和.dll可执行文件,内容则是二进制的机器码。
这些档案数量之多,难以一一扫描,揪出恶意软件并加以分类。另一种方法是根据软件行为特征,如在接收档案之前,先把档案列为分析目标,储存至默认虚拟环境,通过一系列技术先「观测」其行为;这种方法统称为「沙盒」(Sandbox),典型的就是FireEye,以行为检测APT恶意软件。
不过在检测之前,须清楚软件的行为。有时恶意软件在第一次检测先按兵不动,与「沙盒」斗法,「沙盒」又要读取文件内容,更影响了隐私,且沙盒部署亦相对复杂。
中企通信团队则巧妙利用视觉运算和深度学习,减少了系统的负担,在侦察恶意软件之余,亦可同时分类。 在分析数据的过程之中,以AI演算和图像识别,通过视觉运算深度学习,将复杂数据转化为易于辨认的图像。AI模型易于部署,亦不读取内容,检测的只是化身图像。
抽出特征无所遁形
团队首先将文件内容变为色彩图像,RGB应对成三维算法,内容变图像之后,数量仍会过于庞大,团队再以专门学习数据特征的Autoencoder,以弱监督(Weakly supervised learning)的神经网络模型,学习输入数据的隐含特征,先经「编码」(Coding)学习内容特征,再重构原始输入数据,称之为「解码」(Decoding);如此一来,抽出特征并降低了复杂性,关键是编码之后,较小图像就可代表原始数据;团队反编码测试,发现重新编码后,缩小的图像跟原始图片特征非常一致,有代表性。
「经编码后,少量文件可代表大量PE执行文件产生图片的主要特征,然后利用上述小图为恶意软件作特征分类。」
「恶意软件为了逃避检测,引入不同掩饰,也难逃Autoencoder训练AI模型『法眼』,分析数据过程以AI演算和图像识别,在视觉运算模型的自动识别下,恶意软件实时现形。」
以视觉运算去检测和分类恶意软件,部署也相对简单, 可在内部网络或云端上以 GPU算力输入图像作AI模型推理,揪出怀疑档案,扫描大批档案,毋须阅读内容,模型随数据增加,重复训练改善准确度。
李超群说, 比赛评委赞扬团队表现,在于技术走出了传统的网络安全思维,单靠数据演算,设计出突破性的AI网络安全检测系统 ;AI模型采用图像识别技术,已包含多种演算法(AE及LGB),实现了高维度和多方向分类。该团队由5名数据科学家组成。
文章来源:IT Square