博客 > 基于威胁情报语义规则抽取的智能变电站告警分析方法
浏览量:593次评论:0次
作者:锐成网络整理时间:2024-06-25 11:17:33
摘 要:威胁情报作为一种弥补攻防信息不对称的安全技术,能够帮助安防人员发现威胁行为,并采取相应的预防措施。近年来,威胁情报研究受到业界广泛关注,然而现有的研究对威胁情报的利用率较低,为此,提出了一种基于威胁情报语义规则抽取的智能变电站告警分析方法。首先,通过构建语义规则模型生成语义规则图,对攻击技术手段进行描述;其次,面向 ATT&CK 攻击技术文本构建语义规则抽取框架,对攻击技术文本进行知识抽取,从中得到语义规则。该方法在解决智能变电站告警信息冗余繁杂问题的同时,提升了威胁情报的利用率,实现了对高层级威胁情报的自动化分析与处理。
内容目录:
1 威胁情报领域研究背景
1.1 威胁情报
1.2 ATT&CK 框架
2 语义规则模型
2.1 语义规则模型定义
2.2 网络实体
2.3 网络实体关系
2.4 语义规则图的规范化
2.5 网络实体属性
2.6 语义规则
3 语义规则抽取
3.1 数据预处理
3.2 知识抽取
3.3 语义规则构建
4 语义规则匹配
5 对比分析
6 结 语
近年来,以高级持续性威胁(Advanced Persistent Threat,APT)为代表的新型网络攻击手段不断涌现,使得智能变电站的网络安全形势愈发严峻。为保证智能变电站免受网络攻击,不同型号、功能的安防设备被大规模地部署在智能变电站系统中,这些安防设备一旦监测到异常事件的发生,就会在短时间内产生海量告警信息,这些告警信息呈现孤岛化、碎片化和冗余化的特点,为操作人员分析处理告警信息、掌握告警事件的实质造成了困难 。威胁情报被定义为一种基于证据的知识,能够利用公开可用的资源,实现描述现存威胁和预测即将出现的威胁,及协助进行防御决策 。战术、技术和程序(Tactics, Techniques, and Procedures,TTPs)包含着丰富的语义知识,是价值最高的一类威胁情报,能够反映攻击者的行为本质,但由于其大多由非结构化的自然语言文本构成,导致难以对其进行分析和利用。通过构建语义规则,能够从高层级威胁情报中自动化提取有价值的安全信息,大大促进对 TTPs 威胁情报的利用。
综上所述,威胁情报能够帮助操作人员在短时间内分析与处理海量告警数据,进而发现告警事件的实质,而抽取威胁情报的语义规则,既能够实现高效性分析与处理告警事件,又能从高层级威胁情报中充分挖掘并利用其中的知识。鉴于此,本文提出一种基于威胁情报语义规则抽取的智能变电站告警分析方法,引入对抗战术、技术和常识(Adversarial Tactics, Techniques, and Common Knowledge,ATT&CK)框架,从攻击技术文本中提取语义规则,进而分析智能变电站告警信息。首先,构建语义规则模型,参考溯源图的表示方法规范化定义语义规则图;其次,构建语义规则抽取框架,抽取 ATT&CK 框架攻击技术文本中的知识,生成语义规则;最后,同智能变电站告警日志数据进行匹配,实现对攻击行为上下文信息的还原,更好地协助变电站开展安防工作。
1 威胁情报领域研究背景
1.1 威胁情报
抽取 TTPs 威胁情报数据的信息,从中提取有价值的安全信息,促进对 TTPs 威胁情报的利用,是现阶段威胁情报领域的研究热点。文献 [10]提出了一种融合多种模型的新型威胁情报信息抽取系统,用于从非结构化威胁情报数据中提取信息,该系统包括实体抽取、共指消解、关系抽取和知识图谱构建 4 个步骤。文献 [11] 基于机器学习方法,将从已知威胁源提取的威胁信息和 TTPs 与相关检测机制联系起来,构成语义网络,然后基于威胁和 TTPs 之间的概率关系识别网络威胁。文献 [12] 设计了一种基于 Web本体语言的威胁分析框架,用于对 Web 本体语言进行形式化规范、语义推理和上下文分析。
1.2 ATT&CK 框架
ATT&CK 框架于 2013 年被提出,其目的是创建网络攻击中已知对抗战术和技术的详尽列表。该框架基于大量现有的 APT 攻击实例,从攻击技术和攻击战术两个方面总结归纳攻击行为,形成了针对黑客行为描述的通用语言和黑客攻击抽象的知识库框架。ATT&CK 框架采用攻击技术文本对某一攻击行为进行描述,充分考虑黑客攻击手段的多样性,适合作为智能变电站威胁检测的事件集合。但是,由于 ATT&CK框架使用自然语言文本描述攻击技术,因此需要抽取攻击技术文本的语义规则,才能在威胁分析过程中实现语义知识的自动化应用 。
2 语义规则模型
2.1 语义规则模型定义
首先,构建语义规则模型,将自然语言文本中包含的攻击技术信息以有向图的形式呈现,模型可定义为G=(T,E,L,M)。其中,T 为图中的点,代表网络实体的集合;E 为图中的有向边,用于描述网络实体之间的关系;L 为标签,是用于标注网络实体数据类型的标签集合;M 为网络实体与标签的映射集合,可定义为 T ← L。2.2 网络实体网络实体是指网络中存在的客观事物,包括概念和对象两个属性,概念是指对相同种类网络实体的抽象描述,而对象则是概念所对应的实例。网络实体集合可表示为其中ψ 和 ξ 分别为概念和对象。2.3 网络实体关系网络实体间的关系共分为 3 类,包括操作关系、从属关系和并列关系。在语义规则图中,连接网络实体边的集合可定义为其中 r 代表实体 x 和实体 y 之间的关系,且 r ∈ R,R 为网络实体关系集合。(1)操作关系表示某一网络实体对另一网络实体的操作行为,即攻击行为实施过程中的动作,结合实施操作行为的主体与客体,能够对攻击步骤进行描述。(2)从属关系表示网络实体之间的父子关系,可用于对网络实体所属类型进行划分,用符号 isa 表示。(3)并列关系表示关系对等的两个网络实体间存在的关系,例如 AND 和 OR 关系。若两个不同的网络实体拥有相同的父实体,则说明它们是并列关系。2.4 语义规则图的规范化为了更清楚地描述网络中各实体间的依赖关系,参考溯源图的方法对语义规则图中的实体和关系进行规范化表示,将网络实体分为进程(process)、文件(file)和套接字(socket)3 类,在溯源图中分别用方形、椭圆形和菱形表示。其中,进程作为操作关系的执行主体,文件的读写与执行、网络数据的收发,以及其他进程的启停均由进程发起,而进程、文件、套接字则作为操作行为的执行对象。此外,语义规则图中网络实体间的操作关系使用加粗的有向线条表示,而从属关系和并列关系则使用无向线条表示。2.5 网络实体属性网络实体属性是指网络实体自身所具备的性质,可用于将自身同其他实体相区分,包括通用属性和特有属性。其中,通用属性是指所有网络实体都拥有的属性,包括 mapping 和 children 属性,mapping 属性实现了网络实体与标签的映射,children 属性储存了包含该网络实体所有子实体的列表,父实体可以继承子实体的属性。此外,进程、文件、套接字分别拥有各自的特有属性。此外,网络实体属性之间存在比较关系,包括大于(>)、小于(<)、等于(==)、不等(≠)、属于(∈)和不属于(∉)关系,比较关系的双方可以是两个不同的属性,也可以是实体属性与某一具体数值。
2.6 语义规则
语义规则能够描述攻击者实施攻击的行为规律,主要包括实体匹配规则(Entity Matching Rule,EMR)和关系匹配规则(Relational Matching Rule,RMR),实体匹配规则用于验证单个网络实体的属性值,而关系匹配规则用于验证网络实体间的操作关系。针对智能变电站面临的安全威胁,通过对语义规则进行匹配,能够从站内安防设备告警日志数据中还原攻击技术语义和攻击上下文信息。若实体匹配规则和关系匹配规则均通过验证,则说明匹配成功 。
3 语义规则抽取
由于 ATT&CK 框架采用自然语言文本描述攻击技术,需要对攻击技术文本进行知识抽取。因此,本文构建语义规则抽取框架,其工作流程 如 图 1 所 示, 以 ATT&CK 框 架 的 攻 击 技 术文本作为框架输入,输出语义规则,该框架主要包括数据预处理、知识抽取和语义规则构建3 个阶段。
3.1 数据预处理
数据预处理阶段包含两个子步骤,即关键词组识别和词性、语法标注。关键词组识别是根据安全领域的词汇特点,挖掘词汇之间的相关性,实现对关键词组的识别。本文引入正点互信息(Positive Pointwise Mutual Information,PPMI)指标来计算并判断两个词汇间的关联性,PPMI指标的计算过程如下:
图 1 语义规则抽取框架式 中:和分别表示词汇单独出现的概率和两个词汇相邻出现的概率。当 PPMI>0 时,说明两个词汇存在相关性,且 PPMI 值越大,相关性越强;而当 PPMI 指标数值超过某一预设的阈值 φ 时,说明两个连续词汇间具有强关联性,则认为这两个词汇作为一个词组出现。在词性、语法标注阶段,首先使用 TextBlob工具进行词性标注和使用自然语言处理工具包(Natural Language Toolkit,NLTK)删除词汇列表中的停用词并还原词性,然后再使用 spaCy 工具包抽取词汇间的依赖关系,生成带词性标签和依赖关系的词汇集合,表示为:式中:和分别为的词性;rela为两个词汇间的依赖关系。
3.2 知识抽取
知识抽取阶段包括命名实体识别和实体关系抽取两个子步骤,分别针对网络实体和网络实体关系进行知识抽取 。鉴于 ATT&CK 框架的攻击技术文本数量较少,用于描述的语法和句式较为规范统一,因此本文选用基于规则的知识抽取方法。首先,基于英文文本的语法表达规范,选取最具代表性的几类英文句式,根据词汇的词性和词汇间的语法关系,构建一套知识抽取规则,如表 1 所示,用于对攻击技术文本的知识抽取 。表 1 知识抽取规则
针对网络实体,将其定义为词性是名词、专有名词或复合名词的词汇,其中复合名词由多个名词或专有名词组合而成。为了更好地识别智能变电站网络安全领域内的实体词汇,可以收集相关领域词汇构建成词典,用于辅助网络实体识别。随后,使用 Python 编写正则表达式的方法构建知识抽取规则,基于词性标注的结果,分别对网络实体及谓语、系动词等进行简单的词性分类,随后对不同句式建立对应的正则表达式。3.3 语义规则构建语义规则构建阶段包括网络实体标注和语义规则图构建两个子步骤。网络实体标注阶段根据语义规则模型定义,标注知识抽取阶段得到的网络实体数据类型。将网络实体出现的次数作为向量值,并构造向量矩阵,根据式(3)计算已标注网络实体和未标注网络实体之间的余弦相似度,实现基于已标注的网络实体对未标注的网络实体进行数据类型的标注:式中:代表网络实体,sim 为两个网络实体之间的余弦相似度。
随后,对所得到的带有标注的网络实体与网络实体关系进行组织和汇总,结合第 2 节所定义的语义规则模型及相关规范,生成语义规则图,用于描述攻击技术,最后将语义规则图转化为语义规则。
4 语义规则匹配
使用所得到的语义规则匹配智能变电站的告警日志,具体实现过程如算法 1 所示。处理智能变电站的告警日志数据,将其转化为告警日志的溯源图算法输入为语义规则与智能变电站告警日志的溯源图输出为成功匹配的关系集合 result,预设最大路径长度(max_len)与最小路径长度(min_len)用于控制路径搜索范围。
5 对比分析
通过匹配从 ATT&CK 攻击技术文本中提取的语义规则与智能变电站的告警日志数据,能够结合攻击上下文信息分析其行为的逻辑与目的。搭建仿真试验场景,模拟实施攻击过程,试验场景由两台 VMware Workstation 虚拟机组成:Windows 7 64 位虚拟机作为靶机,关闭防火墙,开启 445 端口;Kali Linux 64 位虚拟机作为攻击机,开启 SSH 服务。场景中的虚拟机器均使用 AMD Ryzen 7 5800H with Radeon Graphics×1 CPU,其运行内存为 2 GB。
在采集数据时,采用 Wireshark 工具采集场景中的日志数据,使用 Xshell 工具远程连接攻击机实现操作控制。试验共分 3 个阶段模拟 APT的攻击过程:第 1 阶段,首先使用 Nmap 工具进行漏洞扫描,随后使用 Metasploit 框架的辅助扫描模块进行漏洞扫描,发现靶机存在 MS17-010漏洞;第 2 阶段,对 MS17-010 漏洞进行漏洞利用,使用“永恒之蓝”攻击模块,设置攻击载荷,建立攻击机与靶机之间的连接,得到 Meterpreter会话,调用 Metasploit 的功能;第 3 阶段,在得到 Meterpreter 会话后,进行靶机用户密码的破解与更改、用户权限的篡改、建立账户实现持续控制、获取远程 shell 终端,以及设备、系统、用户、文件、网络信息的获取等行为。其中,第 3 阶段所进行的各种操作具有较强的代表性,能够刻画网络攻击者在漏洞利用成功后的后续行为,可为攻击过程分析、评估提供重要信息支撑。
对比测试所构建的语义规则同攻陷指标(Indicator of Compromise,IOC)的匹配结果,通过计算检出率指标的方式比较语义规则和 IOC规则对攻击行为的检测能力,对比结果如表 2所示,IOC 规则检出率为 57.1%。由表 2 可以看出,对攻击事件的检测上,本文构建的语义规则明显优于 IOC 规则。表 2 对比结果
以 攻 击 技 术 T1018—— 远 程 系 统 发 现(Remote System Discovery)为例,该技术是利用远程访问工具或操作系统上的实用程序(如ping 命令),获取其他系统的列表。对 ping 工具的使用而言,该行为可视作正常的用户行为,但此类攻击技术往往是针对某一网段的 IP 地址进行大量扫描,并结合攻击上下文来分析,可以被认定是攻击者执行内网扫描的行为。攻击技术 T1021、T1057、T1210 等都存在类似的滥用行为,通过滥用此类系统工具,可作为攻击者进行的主机探测、信息窃取、痕迹消除的手段之一,只有结合攻击上下文进行分析,才能将其确定为攻击行为。
综上所述,相比于现有的威胁分析手段,抽取语义规则能够为威胁检测提供参考,将符合攻击技术描述的行为规律通过语义规则匹配并被定义为异常行为,该方法能够有效提高对攻击事件的检测精度,并使得威胁检测更为全面。
6 结 语
本文所提出的基于威胁情报语义规则抽取的智能变电站告警分析方法,首先定义了语义规则模型,随后构建语义规则抽取框架,生成语义规则图,得到语义规则,实现从攻击技术文本中抽取语义规则的操作,有效地消除了语义鸿沟。通过将得到的语义规则同告警日志数据相匹配,发现潜在的网络威胁并还原攻击上下文信息,有效地辅助安全人员开展入侵检测与防御工作。
引用格式:王文婷 , 刘远龙 , 刘潮 , 等 . 基于威胁情报语义规则抽取的智能变电站告警分析方法 [J].信息安全与通信保密 ,2024(3):43-51.
作者简介 >>>
王文婷,女,硕士,高级工程师,主要研究方向为电力系统网络安全;
刘远龙,男,博士,高级工程师,主要研究方向为电力系统自动化;
刘 潮, 男, 学 士, 工 程 师,主要研究方向为电力系统网络安全;
王 赫,男,硕士研究生,工程师,主要研究方向为工业控制系统安全;
刘 京, 男, 硕 士, 工 程 师,主要研究方向为电力系统网络安全。
选自《信息安全与通信保密》2024年第3期(为便于排版,已省去原文参考文献)
重要声明:本文来自信息安全与通信保密杂志社,经授权转载,版权归原作者所有,不代表锐成观点,转载的目的在于传递更多知识和信息。
相关文章推荐
2024-11-07 15:21:47
2024-10-14 14:43:12
2024-10-09 15:29:02
2024-09-30 15:51:45
2024-09-27 14:24:39
热门工具
标签选择
阅读排行
我的评论
还未登录?点击登录