• 论文
主办单位:煤炭科学研究总院有限公司、中国煤炭学会学术期刊工作委员会

人工智能的逆向工程——反向智能研究综述

2023-02-17

作者:李长升, 汪诗烨, 李延铭, 张成喆, 袁 野, 王国仁

作者单位:北京理工大学 计算机学院


在大数据时代, 人工智能得到了蓬勃发展, 尤其以机器学习、深度学习为代表的技术更是取得了突破性进展. 随着人工智能在实际场景中的广泛应用, 人工智能的安全和隐私问题也逐渐暴露出来, 并吸引了学术界和工业界的广泛关注. 以机器学习为代表, 许多学者从攻击和防御的角度对模型的安全问题进行了深入的研究, 并且提出了一系列的方法. 然而, 当前对机器学习安全的研究缺少完整的理论架构和系统架构. 


北京理工大学李长升教授团队从训练数据逆向还原、模型结构反向推演、模型缺陷分析等角度进行了总结和分析, 建立了反向智能的抽象定义及其分类体系. 同时, 在反向智能的基础上, 将机器学习安全作为应用对其进行简要归纳. 最后探讨了反向智能研究当前面临的挑战以及未来的研究方向. 建立反向智能的理论体系, 对于促进人工智能健康发展极具理论意义.


亮点论述:


1676622471552719.jpg

  研究从如下 4 个层次来介绍反向智能技术.

  

  (1) 第 1 层, 训练数据还原引擎对目标模型涉及的训练数据进行推断. 其一, 调研预测某一数据是否存在于训练数据的相关方法; 其二, 调研对训练数据的属性进行推断的技术; 其三, 讨论对训练数据的分布进行推断的技术. 总之, 本节从数据的多个维度出发, 对训练数据的反向推断技术进行了调研, 为下一层的模型反向推演引擎提供基本资料。

  

  (2) 第 2 层, 反向推演引擎对目标模型的细节进行推演. 其一, 调研对机器学习模型结构(例如深度神经网络的隐含层数、激活函数等)进行反向推演的技术; 其二, 调研对机器学习模型参数进行反向推演的技术; 其三, 调研对机器学习模型功能进行反向推演的技术; 本节调研了对机器学习模型内部细节进行反向推演的技术, 为下一层的机器学习模型缺陷分析引擎提供技术支撑。

  

  (3) 第 3 层, 模型缺陷分析引擎对目标模型的缺陷进行分析挖掘. 其一, 调研对机器学习模型鲁棒性分析的技术; 其二, 调研对数据不均衡性分析的技术; 其三, 调研对机器学习模型敏感性分析的技术; 本节调研了对机器学习模型缺陷分析的技术, 为下一层的机器学习模型攻击和防御提供技术依据。

  

  (4) 第 4 层, 机器学习模型攻击和防御引擎完成模型的对抗攻击和防御, 实现反向机器学习的最终目标。其一, 调研机器学习模型安全攻击的技术; 其二, 调研机器学习模型防御机制的技术。


  现有的反向智能研究还有广阔的发展空间, 总结未来的研究方向如下.

  

  (1) 结构化逆向数据还原. 在训练数据中, 数据常常包含各种各样的结构信息. 例如在图像中, 单个像素点与周围像素点常常具有一定的相关性. 如此, 像素点集合常常能够构成含有某种语义信息的结构. 在训练数据逆向还原过程中, 可以将如此的结构信息作为先验知识加入到模型中, 进而降低模型的搜索空间, 提高数据的还原精度. 例如: 在模型中增加一些结构化的规则项, 约束还原的数据包含某种结构信息, 使得还原的数据在时空上具有平滑性. 此外, 从模型结构内部挖掘与数据集相关的信息也是一个有意思的研究方向. 例如, 卷积神经网络中的 BN 层包含了数据集的均值和方差,因此, 加入如此跟数据集相关的历史信息对于还原训练数据具有十分重要的作用.

  

  (2) 模型指纹技术. 正如上所述, 不同的神经网络模型常常具有十分相似的功能, 同时增加或者减少一些隐含层并不改变模型的功能, 这给模型结构精确还原带来了很大的挑战. 因此. 对模型的指纹技术进行研究是一个有趣的研究方向. 例如: 根据模型的中间输出或者最终输出, 能够挖掘到与模型结构关联性强的信息, 也就是模型指纹. 通过对这些信息进行分析, 从而确定模型结构. 此外, 利用神经网络架构搜索的方法也可以对目标模型的结构进行还原. 通过利用搜索技术找到与目标模型相同或者相似的结构, 也是值得研究的方向.

  

  (3) 缺陷识别及测量技术. 不同的训练条件(例如训练数据类别不均衡)会导致训练的模型常常具有某些缺陷, 导致模型的性能受到一定程度影响. 因此, 精确定量的刻画模型缺陷是未来的研究方向. 同时, 模型缺陷对于模型性能影响很大, 不同的模型缺陷往往会对模型产生不同的影响. 建立模型缺陷和模型性能之间的关系, 对于人工智能的算法对抗起着关键的作用. 因此, 如何精确衡量不同缺陷对于模型性能的影响, 也是未来的关键研究方向之一.

  

  (4) 反向智能系统. 比起人工智能的常规任务, 反向智能的任务相对来说更加困难, 需要耗费更大的算力资源, 因此需要有更加高效的, 甚至全新的系统架构对于反向智能任务进行实现. 例如在反向智能中, 需要常常收集目标模型输出的结果作为状态对模型进行分析. 当需要的数据量较大时, 网络带宽将会是一个较大的瓶颈. 因此, 解决高带宽等诸如此类的需求, 会是在反向智能系统方面的未来研究方向.




论文链接
  责任编辑:宫在芹

主办单位:煤炭科学研究总院有限公司 中国煤炭学会学术期刊工作委员会

©版权所有2015 煤炭科学研究总院有限公司 地址:北京市朝阳区和平里青年沟东路煤炭大厦 邮编:100013
京ICP备05086979号-16  技术支持:云智互联