基于文本信息补充的图像描述模型_中国煤炭行业知识服务平台

基于文本信息补充的图像描述模型

作者

花嵘仪秀龙郑杜磊王志余
单位

山东科技大学计算机科学与工程学院山东省青岛市黄岛区第一人民医院
摘要

基于encoder-decoder的深度神经网络在图像描述任务中获得了很好的表现,LSTM解决梯度消失的良好能力使其成为解码器的主流。LSTM的门控机制较好地解决了RNN的长期依赖问题,但该机制对信息的筛选导致信息缺失,使得LSTM隐藏单元表达能力不足,出现LSTM输入信息缺失、预测信息不充分问题。为解决这两个问题,提出两种基于文本信息补充的图像描述模型:输入信息补充（IIS）模型通过信息提取函数提取更多的文本信息作为输入,解决LSTM输入信息缺失问题;输出信息补充（OIS）模型通过信息提取函数提取多个时间步的隐藏单元信息进行预测,解决LSTM预测信息不充分问题。实验证明,在AI CHALLENGER测试集中,两种模型均显著地提高了各项评价指标。
关键词

长短时记忆网络图像描述文本信息补充信息提取函数信息缺失
基金项目(Foundation)

国家重点研发计划项目（2016YFB020803）；山东省重点研发计划项目（2019GGX101066）；
文章目录

1 相关工作
2 基于文本信息补充的图像描述模型
2.1 图像描述的传统encoder-decoder架构
2.2 基于文本信息补充的图像描述模型
3 实验
3.1 实验细节
3.2 定量分析
3.2.1 IIS模型
3.2.2 OIS模型
3.2.3 实验结果与分析
3.3 定性分析
3.4 讨论
4 结论
引用格式

花嵘,仪秀龙,郑杜磊,王志余.基于文本信息补充的图像描述模型[J].山东科技大学学报(自然科学版),2021,40(06):61-68.DOI:10.16452/j.cnki.sdkjzk.2021.06.008.