摘要
在影像学报告的生成中,由于正常区域和异常区域的数据不平衡,描述疾病的关键词经常被描述图像正常区域的句子掩盖,导致异常图像特征的误判和漏判,严重影响医疗报告的质量。本研究提出混合特征提取无卷积深度学习模型,首次将Swin Transformer引入到放射学报告中,设计了一个混合特征提取器,以提取更加细粒度的图像特征,准确地捕捉生成影像学报告所需要的异常特征;设计一个名为视觉-语义协同注意力的注意力机制,在生成报告时突出图像重点特征信息,对非关键信息进行过滤,有效提升生成异常报告的质量;使用具有记忆机制的解码器模块生成影像学报告。最后,在流行的影像学报告IU X-Ray数据集上与当前的主流模型进行对比表明,本模型在语言生成指标和临床评估方面都达到较理想的效果。