领学术科研之先,创食品科技之新
—— 中国食品杂志社
期刊集群
基于增强视觉Transformer的哈希食品图像检索
来源:导入 阅读量: 120 发表时间: 2024-06-24
作者: 曹品丹,闵巍庆,宋佳骏,盛国瑞,杨延村,王丽丽,蒋树强
关键词: 食品图像检索;食品计算;哈希检索;Vision Transformer网络;深度哈希学习
摘要:

作为食品计算的一个主要任务,食品图像检索近年来受到了广泛的关注。然而,食品图像检索面临着两个主要的挑战。首先,食品图像具有细粒度的特点,这意味着不同食品类别之间的视觉差异可能很小,这些差异只能在图像的局部区域中观察到。其次,食品图像包含丰富的语义信息,如食材、烹饪方式等,这些信息的提取和利用对于提高检索性能至关重要。为解决这些问题,本实验基于预训练的视觉Transformer(Vision Transformer,ViT)模型提出了一种增强ViT的哈希网络(enhanced ViT hash network,EVHNet)。针对食品图像的细粒度特点,EVHNet中设计了一个基于卷积结构的局部特征增强模块,使网络能够学习到更具有代表性的特征。为更好地利用食品图像的语义信息,EVHNet中还设计了一个聚合语义特征模块,根据类令牌特征来聚合食品图像中的语义信息。本实验提出的EVHNet模型在贪婪哈希、中心相似量化和深度极化网络3 种流行的哈希图像检索框架下进行评估,并与AlexNet,ResNet50、ViT-B_32和ViT-B_16 4 种主流网络模型进行比较,在Food-101、Vireo Food-172、UEC Food-256 3 个食品数据集上的实验结果表明,EVHNet模型在检索精度上的综合性能优于其他模型。

电话: 010-87293157 地址: 北京市丰台区洋桥70号

版权所有 @ 2023 中国食品杂志社 京公网安备11010602060050号 京ICP备14033398号-2