作为食品计算的一个主要任务,食品图像检索近年来受到了广泛的关注。然而,食品图像检索面临着两个主要的挑战。首先,食品图像具有细粒度的特点,这意味着不同食品类别之间的视觉差异可能很小,这些差异只能在图像的局部区域中观察到。其次,食品图像包含丰富的语义信息,如食材、烹饪方式等,这些信息的提取和利用对于提高检索性能至关重要。为解决这些问题,本实验基于预训练的视觉Transformer(Vision Transformer,ViT)模型提出了一种增强ViT的哈希网络(enhanced ViT hash network,EVHNet)。针对食品图像的细粒度特点,EVHNet中设计了一个基于卷积结构的局部特征增强模块,使网络能够学习到更具有代表性的特征。为更好地利用食品图像的语义信息,EVHNet中还设计了一个聚合语义特征模块,根据类令牌特征来聚合食品图像中的语义信息。本实验提出的EVHNet模型在贪婪哈希、中心相似量化和深度极化网络3 种流行的哈希图像检索框架下进行评估,并与AlexNet,ResNet50、ViT-B_32和ViT-B_16 4 种主流网络模型进行比较,在Food-101、Vireo Food-172、UEC Food-256 3 个食品数据集上的实验结果表明,EVHNet模型在检索精度上的综合性能优于其他模型。
2023年第44卷 2022年第43卷 2021年第42卷 2020年第41卷 2019年第40卷 2018年第39卷 2017年第38卷 2016年第37卷 2015年第36卷 2014年第35卷 2013年第34卷 2012年第33卷 2011年第32卷 2010年第31卷 2009年第30卷 2008年第29卷 2007年第28卷 2006年第27卷 2005年第26卷 2004年第25卷 2003年第24卷 2002年第23卷 2001年第22卷 2000年第21卷 1999年第20卷 1998年第19卷 1997年第18卷 1996年第17卷 1995年第16卷 1994年第15卷 1993年第14卷 1992年第13卷 1991年第12卷 1990年第11卷 1989年第10卷 1988年第09卷 1987年第08卷 1986年第07卷 1985年第06卷 1984年第05卷 1983年第04卷 1982年第03卷 1981年第02卷 1980年第01卷
电话: 010-87293157
地址: 北京市丰台区洋桥70号
版权所有 @ 2023 中国食品杂志社 京公网安备11010602060050号 京ICP备14033398号-2