- 汪可欣;张洁;张朋;孙可芯;占家美;魏濛;
个性化服装搭配推荐已经成为时尚领域的一个研究热点。然而,现有的推荐方法尚未充分挖掘用户风格偏好。通常情况下,用户在选择服装时,不仅会倾向于特定风格,如休闲风格或运动风格,还会关注服装的颜色、质地等细节特征。为了推荐符合用户风格偏好的个性化服装搭配,该文提出了一种结合多模态时尚兼容性建模和个人风格引导的服装搭配推荐方法,简称PSGNet。首先,设计一个风格分类器,将不同服装类型和属性的时尚图像划分到不同的风格类别中;其次,建立个人风格预测模块,通过分析历史数据提取用户风格偏好;再次,为了克服单模态表示的局限性并增强时尚兼容性,利用时尚图像和文本数据来同时提取服装的多模态特征;最后,通过贝叶斯个性化排序(Bayesian personalized ranking, BPR)算法来整合这些模块以统一个人风格和时尚兼容性,其中个人风格特征可引导输出推荐结果,为每位目标用户提供量身定制的个性化服装搭配推荐。在大规模数据集上进行广泛实验。结果表明,该文所提出的方法可有效推荐个性化服装搭配。
2025年02期 v.42 156-167页 [查看摘要][在线阅读][下载 1921K] [网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:4 ] |[下载次数:62 ] - 刘港成;王军凯;林森;伍滨和;王春瑞;周健;孙浩;
多焦点超透镜在光通信、光学成像和显微光学等领域具有重要价值,然而其设计具有极大的挑战性。近年来,深度学习方法为光学平面器件的设计提供了新的解决方案。该文提出了一种使用生成对抗网络(generative adversarial network, GAN)来实现双波长下不同聚焦位置的超透镜设计方法。该方法包括前向网络和逆向设计网络。前者用于快速预测超原子结构的光学响应,后者自动生成符合需求的超原子结构。与传统搜索方法相比,逆向设计网络在设计双波长双聚焦超透镜时具有更高的准确性和效率。这些结果将为可调波长超透镜的设计提供思路和方法,突显了深度学习在光学器件设计中的潜力。
2025年02期 v.42 168-176页 [查看摘要][在线阅读][下载 2096K] [网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:4 ] |[下载次数:60 ] - 韩宇凤;郝矿荣;唐雪嵩;隗兵;
视觉蕴含是多模态视觉推理中的一个典型任务,当前的方法经常利用大型语言模型(large language model, LLM)作为知识库来协助回答问题。这些方法在很大程度上依赖于文本模态,而文本模态本质上无法捕获图像中包含的全部信息。为此,作者提出了一个上下文感知视觉蕴含(context-aware visual entailment, CAVE)模型。该模型引入了一种新的聚合模块,用于从图像中提取高级语义特征,将低级语义图像特征聚合为格式类似于文本标记的高级视觉标记,作为LLM的输入。CAVE模型弥补了图像信息的损失,并更有效地将图像信息与文本理解相结合。同时,CAVE模型采用了一种新的基于指令微调和上下文学习的输入格式和训练方法,其目的在于最大化LLM固有的逻辑推理潜能。在E-SNLI-VE数据集上的实验结果表明,CAVE模型表现出色。
2025年02期 v.42 177-186页 [查看摘要][在线阅读][下载 2377K] [网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:3 ] |[下载次数:13 ] - 黄秋波;梅建敏;赵武鹏;卢怡如;王梅;陈德华;
动作识别作为视频理解领域的基础性任务,得到了广泛研究和应用。相比图像,视频媒介增加了时间维度。然而,目前许多动作识别网络只是对时序信息进行简单平均融合,或者是由图像的预训练模型迁移而来,对时序信息的抽取能力较弱。该文提出了一个可拼接在任意动作识别骨干网络上的高效时序解码模块,以进一步关注视频帧之间的时序关系。该解码器首先初始化一定数量的可学习查询张量,即视频级的动作类别预测查询张量,进行自注意力学习后与骨干网络得到的视频帧特征相结合来提取视频上下文信息,最后再使用这些具有丰富时序特征的预测查询张量作分类预测。在HMDB51、MSRDailyAct3D、Diving48及Breakfast数据集上将TokShift-Transformer和VideoMAE作为编码器进行实验。实验结果显示,与原始模型TokShift-Transformer和VideoMAE相比,引入所提出的时序解码器后,Top-1准确率得到明显提升。在这四个数据集上,TokShift-Transformer的性能提高超过11%,在VideoMAE上的准确率也平均提高了近5%。该工作还将包括Timesformer在内的其他动作识别网络作为编码器,使其与解码器进一步结合。实验结果表明,在HMDB51数据集上,准确率平均提高3.5%以上。代码见https://github.com/huangturbo/TempDecoder。
2025年02期 v.42 187-196页 [查看摘要][在线阅读][下载 1369K] [网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:3 ] |[下载次数:21 ]