快照更新时间: 2026-05-03
Chunguang Zhao, Yilun Liu +11
2026-05-02
提出M - DaQ框架构建多语言指令微调数据集,经18种语言评估,用该框架构建数据训练的模型表现佳,代码公开。
Andrii Zadaianchuk, Leonardo Barcellona +8
2026-05-02
本文提出RecGen生成框架,用于从RGB - D图像中对物体和部件形状及姿态进行概率联合估计,在复杂数据集上表现出色,优于SAM3D。
Md Aminur Hossain, Ayush V. Patel +2
2026-05-02
提出混合量子 - 经典U - Net架构HQ - UNet用于遥感图像语义分割,实验表明其性能优于经典U - Net,凸显混合设计在参数高效密集预测方面的潜力。
Xiang Gao, Shuai Hang
2026-05-02
本文针对真实课堂场景问题,提出基于YOLOv8s的ALC - YOLOv8s模型,实验表明该模型在mAP指标上有提升,能满足复杂课堂场景下学生行为自动识别需求。
Yabo Luo, Xiaoyun Wang +1
2026-05-02
本文提出高精度步态识别框架,通过多分支架构融合步态动力学与身体形状特征,在CASIA - B基准测试中表现良好。
Yihong Guo, Youwei Lyu +6
2026-05-02
提出VeraRetouch轻量级全可微多任务照片修图框架,利用VLM制定修图计划,开发全可微修图渲染器,构建百万级数据集AetherRetouch - 1M+,提出DAPO - AE强化学习后训练策略,实验表明其性能佳且适合移动部署。
Chen Ziwen, Peng Wang +3
2026-05-02
3D Gaussian Splatting有视图不一致和边界模糊问题,提出Softmax - GS解决,实验证明其有效且达SOTA
Mengfei Zhang, Jinlu Zhang +1
2026-05-02
本文提出统一框架Uni - HOI用于4D人体与物体交互(HOI)建模,利用LLMs和VQ - VAEs处理多模态数据,采用两阶段训练策略,在多个HOI相关任务中表现出色。
Kaixiang Shu
2026-05-02
本文针对CNN可解释性中未验证的空间漏斗假设,提出无幻觉反演框架,揭示视觉编码器中强叠加现象,证明分类通过相消干涉进行,提出协方差 - 体积通道选择算法并揭示分布外失效原因,框架可无缝扩展到基于注意力的头部。
Yucheng Chen, Yang Yu +4
2026-05-02
提出RIHA框架解决放射报告生成中图像与报告的细粒度对齐问题,在两个胸部X光数据集上表现优于现有模型。
Ji-Hyeon Kim, Ho-Joong Kim +1
2026-05-02
现有视频片段检索模型存在不足,本文提出ClipTBP框架,能提升性能和边界预测能力。
Pengna Li, Kangyi Wu +8
2026-05-02
提出SpaAct训练框架激活VLMs动态空间感知,设计TriPA课程学习方法,在VLN - CE基准测试中取得SOTA性能。
Pieter C. Gort, Lotte J.S. Ewals +4
2026-05-02
提出基于深度学习的方法在CT上自动分割rPCI区域,评估nnU - Net和Swin UNETR,nnU - Net表现更好,证明自动rPCI分割可行。
Hyeonseo Jang, Jaebyeong Jeon +2
2026-05-02
本文指出测试时提示调优(TPT)存在模型校准不佳问题,提出平坦度感知提示预训练(FPP)框架,可在不修改现有TPT管道其他组件的情况下,提升校准和性能,且无需标注数据和额外计算成本。
Yuhua Wang, Qinnan Zhang +7
2026-05-02
本文提出VPDR解决原型共享隐私风险,通过VPP和DCR实现隐私与效用平衡,实验证明其优于IGPP。
Shuchang Zhou, Kaiwen Shen +4
2026-05-02
提出HiMix框架解决合成图像检测泛化性问题,经多基准测试达SOTA性能。
Dingbao Shao, Song Wu +10
2026-05-02
本文针对视频虚拟试穿模型性能受限问题,引入TripVVT - 10K数据集,开发TripVVT框架,建立TripVVT - Bench基准,相比现有系统有更好表现并公开相关资源。
Jing Zhang, Wentao Jiang +9
2026-05-02
提出Echo-α模型用于超声解读,结合定位与推理能力,在多中心肾和乳腺超声基准测试中表现优于基线模型,证明代理多模态推理可将专业检测器转化为可验证临床证据。
Xiumei Li, Alexander Kopte +1
2026-05-02
提出可扩展的学习型点云几何编解码器TAFA - GSGC,能从单比特流和单训练模型实现多质量解码,压缩效率高,相比基线有更好的率失真性能。
Andrew Bond, Ilkin Umut Melanlioglu +2
2026-05-02
提出S²VAE几何优先潜在学习框架,利用VGGT表示,采用Power Spherical潜在分布的变分自编码器,在多任务中表现优于传统高斯瓶颈,强调潜在几何是视觉和世界模型的重要设计选择。
Geon Yeong Park, Roman Shapovalov +4
2026-05-02
提出3D-ReGen用于从2D图像和初始3D形状再生3D对象,支持多种任务,性能达SOTA。
Shakeeb Murtaza, Aryan Shukla +3
2026-05-02
本文提出InterPartAbility可解释的文本到图像行人重识别方法,通过PPIM模块训练模型,引入定量可解释性协议,在基准测试中取得SOTA可解释性表现并保持竞争力。
Basudha Pal, Siyuan Huang +3
2026-05-02
本文针对现有行人重识别系统受属性影响问题,通过扩展表达性概念分析属性编码,研究了基于Transformer的ReID模型在可见光和跨光谱数据集上属性表达性情况,发现ReID嵌入编码了隐式属性层次。
Chenyang Wu, Lina Lei +7
2026-05-02
提出YOSE高效微调框架用于视频对象移除,引入BVI和DiffSim模块实现掩码感知加速,实验显示多数情况下有2.5倍加速且视觉质量与基线相当。
Yingrui Wu, Youkang Kong +4
2026-05-02
提出CasLayout级联扩散框架解决3D室内场景合成难题,分四阶段生成,结合LLM和VLM,引入稀疏关系图,实验显示性能优。
Bingli Wang, Huanze Tang +6
2026-05-02
现有多模态大语言模型基准多关注单图或多图理解,缺乏交错图文上下文细粒度理解能力的系统基准,本文提出COHERENCE基准,还进行六类错误分析。
Wenqian Zhang, Zehao Wang
2026-05-02
提出CatSignal框架用于非语言交流主体的意图推断,在家庭猫数据集上验证,该框架整体准确率高,能减少上下文驱动的捷径失败。
Shuo Wang, Jilin Mei +5
2026-05-02
提出IRON数据集和IRONet框架用于越野红外时间自由空间检测,IRONet在IRON数据集上表现优异且有良好泛化性,为越野自动驾驶和红外时间感知研究奠定基础。
Ilyass Moummad, Kawtar Zaher +4
2026-05-02
研究自监督学习用于植物图像表示学习,指出常用增强方法不适用于植物图像,确定了更合适的变换,证明特定领域数据对自监督学习的重要性,模型在少样本任务中表现良好。
Lechao Zhang, Haoran Xu +4
2026-05-02
提出World2Minecraft将真实场景转换为Minecraft环境以支持具身智能,引入低成本数据采集管道创建MinecraftOcc数据集,实验表明该数据集有重要价值。
Hezhao Liu, Jiacheng Yang +5
2026-05-02
提出SECOS方法用于开放世界半监督学习,利用外部知识提取和对齐语义表示,实验显示其效果优于现有方法。
Dahua Gao, Yubo Dong +5
2026-05-02
提出Focal U形网络(FUN)框架,结合多任务学习进行高光谱图像重建与目标检测,引入焦点调制,贡献新数据集,实验显示性能优越且参数和计算量少,适合实时边缘部署。
Yubo Dong, Danhua Liu +2
2026-05-02
针对基于NeRF的视频快照压缩成像重建质量有限问题,提出补丁级光线采样策略、RayFormer及结合总变分先验的方法,实验表明该方法达SOTA性能。
Gurucharan Srinivas, Joshua Niemeijer +1
2026-05-02
提出一种有针对性的知识发现方法,通过可微知识单元(DKU)整合领域知识,在多个数据集上验证能提升性能并优于基线。
Nuria Alabau-Bosque, Jorge Vila-Tomas +3
2026-05-02
本文提出轻量级“在线架构”策略,通过插入GAP层解决CNN平移脆弱性问题,减少参数和网络大小,提升平移鲁棒性,还将成果拓展到IQA领域,证明架构不变性比传统数据增强更有效。
Zujin Guo, Zhenhui Ye +5
2026-05-02
提出TAVR框架,利用跨场景视频输入生成会说话的头像,采用三阶段训练方案,实验表明其优于现有基线,已投入生产。
Shiqi Xu, Moritz Burmester +4
2026-05-02
本文评估社交媒体数据上零样本和聚类能力以推进自动视觉主题检测,评估了多个VLM模型,用聚类挖掘模式,虽VLM不能检测气候变化类,但聚类有成果,还给出评估和实践指导。
Linjie Lyu, Ayush Tewari +3
2026-05-02
Summary generation failed
Chialoon Cheng, Kaijun liu +2
2026-05-02
本文全面综述制造应用中3D重建技术的发展与现状,分类重建技术,指出研究缺口,分析应用情况及挑战,显示混合系统趋势。
Sudong Wang, Weiquan Huang +10
2026-05-02
提出PRISM三阶段流程,在SFT和RLVR间插入分布对齐阶段,缓解分布漂移问题,实验表明能提升下游RLVR性能。
Furkan Kınlı
2026-05-02
针对夜景摄影渲染难题,提出基于HVI色彩空间的pHVI - ISPNet框架,经评估在保真度和感知指标上表现出色。
Haiyu Yang, Miel Hostens
2026-05-02
本文针对基础模型管道在牲畜监测中GPU内存预算超商品边缘加速器的问题,通过蒸馏方法压缩模型,在爱丁堡猪数据集上取得较好效果,且能适配设备。
Thorsten Hoeser, Verena Huber-Garcia +3
2026-05-02
本文介绍一种模块化工作流程用于从地球观测数据中绘制线性木本特征图,在德国全国尺度验证有效,为可扩展和通用的线性木本特征制图奠定基础。
Naeem Rehmat, Muhammad Saad Saeed +2
2026-05-02
提出无训练的自适应迭代定义细化框架提升零样本网页内容分类性能,评估多种嵌入基础模型,证明定义质量对基于嵌入系统的重要性。
Peifu Liu, Tingfa Xu +4
2026-05-02
提出双阶段频谱约束聚类分类器(DSCC)用于高光谱图像分类,通过解耦聚类和分类,生成边界保留的光谱超令牌,引入软标签方案,在精度和效率上优于现有方法。
David Fernandez, Pedram MohajerAnsari +2
2026-05-02
对基于视觉语言模型(VLM)的自动驾驶进行跨架构对抗可迁移性研究,评估三种架构,结果显示跨架构攻击有效性高。
Zhengqing Wang, Saurabh Nair +5
2026-05-02
本文通过自监督预训练重新审视相机位姿估计,提出LA - Pose方法,利用逆动力学预训练,在少量标注数据下取得优于现有方法的性能。
Hankyeol Lee, Wooyeol Baek +2
2026-05-02
提出REVIVE 3D两阶段管道从平面图像生成大量3D资产,支持图像条件3D编辑,提出评估指标并验证,在数据集上达SOTA。
Jian Lin, Jiancheng Fang +5
2026-05-02
本文将小波多分辨率分析与3D高斯 splatting 结合,提出残差高斯 splatting(RGS)方法,解决超稀疏视图条件下的光谱偏差问题,实验表明该方法能提升重建图像质量。
M. Riera-Marín, O. K. Sikha +24
2026-05-02
提出CURVAS - PDACVI数据集和挑战,评估六种方法,指出体积准确性用于术前决策的局限,强调不确定性感知概率模型的重要性。
Junpeng Ding, Zichen Tang +18
2026-05-02
本文介绍科学实验图像感知理解推理基准SPUR,含4264个问答对,评估20个多模态大语言模型和4种多模态思维链方法,发现当前模型远未达专家水平。
Bohai Zhang, Wenjie Chen +9
2026-05-02
针对颈椎 CT - MRI 配准研究不足及缺乏高质量标注数据问题,构建 R - D - Reg 数据集,提出 MSR 刚性 - 可变形混合配准框架,代码和数据集公开。
Yuan Fang, Yuanzhi Cai +5
2026-05-02
针对遥感图像分割中预训练模型因领域差距导致性能受限问题,提出新预训练策略,经实验验证有效,为统一基础模型奠定基础。
Ekram Alam, Jaydip Sanyal +3
2026-05-02
本文提出GourNet深度学习模型用于检测芒果叶病害,利用MangoLeafBD数据集训练评估,经预处理和合理划分数据集,模型以较少参数实现97%分类准确率。
Shuchang Zhou, Shangkun Wu +5
2026-05-02
现有AI图像检测方法泛化性有限,本文提出FGINet,通过BMFE、LGFI和HCL提升泛化性,实验证明其性能和泛化能力佳。
Shipeng Liu, Liang Zhao +2
2026-05-02
提出无训练框架TunnelMIND用于隧道检测,可将粗定位提升为结构化缺陷证据,在多任务上取得较好F1分数。
Fengxian Ji, Jingpu Yang +6
2026-05-02
提出FineState - Bench基准和FineState - Metrics诊断管道及VDA工具评估细粒度GUI交互,当前细粒度状态交互准确率仍不足。
Sharayu Nilesh Deshmukh, Kailash A. Hambarde +3
2026-05-02
本文提出新评估设置,引入新类别RARV - SMM,评估现有模型在语义不匹配数据下的鲁棒性,提出语义强化策略提升DeepFake检测效果。
Yujin Han, Yujie Wei +8
2026-05-02
为提升视频美学,提出分层框架分解视频美学维度,构建数据集和评估基准,开发视频美学奖励模型,经实验验证模型优于基线且更稳健。
Xu Wang, Zexian Li +3
2026-05-02
扩散模型采样步骤多,蒸馏方法可缓解但有限步采样性能差,提出AdvDMD统一DMD蒸馏和RL,实验表明其在多模型上表现优异。
Jakub Kosmydel, Paweł Gajewski +1
2026-05-02
提出高效双流Transformer架构检测相互凝视和共同注意,在数据集上表现良好,开源模型为行为科学家提供可扩展工具。
Ilyass Moummad, Reda Bensaid +6
2026-05-02
现有大规模视觉表征学习模型在植物识别任务中计算成本高,本文研究知识蒸馏,在两个基准数据集上评估4种架构70个模型,结果表明知识蒸馏能提升性能并降低成本,可用于实际环境。
Madhumitha Venkatesan, Xuyang Chen +1
2026-05-02
本文提出VTBench框架,通过原始序列与基于图表的可视化多模态融合重新审视时间序列分类,实验表明不同融合策略有不同效果,并给出实用选择指南。
Phan Nguyen, Dat Cao +5
2026-05-02
提出JI - ADF三模态深度学习框架用于皮肤病变分类,在MILK10k基准上评估表现良好,为临床应用提供可靠基础。
Lijin Yang, Jianing Huang +3
2026-05-02
提出CriticVLA框架,利用VLA评判能力优化驾驶决策,构建大规模数据集,实验显示其性能超现有基线。
Wongi Park, Jordan A. James +5
2026-05-02
提出用于含干扰物的无约束真实场景的3D稀疏视图合成框架,通过参考引导视图细化和伪视图生成等方法,实验显示优于现有方法,实现高保真3D渲染。
Mengling Deng, Yuanpeng Chen +13
2026-05-02
提出EdgeFM框架用于跨平台工业边缘部署,去除非必要特性,封装优化内核,支持多平台,提升推理性能,提供开源生产级解决方案。
Hanzhong Guo, Jie Wu +7
2026-05-02
本文针对图像编辑中缺乏通用奖励模型的问题,提出Edit - R1框架,构建基于思维链验证器的推理奖励模型(RRM),经实验证明该模型优于强大的VLM,且能提升图像编辑效果。
Xiaomeng Wang, Martha Larson +1
2026-05-02
研究图像中文字视觉风格对大视觉语言模型(LVLM)概念描述的影响,实验表明即使正确识别概念,文字风格仍会影响模型描述,需进行风格感知评估和缓解。
Davide Di Nucci, Riccardo Catalini +2
2026-05-02
本文提出3D虚假检测概念,创建Fake3DGS数据集,指出2D检测器难以区分3D真假图像,引入3D感知检测方法提升识别效果并公开代码和数据。
Wei Li, Haisheng Li +4
2026-05-02
本文针对无人机桥梁检测面临的问题,提出统一轻量级卷积神经网络框架,实验表明该方法在速度、精度和鲁棒性上取得平衡,为无人机桥梁检测实时部署提供方案。
Yuyang Li, Yime He +2
2026-05-02
提出EviMem方法,结合IRIS和LaceMem,在LoCoMo上提升了时间和多跳问题的判断准确率,且降低了延迟。
Nhi Ngoc-Yen Nguyen, Anh-Duc Nguyen +3
2026-05-02
针对越南语场景文本图像描述任务,提出HSTFG和PhonoSTFG框架,并引入ViTextCaps数据集进行评估。
Ishrak Hamim Mahi, Siam Ferdous +5
2026-05-02
研究提出改进的SISA框架实现CNN架构中的类级遗忘,实验证明该方法有效且能保留模型性能、减少重训开销,可用于隐私敏感AI应用。
Ali Shibli, Andrea Nascetti +1
2026-05-02
提出基于扩散模型的Noise2Map框架用于遥感语义分割和变化检测,避免传统扩散模型的昂贵采样过程,在多个数据集上表现优异。
Mingliang Liang, Zhuoran Liu +2
2026-05-02
提出动态基于聚类的采样方法DynamiCS,可降低视觉语言模型训练计算成本,提升长尾概念性能。
Ce Chen, Yi Ren +6
2026-05-02
针对传统镜头边界检测问题,提出Shot Transition Detection任务和TransVLM框架,通过注入光流、设计数据引擎和基准,实验显示其性能优越且已投入生产。
Jiaying Ying, Heming Du +3
2026-05-02
提出ResiHMR框架用于单图像3D人体建模,可处理肢体缺失情况,在相关数据集上提升重建质量。
Shuokun Cheng, Jinghao Shi +1
2026-05-02
提出Uncertainty - Aware Hypergraph Refinement Network (UHR - Net)解决病变分割难题,在五个公开基准测试中表现优于基线模型。
Kehong Gong, Zhengyu Wen +11
2026-05-02
提出首个端到端框架用于单目视频任意骨架运动捕捉,解决现有方法局限性,实验显示降低旋转误差且推理速度更快。