当前浏览器可能无法正常运行本网站,请升级到新版浏览器。前往下载: Chrome · Firefox · Edge

每日论文

快照更新时间: 2026-05-03


2026-05-02
ARXIV

M-DaQ: Retrieving Samples with Multilingual Diversity and Quality for Instruction Fine-Tuning Datasets

Chunguang Zhao, Yilun Liu +11

2026-05-02

提出M - DaQ框架构建多语言指令微调数据集,经18种语言评估,用该框架构建数据训练的模型表现佳,代码公开。

ARXIV

Reconstruction by Generation: 3D Multi-Object Scene Reconstruction from Sparse Observations

Andrii Zadaianchuk, Leonardo Barcellona +8

2026-05-02

本文提出RecGen生成框架,用于从RGB - D图像中对物体和部件形状及姿态进行概率联合估计,在复杂数据集上表现出色,优于SAM3D。

ARXIV

HQ-UNet: A Hybrid Quantum-Classical U-Net with a Quantum Bottleneck for Remote Sensing Image Segmentation

Md Aminur Hossain, Ayush V. Patel +2

2026-05-02

提出混合量子 - 经典U - Net架构HQ - UNet用于遥感图像语义分割,实验表明其性能优于经典U - Net,凸显混合设计在参数高效密集预测方面的潜力。

ARXIV

Student Classroom Behavior Recognition Based on Improved YOLOv8s

Xiang Gao, Shuai Hang

2026-05-02

本文针对真实课堂场景问题,提出基于YOLOv8s的ALC - YOLOv8s模型,实验表明该模型在mAP指标上有提升,能满足复杂课堂场景下学生行为自动识别需求。

ARXIV

Gait Recognition via Deep Residual Networks and Multi-Branch Feature Fusion

Yabo Luo, Xiaoyun Wang +1

2026-05-02

本文提出高精度步态识别框架,通过多分支架构融合步态动力学与身体形状特征,在CASIA - B基准测试中表现良好。

ARXIV

VeraRetouch: A Lightweight Fully Differentiable Framework for Multi-Task Reasoning Photo Retouching

Yihong Guo, Youwei Lyu +6

2026-05-02

提出VeraRetouch轻量级全可微多任务照片修图框架,利用VLM制定修图计划,开发全可微修图渲染器,构建百万级数据集AetherRetouch - 1M+,提出DAPO - AE强化学习后训练策略,实验表明其性能佳且适合移动部署。

ARXIV

Softmax-GS: Generalized Gaussians Learning When to Blend or Bound

Chen Ziwen, Peng Wang +3

2026-05-02

3D Gaussian Splatting视图不一致边界模糊问题,提出Softmax - GS解决,实验证明其有效且达SOTA

ARXIV

Uni-HOI:A Unified framework for Learning the Joint distribution of Text and Human-Object Interaction

Mengfei Zhang, Jinlu Zhang +1

2026-05-02

本文提出统一框架Uni - HOI用于4D人体与物体交互(HOI)建模,利用LLMs和VQ - VAEs处理多模态数据,采用两阶段训练策略,在多个HOI相关任务中表现出色。

ARXIV

Adjoint Inversion Reveals Holographic Superposition and Destructive Interference in CNN Classifiers

Kaixiang Shu

2026-05-02

本文针对CNN可解释性中未验证的空间漏斗假设,提出无幻觉反演框架,揭示视觉编码器中强叠加现象,证明分类通过相消干涉进行,提出协方差 - 体积通道选择算法并揭示分布外失效原因,框架可无缝扩展到基于注意力的头部。

ARXIV

RIHA: Report-Image Hierarchical Alignment for Radiology Report Generation

Yucheng Chen, Yang Yu +4

2026-05-02

提出RIHA框架解决放射报告生成中图像与报告的细粒度对齐问题,在两个胸部X光数据集上表现优于现有模型。

ARXIV

ClipTBP: Clip-Pair based Temporal Boundary Prediction with Boundary-Aware Learning for Moment Retrieval

Ji-Hyeon Kim, Ho-Joong Kim +1

2026-05-02

现有视频片段检索模型存在不足,本文提出ClipTBP框架,能提升性能和边界预测能力。

ARXIV

SpaAct: Spatially-Activated Transition Learning with Curriculum Adaptation for Vision-Language Navigation

Pengna Li, Kangyi Wu +8

2026-05-02

提出SpaAct训练框架激活VLMs动态空间感知,设计TriPA课程学习方法,在VLN - CE基准测试中取得SOTA性能。

ARXIV

Deep Learning-Based Segmentation of Peritoneal Cancer Index Regions from CT Imaging

Pieter C. Gort, Lotte J.S. Ewals +4

2026-05-02

提出基于深度学习的方法在CT上自动分割rPCI区域,评估nnU - NetSwin UNETRnnU - Net表现更好,证明自动rPCI分割可行。

ARXIV

Improving Calibration in Test-Time Prompt Tuning for Vision-Language Models via Data-Free Flatness-Aware Prompt Pretraining

Hyeonseo Jang, Jaebyeong Jeon +2

2026-05-02

本文指出测试时提示调优(TPT)存在模型校准不佳问题,提出平坦度感知提示预训练(FPP)框架,可在不修改现有TPT管道其他组件的情况下,提升校准和性能,且无需标注数据和额外计算成本。

ARXIV

Taming Noise-Induced Prototype Degradation for Privacy-Preserving Personalized Federated Fine-Tuning

Yuhua Wang, Qinnan Zhang +7

2026-05-02

本文提出VPDR解决原型共享隐私风险,通过VPP和DCR实现隐私与效用平衡,实验证明其优于IGPP。

ARXIV

HiMix: Hierarchical Artifact-aware Mixup for Generalized Synthetic Image Detection

Shuchang Zhou, Kaiwen Shen +4

2026-05-02

提出HiMix框架解决合成图像检测泛化性问题,经多基准测试达SOTA性能。

ARXIV

TripVVT: A Large-Scale Triplet Dataset and a Coarse-Mask Baseline for In-the-Wild Video Virtual Try-On

Dingbao Shao, Song Wu +10

2026-05-02

本文针对视频虚拟试穿模型性能受限问题,引入TripVVT - 10K数据集,开发TripVVT框架,建立TripVVT - Bench基准,相比现有系统有更好表现并公开相关资源。

ARXIV

Echo-α: Large Agentic Multimodal Reasoning Model for Ultrasound Interpretation

Jing Zhang, Wentao Jiang +9

2026-05-02

提出Echo-α模型用于超声解读,结合定位与推理能力,在多中心肾和乳腺超声基准测试中表现优于基线模型,证明代理多模态推理可将专业检测器转化为可验证临床证据

ARXIV

TAFA-GSGC: Group-wise Scalable Point Cloud Geometry Compression with Progressive Residual Refinement

Xiumei Li, Alexander Kopte +1

2026-05-02

提出可扩展的学习型点云几何编解码器TAFA - GSGC,能从单比特流和单训练模型实现多质量解码,压缩效率高,相比基线有更好的率失真性能。

ARXIV

Beyond Gaussian Bottlenecks: Topologically Aligned Encoding of Vision-Transformer Feature Spaces

Andrew Bond, Ilkin Umut Melanlioglu +2

2026-05-02

提出S²VAE几何优先潜在学习框架,利用VGGT表示,采用Power Spherical潜在分布的变分自编码器,在多任务中表现优于传统高斯瓶颈,强调潜在几何是视觉和世界模型的重要设计选择。

ARXIV

3D-ReGen: A Unified 3D Geometry Regeneration Framework

Geon Yeong Park, Roman Shapovalov +4

2026-05-02

提出3D-ReGen用于从2D图像和初始3D形状再生3D对象,支持多种任务,性能达SOTA。

ARXIV

InterPartAbility: Text-Guided Part Matching for Interpretable Person Re-Identification

Shakeeb Murtaza, Aryan Shukla +3

2026-05-02

本文提出InterPartAbility可解释的文本到图像行人重识别方法,通过PPIM模块训练模型,引入定量可解释性协议,在基准测试中取得SOTA可解释性表现并保持竞争力。

ARXIV

AttriBE: Quantifying Attribute Expressivity in Body Embeddings for Recognition and Identification

Basudha Pal, Siyuan Huang +3

2026-05-02

本文针对现有行人重识别系统受属性影响问题,通过扩展表达性概念分析属性编码,研究了基于Transformer的ReID模型在可见光和跨光谱数据集上属性表达性情况,发现ReID嵌入编码了隐式属性层次。

ARXIV

YOSE: You Only Select Essential Tokens for Efficient DiT-based Video Object Removal

Chenyang Wu, Lina Lei +7

2026-05-02

提出YOSE高效微调框架用于视频对象移除,引入BVI和DiffSim模块实现掩码感知加速,实验显示多数情况下有2.5倍加速且视觉质量与基线相当。

ARXIV

CasLayout: Cascaded 3D Layout Diffusion for Indoor Scene Synthesis with Implicit Relation Modeling

Yingrui Wu, Youkang Kong +4

2026-05-02

提出CasLayout级联扩散框架解决3D室内场景合成难题,分四阶段生成,结合LLM和VLM,引入稀疏关系图,实验显示性能优。

ARXIV

COHERENCE: Benchmarking Fine-Grained Image-Text Alignment in Interleaved Multimodal Contexts

Bingli Wang, Huanze Tang +6

2026-05-02

现有多模态大语言模型基准多关注单图或多图理解,缺乏交错图文上下文细粒度理解能力的系统基准,本文提出COHERENCE基准,还进行六类错误分析

ARXIV

Context as Prior: Bayesian-Inspired Intent Inference for Non-Speaking Agents with a Household Cat Testbed

Wenqian Zhang, Zehao Wang

2026-05-02

提出CatSignal框架用于非语言交流主体的意图推断,在家庭猫数据集上验证,该框架整体准确率高,能减少上下文驱动的捷径失败。

ARXIV

Towards All-Day Perception for Off-Road Driving: A Large-Scale Multispectral Dataset and Comprehensive Benchmark

Shuo Wang, Jilin Mei +5

2026-05-02

提出IRON数据集IRONet框架用于越野红外时间自由空间检测,IRONet在IRON数据集上表现优异且有良好泛化性,为越野自动驾驶和红外时间感知研究奠定基础。

ARXIV

Self-Supervised Learning of Plant Image Representations

Ilyass Moummad, Kawtar Zaher +4

2026-05-02

研究自监督学习用于植物图像表示学习,指出常用增强方法不适用于植物图像,确定了更合适的变换,证明特定领域数据对自监督学习的重要性,模型在少样本任务中表现良好。

ARXIV

World2Minecraft: Occupancy-Driven Simulated Scenes Construction

Lechao Zhang, Haoran Xu +4

2026-05-02

提出World2Minecraft将真实场景转换为Minecraft环境以支持具身智能,引入低成本数据采集管道创建MinecraftOcc数据集,实验表明该数据集有重要价值。

ARXIV

SECOS: Semantic Capture for Rigorous Classification in Open-World Semi-Supervised Learning

Hezhao Liu, Jiacheng Yang +5

2026-05-02

提出SECOS方法用于开放世界半监督学习,利用外部知识提取和对齐语义表示,实验显示其效果优于现有方法。

ARXIV

FUN: A Focal U-Net Combining Reconstruction and Object Detection for Snapshot Spectral Imaging

Dahua Gao, Yubo Dong +5

2026-05-02

提出Focal U形网络(FUN)框架,结合多任务学习进行高光谱图像重建目标检测,引入焦点调制,贡献新数据集,实验显示性能优越且参数和计算量少,适合实时边缘部署。

ARXIV

RayFormer: Modeling Inter- and Intra-Ray Similarity for NeRF-Based Video Snapshot Compressive Imaging

Yubo Dong, Danhua Liu +2

2026-05-02

针对基于NeRF的视频快照压缩成像重建质量有限问题,提出补丁级光线采样策略、RayFormer及结合总变分先验的方法,实验表明该方法达SOTA性能。

ARXIV

Learning to Reason: Targeted Knowledge Discovery and Fuzzy Logic Update for Robust Image Recognition

Gurucharan Srinivas, Joshua Niemeijer +1

2026-05-02

提出一种有针对性的知识发现方法,通过可微知识单元(DKU)整合领域知识,在多个数据集上验证能提升性能并优于基线。

ARXIV

Parameter-Efficient Architectural Modifications for Translation-Invariant CNNs

Nuria Alabau-Bosque, Jorge Vila-Tomas +3

2026-05-02

本文提出轻量级“在线架构”策略,通过插入GAP层解决CNN平移脆弱性问题,减少参数和网络大小,提升平移鲁棒性,还将成果拓展到IQA领域,证明架构不变性比传统数据增强更有效。

ARXIV

Generate Your Talking Avatar from Video Reference

Zujin Guo, Zhenhui Ye +5

2026-05-02

提出TAVR框架,利用跨场景视频输入生成会说话的头像,采用三阶段训练方案,实验表明其优于现有基线,已投入生产。

ARXIV

ClimateVID -- Social Media Videos Analysis and Challenges Involved

Shiqi Xu, Moritz Burmester +4

2026-05-02

本文评估社交媒体数据上零样本和聚类能力以推进自动视觉主题检测,评估了多个VLM模型,用聚类挖掘模式,虽VLM不能检测气候变化类,但聚类有成果,还给出评估和实践指导。

ARXIV

Faster 3D Gaussian Splatting Convergence via Structure-Aware Densification

Linjie Lyu, Ayush Tewari +3

2026-05-02

Summary generation failed

ARXIV

3D Reconstruction Techniques in the Manufacturing Domain: Applications, Research Opportunities and Use Cases

Chialoon Cheng, Kaijun liu +2

2026-05-02

本文全面综述制造应用3D重建技术的发展与现状,分类重建技术,指出研究缺口,分析应用情况及挑战,显示混合系统趋势。

ARXIV

PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning

Sudong Wang, Weiquan Huang +10

2026-05-02

提出PRISM三阶段流程,在SFT和RLVR间插入分布对齐阶段,缓解分布漂移问题,实验表明能提升下游RLVR性能。

ARXIV

Beyond Pixel Fidelity: Minimizing Perceptual Distortion and Color Bias in Night Photography Rendering

Furkan Kınlı

2026-05-02

针对夜景摄影渲染难题,提出基于HVI色彩空间pHVI - ISPNet框架,经评估在保真度和感知指标上表现出色。

ARXIV

Lightweight Distillation of SAM 3 and DINOv3 for Edge-Deployable Individual-Level Livestock Monitoring and Longitudinal Visual Analytics

Haiyu Yang, Miel Hostens

2026-05-02

本文针对基础模型管道在牲畜监测中GPU内存预算超商品边缘加速器的问题,通过蒸馏方法压缩模型,在爱丁堡猪数据集上取得较好效果,且能适配设备。

ARXIV

Towards Generalizable Mapping of Hedges and Linear Woody Features from Earth Observation Data: a national Product for Germany

Thorsten Hoeser, Verena Huber-Garcia +3

2026-05-02

本文介绍一种模块化工作流程用于从地球观测数据中绘制线性木本特征图,在德国全国尺度验证有效,为可扩展和通用的线性木本特征制图奠定基础。

ARXIV

Iterative Definition Refinement for Zero-Shot Classification via LLM-Based Semantic Prototype Optimization

Naeem Rehmat, Muhammad Saad Saeed +2

2026-05-02

提出无训练的自适应迭代定义细化框架提升零样本网页内容分类性能,评估多种嵌入基础模型,证明定义质量对基于嵌入系统的重要性。

ARXIV

Hyperspectral Image Classification via Efficient Global Spectral Supertoken Clustering

Peifu Liu, Tingfa Xu +4

2026-05-02

提出双阶段频谱约束聚类分类器(DSCC)用于高光谱图像分类,通过解耦聚类和分类,生成边界保留的光谱超令牌,引入软标签方案,在精度和效率上优于现有方法。

ARXIV

Understanding Adversarial Transferability in Vision-Language Models for Autonomous Driving: A Cross-Architecture Analysis

David Fernandez, Pedram MohajerAnsari +2

2026-05-02

对基于视觉语言模型(VLM)的自动驾驶进行跨架构对抗可迁移性研究,评估三种架构,结果显示跨架构攻击有效性高。

ARXIV

LA-Pose: Latent Action Pretraining Meets Pose Estimation

Zhengqing Wang, Saurabh Nair +5

2026-05-02

本文通过自监督预训练重新审视相机位姿估计,提出LA - Pose方法,利用逆动力学预训练,在少量标注数据下取得优于现有方法的性能。

ARXIV

REVIVE 3D: Refinement via Encoded Voluminous Inflated prior for Volume Enhancement

Hankyeol Lee, Wooyeol Baek +2

2026-05-02

提出REVIVE 3D两阶段管道从平面图像生成大量3D资产,支持图像条件3D编辑,提出评估指标并验证,在数据集上达SOTA。

ARXIV

Residual Gaussian Splatting for Ultra Sparse-View CBCT Reconstruction

Jian Lin, Jiancheng Fang +5

2026-05-02

本文将小波多分辨率分析3D高斯 splatting 结合,提出残差高斯 splatting(RGS)方法,解决超稀疏视图条件下的光谱偏差问题,实验表明该方法能提升重建图像质量。

ARXIV

Assessing Pancreatic Ductal Adenocarcinoma Vascular Invasion: the PDACVI Benchmark

M. Riera-Marín, O. K. Sikha +24

2026-05-02

提出CURVAS - PDACVI数据集和挑战,评估六种方法,指出体积准确性用于术前决策的局限,强调不确定性感知概率模型的重要性。

ARXIV

Decoding Scientific Experimental Images: The SPUR Benchmark for Perception, Understanding, and Reasoning

Junpeng Ding, Zichen Tang +18

2026-05-02

本文介绍科学实验图像感知理解推理基准SPUR,含4264个问答对,评估20个多模态大语言模型和4种多模态思维链方法,发现当前模型远未达专家水平。

ARXIV

MSR:Hybrid Field Modeling for CT-MRI Rigid-Deformable Registration of the Cervical Spine with an Annotated Dataset

Bohai Zhang, Wenjie Chen +9

2026-05-02

针对颈椎 CT - MRI 配准研究不足及缺乏高质量标注数据问题,构建 R - D - Reg 数据集,提出 MSR 刚性 - 可变形混合配准框架,代码和数据集公开。

ARXIV

A generalised pre-training strategy for deep learning networks in semantic segmentation of remotely sensed images

Yuan Fang, Yuanzhi Cai +5

2026-05-02

针对遥感图像分割中预训练模型因领域差距导致性能受限问题,提出新预训练策略,经实验验证有效,为统一基础模型奠定基础。

ARXIV

GourNet: A CNN-Based Model for Mango Leaf Disease Detection

Ekram Alam, Jaydip Sanyal +3

2026-05-02

本文提出GourNet深度学习模型用于检测芒果叶病害,利用MangoLeafBD数据集训练评估,经预处理和合理划分数据集,模型以较少参数实现97%分类准确率。

ARXIV

Frequency-Aware Semantic Fusion with Gated Injection for AI-generated Image Detection

Shuchang Zhou, Shangkun Wu +5

2026-05-02

现有AI图像检测方法泛化性有限,本文提出FGINet,通过BMFE、LGFI和HCL提升泛化性,实验证明其性能和泛化能力佳。

ARXIV

Training-Free Tunnel Defect Inspection and Engineering Interpretation via Visual Recalibration and Entity Reconstruction

Shipeng Liu, Liang Zhao +2

2026-05-02

提出无训练框架TunnelMIND用于隧道检测,可将粗定位提升为结构化缺陷证据,在多任务上取得较好F1分数。

ARXIV

FineState-Bench: Benchmarking State-Conditioned Grounding for Fine-grained GUI State Setting

Fengxian Ji, Jingpu Yang +6

2026-05-02

提出FineState - Bench基准和FineState - Metrics诊断管道及VDA工具评估细粒度GUI交互,当前细粒度状态交互准确率仍不足。

ARXIV

Are DeepFakes Realistic Enough? Exploring Semantic Mismatch as a Novel Challenge

Sharayu Nilesh Deshmukh, Kailash A. Hambarde +3

2026-05-02

本文提出新评估设置,引入新类别RARV - SMM,评估现有模型在语义不匹配数据下的鲁棒性,提出语义强化策略提升DeepFake检测效果。

ARXIV

AesRM: Improving Video Aesthetics with Expert-Level Feedback

Yujin Han, Yujie Wei +8

2026-05-02

为提升视频美学,提出分层框架分解视频美学维度,构建数据集和评估基准,开发视频美学奖励模型,经实验验证模型优于基线且更稳健。

ARXIV

AdvDMD: Adversarial Reward Meets DMD For High-Quality Few-Step Generation

Xu Wang, Zexian Li +3

2026-05-02

扩散模型采样步骤多,蒸馏方法可缓解但有限步采样性能差,提出AdvDMD统一DMD蒸馏和RL,实验表明其在多模型上表现优异。

ARXIV

Automated Detection of Mutual Gaze and Joint Attention in Dual-Camera Settings via Dual-Stream Transformers

Jakub Kosmydel, Paweł Gajewski +1

2026-05-02

提出高效双流Transformer架构检测相互凝视和共同注意,在数据集上表现良好,开源模型为行为科学家提供可扩展工具。

ARXIV

Energy-Efficient Plant Monitoring via Knowledge Distillation

Ilyass Moummad, Reda Bensaid +6

2026-05-02

现有大规模视觉表征学习模型在植物识别任务中计算成本高,本文研究知识蒸馏,在两个基准数据集上评估4种架构70个模型,结果表明知识蒸馏能提升性能并降低成本,可用于实际环境。

ARXIV

VTBench: A Multimodal Framework for Time-Series Classification with Chart-Based Representations

Madhumitha Venkatesan, Xuyang Chen +1

2026-05-02

本文提出VTBench框架,通过原始序列与基于图表的可视化多模态融合重新审视时间序列分类,实验表明不同融合策略有不同效果,并给出实用选择指南。

ARXIV

JI-ADF: Joint-Individual Learning with Adaptive Decision Fusion for Multimodal Skin Lesion Classification

Phan Nguyen, Dat Cao +5

2026-05-02

提出JI - ADF三模态深度学习框架用于皮肤病变分类,在MILK10k基准上评估表现良好,为临床应用提供可靠基础。

ARXIV

Judge, Then Drive: A Critic-Centric Vision Language Action Framework for Autonomous Driving

Lijin Yang, Jianing Huang +3

2026-05-02

提出CriticVLA框架,利用VLA评判能力优化驾驶决策,构建大规模数据集,实验显示其性能超现有基线。

ARXIV

Sparse-View 3D Gaussian Splatting in the Wild

Wongi Park, Jordan A. James +5

2026-05-02

提出用于含干扰物的无约束真实场景的3D稀疏视图合成框架,通过参考引导视图细化伪视图生成等方法,实验显示优于现有方法,实现高保真3D渲染。

ARXIV

EdgeFM: Efficient Edge Inference for Vision-Language Models

Mengling Deng, Yuanpeng Chen +13

2026-05-02

提出EdgeFM框架用于跨平台工业边缘部署,去除非必要特性,封装优化内核,支持多平台,提升推理性能,提供开源生产级解决方案。

ARXIV

Leveraging Verifier-Based Reinforcement Learning in Image Editing

Hanzhong Guo, Jie Wu +7

2026-05-02

本文针对图像编辑中缺乏通用奖励模型的问题,提出Edit - R1框架,构建基于思维链验证器推理奖励模型(RRM),经实验证明该模型优于强大的VLM,且能提升图像编辑效果。

ARXIV

Revealing the Impact of Visual Text Style on Attribute-based Descriptions Produced by Large Visual Language Models

Xiaomeng Wang, Martha Larson +1

2026-05-02

研究图像中文字视觉风格大视觉语言模型(LVLM)概念描述的影响,实验表明即使正确识别概念,文字风格仍会影响模型描述,需进行风格感知评估和缓解。

ARXIV

Fake3DGS: A Benchmark for 3D Manipulation Detection in Neural Rendering

Davide Di Nucci, Riccardo Catalini +2

2026-05-02

本文提出3D虚假检测概念,创建Fake3DGS数据集,指出2D检测器难以区分3D真假图像,引入3D感知检测方法提升识别效果并公开代码和数据。

ARXIV

Robust Lightweight Crack Classification for Real-Time UAV Bridge Inspection

Wei Li, Haisheng Li +4

2026-05-02

本文针对无人机桥梁检测面临的问题,提出统一轻量级卷积神经网络框架,实验表明该方法在速度、精度和鲁棒性上取得平衡,为无人机桥梁检测实时部署提供方案。

ARXIV

EviMem: Evidence-Gap-Driven Iterative Retrieval for Long-Term Conversational Memory

Yuyang Li, Yime He +2

2026-05-02

提出EviMem方法,结合IRISLaceMem,在LoCoMo上提升了时间和多跳问题的判断准确率,且降低了延迟。

ARXIV

Linguistically Informed Multimodal Fusion for Vietnamese Scene-Text Image Captioning: Dataset, Graph Framework, and Phonological Attention

Nhi Ngoc-Yen Nguyen, Anh-Duc Nguyen +3

2026-05-02

针对越南语场景文本图像描述任务,提出HSTFGPhonoSTFG框架,并引入ViTextCaps数据集进行评估。

ARXIV

Machine Unlearning for Class Removal through SISA-based Deep Neural Network Architectures

Ishrak Hamim Mahi, Siam Ferdous +5

2026-05-02

研究提出改进的SISA框架实现CNN架构中的类级遗忘,实验证明该方法有效且能保留模型性能、减少重训开销,可用于隐私敏感AI应用。

ARXIV

Noise2Map: End-to-End Diffusion Model for Semantic Segmentation and Change Detection

Ali Shibli, Andrea Nascetti +1

2026-05-02

提出基于扩散模型Noise2Map框架用于遥感语义分割变化检测,避免传统扩散模型的昂贵采样过程,在多个数据集上表现优异。

ARXIV

Dynamic Cluster Data Sampling for Efficient and Long-Tail-Aware Vision-Language Pre-training

Mingliang Liang, Zhuoran Liu +2

2026-05-02

提出动态基于聚类的采样方法DynamiCS,可降低视觉语言模型训练计算成本,提升长尾概念性能。

ARXIV

TransVLM: A Vision-Language Framework and Benchmark for Detecting Any Shot Transitions

Ce Chen, Yi Ren +6

2026-05-02

针对传统镜头边界检测问题,提出Shot Transition Detection任务和TransVLM框架,通过注入光流、设计数据引擎和基准,实验显示其性能优越且已投入生产。

ARXIV

ResiHMR: Residual-Limb Aware Single-Image 3D Human Mesh Recovery for Individuals with Limb Loss

Jiaying Ying, Heming Du +3

2026-05-02

提出ResiHMR框架用于单图像3D人体建模,可处理肢体缺失情况,在相关数据集上提升重建质量。

ARXIV

UHR-Net: An Uncertainty-Aware Hypergraph Refinement Network for Medical Image Segmentation

Shuokun Cheng, Jinghao Shi +1

2026-05-02

提出Uncertainty - Aware Hypergraph Refinement Network (UHR - Net)解决病变分割难题,在五个公开基准测试中表现优于基线模型。

ARXIV

MoCapAnything V2: End-to-End Motion Capture for Arbitrary Skeletons

Kehong Gong, Zhengyu Wen +11

2026-05-02

提出首个端到端框架用于单目视频任意骨架运动捕捉,解决现有方法局限性,实验显示降低旋转误差且推理速度更快。