arXiv:2502.14949v1 识别类型: 横向交叉
摘要:随着检索增强生成(RAG)在文档处理中的应用日益广泛,稳健的文本识别对于知识提取变得越来越关键。尽管光学字符识别(OCR)技术在英语和其他语言中受益于大规模数据集和成熟的基准测试,但阿拉伯语OCR因为其连笔书写、从右到左的文字流动以及复杂的字体和手书体特征而面临独特的挑战。我们提出了KITAB-Bench,这是一种全面的阿拉伯语OCR基准测试,填补了当前评估体系的空白。我们的基准测试包括9大领域和36个子领域的8,809个样本,涵盖了多种文档类型,包括手写文本、结构化表格以及商业智能中21种图表类型的专门覆盖。我们的研究结果表明,现代视觉语言模型(如GPT-4、Gemini和Qwen)在字符错误率(CER)方面的表现比传统OCR方法(如EasyOCR、PaddleOCR和Surya)平均高出60%。此外,我们指出了当前阿拉伯语OCR模型的重要局限性,特别是在PDF到Markdown转换方面,最好的模型Gemini-2.0-Flash的准确率仅为65%。这突显了准确识别人文本的挑战,包括复杂字体问题、数字识别错误、单词拉伸以及表格结构检测。这项工作建立了一个严格评价框架,可以推动阿拉伯语文档分析方法的改进,并缩小与英语OCR技术之间的性能差距。
arXiv:2502.14944v1 宣布类型: cross
摘要: 为了充分利用扩散模型的能力,我们在推理过程中经常关注优化下游奖励函数。由于其重要性,最近提出了许多奖励指导生成的算法,但当前的方法主要集中在单次生成上,从完全加噪声状态过渡到去噪状态。我们提出了一种受进化算法启发的推理时奖励优化的新框架。我们的方法采用迭代改进过程,每个迭代周期由两个步骤组成:加噪声和奖励指导去噪。这种顺序改进允许逐步纠正奖励优化过程中引入的错误。此外,我们为我们的框架提供了理论保证。最后,我们在蛋白质和细胞类型特异性的调节DNA设计方面展示了其优越的实验性能。代码可在 https://github.com/masa-ue/ProDifEvo-Refinement 获取。
arXiv:2502.14940v1 公告类型:交叉研究
摘要:高细节语义3D建筑模型在机器人技术、地理信息系统和计算机视觉中经常被使用。创建此类模型的一个关键方面是使用2D冲突图来检测建筑外墙的开口位置。然而,由于激光扫描过程中遇到障碍物,这些地图往往不完整。为了解决这一挑战,我们引入了FacaDiffy,这是一种新颖的方法,通过使用个性化的大规模稳定扩散模型来补充缺失的外墙部分,从而完成冲突图。具体来说,我们首先提出了一种确定性光线分析方法,从现有的3D建筑模型和相应的激光扫描点云中推导出2D冲突图。此外,通过利用个性化稳定扩散模型的潜力,我们还促进了在这些2D冲突图中填充未见的外墙对象。为补充现实世界训练数据的稀缺性,我们还开发了一种可扩展的管道,使用随机城市模型生成器和标注的外墙图像生成合成冲突图。广泛的实验表明,FacaDiffy 在冲突图完成方面的性能优于各种填充基线,并且当使用完成的冲突图进行高清晰度3D语义建筑重建时,检测率提高了22%。相关的GitHub仓库中公开提供了代码:https://github.com/ThomasFroech/InpaintingofUnseenFacadeObjects
arXiv:2502.14939v1 交叉公告类型: cross
摘要:在线连续动作识别由于其在现实世界应用中的实际意义,如人机交互、医疗健康和机器人技术等领域,已经成为一个关键的研究领域。在各种模态中,基于骨架的方法因其在捕捉3D时空数据方面有效且能抵御环境变化的能力而备受青睐。然而,现有大多数工作主要集中在基于片段的动作识别,这使得它们不适合实时、连续的识别场景。在本文中,我们提出了一种新的在线识别系统,专为实时骨架序列流式传输设计。我们的方法采用了一种混合架构,结合了用于空间特征提取的时空图卷积网络(S-GCN)和用于捕获帧间时间依赖性的基于Transformer的图编码器(TGE)。此外,我们还引入了一种持续学习机制,以增强模型对变化的数据分布的适应性,从而在动态环境中实现稳健的识别。我们在SHREC'21基准数据集上评估了我们的方法,展示了其在在线手部手势识别方面的优越性能。我们的方法不仅达到了最先进的准确率,还显著降低了误报率,使其成为实时应用的一个有吸引力的解决方案。所提出系统可以无缝集成到包括人机协作和辅助技术在内的各种领域,特别是在需要自然直观交互的情况下。
arXiv:2502.14934v1 宣传类型: 横向
摘要:分子对接是预测小分子(配体)与蛋白靶标的结合构象的关键技术,在药物发现中扮演着重要角色。然而,现有的对接方法往往面临局限性:它们要么通过假设蛋白质的刚性来忽略关键的结构性变化,要么因依赖生成模型进行结构采样而计算效率低下。为了解决这些挑战,我们提出了FABFlex,这是一个专门为盲柔性对接场景设计的快速且准确的基于回归的多任务学习模型,在这种场景中,蛋白质表现出灵活性,并且结合口袋位点未知(盲态)。具体而言,FABFlex的架构包含三个协同工作的专门模块:(1) 一个口袋预测模块,用于识别潜在的结合位点,解决盲态对接场景中的固有问题。(2) 一个配体对接模块,用于预测配体从自由态到结合态(全复合体)的结构。(3) 一个口袋对接模块,从自由构象预测蛋白口袋的全复合态结构。值得注意的是,FABFlex 结合了一个迭代更新机制,该机制充当配体对接模块和口袋对接模块之间的纽带,允许持续的结构细化。这种方法有效地将盲柔性对接中的三个子任务——口袋识别、配体构象预测和蛋白质柔性建模——整合到一个统一、一致的框架中。在公共基准数据集上的广泛实验表明,FABFlex 不仅在预测准确的结合模式方面表现出优越的效果,还在速度上比现有最先进的方法具有显著优势(208倍)。我们的代码发布在 https://github.com/tmlr-group/FABFlex。
arXiv:2502.14924v1 跨领域公告类型:交叉
摘要:语言在信息论复杂性(即每标记比特)中表现出分形结构,具有不同尺度下的自相似性和长程依赖性(LRD)。在本研究中,我们探讨大型语言模型(LLMs)是否能够复制这种分形特征,并确定可能使它们失效的条件,如温度设置和提示方法。此外,我们发现自然语言中观察到的分形参数处于较窄的范围内,而LLMs输出的分形参数变化范围广泛,表明分形参数可能有助于检测LLM生成文本中的非平凡部分。值得注意的是,这些发现以及本工作中报告的许多其他发现对于架构的选择具有鲁棒性;例如,Gemini 1.0 Pro、Mistral-7B和Gemma-2B。我们还发布了一个数据集,包括超过240,000篇文章,由各种不同的LLMs(包括预训练和指令调整)以不同的解码温度和提示方法生成,以及它们相应的人类生成文本。我们希望这项工作强调了分形性质、提示和统计模仿在LLMs中的复杂相互作用,为生成、评估和检测合成文本提供了见解。
arXiv:2502.14923v1 Announce Type: cross
摘要:尽管语言技术有了显著进展,但当前的方法未能解决语言保存中的复杂社会文化维度。AI思考提出了一种以意义为中心的框架,该框架将技术开发从为社区创造工具转变为与社区共同创造解决方案。这种做法认识到,有意义的解决方案是在文化理解、社区自主权和技术创新之间的互动中产生的。该提议阐述了一个整体的方法论和一个五层技术生态系统,其中社区控制其语言和文化知识的表示。这种系统地整合社区需求、文化保存和先进技术能力,可能将从根本上改变我们在数字时代处理语言多样性保存的方式。
arXiv:2502.14922v1 交叉公告类型
摘要:本文指出,在大型语言模型推理过程中,对上下文的误解可能会是一个重大问题,从小模型如 Llama3.2-3B-Instruct 到最先进的模型 DeepSeek-R1 均存在此类问题。例如,在短语 "10 dollars per kilo" 中,LLMs 可能不会识别 "per" 的意思为 "for each",导致计算错误。我们引入了一种新颖的后训练方法 **Stick to the Facts (SIFT)** 来解决这一问题。SIFT 利用增加的推理时计算量将 LLMS 的推理与上下文紧密结合。SIFT 的核心是 *Sticker*,它是由模型本身生成的,用于明确强调上下文中的关键信息。通过精心设计的 Sticker,SIFT 能生成两种预测——一种来源于原始查询,另一种来源于增加了 Sticker 的查询。如果两者不同,SIFT 会通过 *前向* 优化(以更好地使提取的事实与查询对齐)和 *逆向* 生成(以符合模型固有的倾向)逐步精炼 Sticker,从而产生更忠实的推理结果。针对不同规模和基准(例如 GSM8K、MATH-500)的多种模型的研究显示,SIFT 持续提升了性能表现。值得注意的是,SIFT 将 DeepSeek-R1 在 AIME2024 上的 pass@1 准确率从 78.33% 提高到了 **85.67%**,在开源社区中确立了新的最佳表现。代码可在 https://github.com/zhijie-group/SIFT 获得。
arXiv:2502.14920v1 类型: 跨领域
摘要:在X射线计算机断层扫描(CT)成像中,重建核的选择至关重要,因为它显著影响临床图像的质量。不同的核以不同的方式影响空间分辨率、图像噪声和对比度。涉及肺部成像的临床应用往往需要使用软核和硬核重建的图像。使用不同核重建图像需要原始sinogram数据,并存储所有核的图像会增加处理时间和存储需求。显示视野(DFOV)的合成核增加了复杂性,因为不同DFOV下获取的数据在清晰度和细节方面表现出差异。本文介绍了使用基于模型的深度学习进行图像导向核合成的有效、与DFOV无关的解决方案。提出的方案明确将CT核特性和DFOV特性整合到前向模型中。在临床数据上的实验结果,以及使用线型假体数据对估计调制传递函数的定量分析,清楚地表明了所提出方法在实时应用中的实用性。此外,与缺乏前向模型信息的直接学习网络的比较研究显示,所提出的方法在DFOV变化方面更具稳健性。
arXiv:2502.14918v1 类型:交叉
摘要:从文档中提取表格是一项在各个行业中至关重要的任务,尤其是在发票和报告这类商业文档中。现有的基于DEtection TRansformer(DETR)系统,如TAble TRansformer(TATR),提供了表格检测(TD)和表格结构识别(TSR)的解决方案,但面对多样化的表格格式和常见的错误,如检测错误区域和重叠列的问题时仍然存在挑战。这项研究介绍了一种名为RAPTOR的模块化后处理系统,旨在增强最先进的模型,以提高表格提取的效果,尤其是对于产品表格。RAPTOR解决了表格检测和表格结构识别的反复出现的问题,提高了精度和结构预测的准确性。对于表格检测(TD),我们使用了在ICDAR 2019上训练的DETR和在PubTables-1M和FinTabNet上训练的TATR;而对于表格结构识别(TSR)仅依赖于TATR。我们将遗传算法纳入其中,通过一个私有的产品表格数据集优化RAPTOR的模块参数,以满足工业需求。我们在两个私有的产品表格数据集上评估了该方法,这些数据集包括与我们目标产品表格类似的内容,以及ICDAR 2013和ICDAR 2019数据集。结果表明,在产品表格方面,我们的方法表现出色,同时在各种表格格式中也保持了合理的性能。进一步的消融研究还验证了我们系统中每个模块的贡献。