arXiv 论文列表

作者: Yassir Lairgi

arXiv:2503.21634v1 宣告类型: cross 摘要：确定每个希吉月的开始时间对于宗教、文化和行政目的至关重要。Manazel（代码和数据集可在 https://github.com/lairgiyassir/manazel 上获取）通过利用13年的新月可见性数据，来优化ODEH标准，这是一种广泛用于新月可见性预测的标准。该研究整合了两个关键特征，视域弧（ARCV）和新月的总宽度（W），以提高新月可见性评估的准确性。采用机器学习方法，利用逻辑回归算法对新月可见性条件进行分类，预测准确率为98.83%。这种方法为确定希吉月的开始时间、比较不同的数据分类工具，并提高摩洛哥月历计算的一致性提供了稳健可靠的框架。研究结果表明机器学习在天文应用中的有效性，并突显了进一步改进新月可见性建模的潜力。

发布时间: 3/28/2025

查看原文

基于度量的一般可理解性方法

作者: Vikas Kushwaha, Sruti Srinivasa Ragavan, Subhajit Roy

arXiv:2503.21615v1 合作类型: 交叉摘要：成功的代理-人类伙伴关系要求任何生成的信息对人类来说是可理解的，且人类可以轻松地引导代理实现目标。这种有效的沟通要求代理发展出关于哪些内容对人类来说是可理解的更精细的概念。最先进的代理，包括大语言模型（LLMs），缺乏这种详细的可理解性概念，因为它们仅从训练数据中捕捉到人类的平均感受性，因此只能提供有限的可引导性（例如，需要非平凡的提示工程）。在这篇论文中，我们不是仅仅依赖数据，而是主张开发通用化、领域无关的可理解性度量，这些度量可以作为这些代理的指令。现有的可理解性度量研究是碎片化的，我们对这些领域的各种努力进行了回顾，并为未来更连贯和领域无关的研究调查奠定了认知科学为基础的根基。

发布时间: 3/28/2025

查看原文

分割与征服：绕过大型语言模型安全过滤器的分段和分布式提示处理

作者: Johan Wahr\'eus, Ahmed Hussain, Panos Papadimitratos

arXiv:2503.21598v1 安全过滤器类型: 交叉摘要: 大型语言模型（LLMs）已在各个领域实现了任务自动化和内容生成，同时集成了安全过滤器以防止滥用。我们提出了一种新颖的脱管框架，该框架结合了分布式提示处理和迭代改进，以绕过这些安全措施，尤其是生成恶意代码。我们的架构包括四个关键模块：提示分割、并行处理、响应聚合和基于LLM的评委评估。在对10个网络安全部门中的500个恶意提示进行测试后，该框架在生成恶意代码方面的成功率为73.2%。值得注意的是，我们的对比分析显示，传统的单一LLM评判者评估高估了成功率（93.8%），而我们的LLM评委系统为73.2%，手动验证确认单一评判者经常接受不完整的实现。此外，我们在减法研究中展示了分布式架构在无分布式方法上提高了12%的成功率，突出了分布式提示处理的有效性以及在评估脱管尝试时采用稳健的评估方法的重要性。

发布时间: 3/28/2025

查看原文

关键迭代去噪：应用于图的离散生成模型

作者: Yoann Boget, Alexandros Kalousis

arXiv:2503.21592v1 声明类型: cross 摘要: 离散扩散和流动匹配模型在生成离散结构（包括图）方面取得了显著进展。然而，这些模型在去噪过程中的时间依赖性导致了反向过程中错误的累积和传播。这个问题，在掩码扩散中尤为明显，在序列建模中是已知的限制，正如我们所演示的那样，它也影响图的离散扩散模型。为了解决这个问题，我们提出了一种名为迭代去噪的新框架，通过假设时间上的条件独立性来简化离散扩散并绕过该问题。此外，我们通过引入一个评论家（Critic）增强了我们的模型，该评论家在生成时根据特定实例下的数据分布似然性选择保留或篡改元素。我们实证评估表明，所提出的方法在图生成任务中显著优于现有的离散扩散基准方法。

发布时间: 3/28/2025

查看原文

AlignDiff：通过扩散学习物理导向的相机对齐

作者: Liuyue Xie, Jiancong Guo, Ozan Cakmakci, Andre Araujo, Laszlo A. Jeni, Zhiheng Jia

arXiv:2503.21581v1 宣告类型: cross 摘要：准确的相机校准是3D感知的基础任务，特别是在处理具有复杂光学畸变的现实世界、野外环境时尤为重要。现有方法常常依赖预校正图像或校准模式，这限制了它们的适用性和灵活性。在本文中，我们提出了一种新的框架，通过使用通用射线相机模型联合建模相机固有参数和外参来应对这些挑战。与之前的方案不同，AlignDiff将重点从语义特征转移到几何特征，从而能够更准确地建模局部畸变。我们提出了AlignDiff，这是一种基于几何先验条件的扩散模型，能够同时估计相机畸变和场景几何。为了提高畸变预测的准确性，我们引入了边缘意识注意力，使模型更加关注图像边缘附近的几何特征，而不是语义内容。此外，为了提高对现实世界捕获的通用性，我们引入了一个包含三千多个样本的大型光线追踪镜头数据库。该数据库描述了不同类型镜头中固有的畸变。我们的实验表明，所提出的方法显著减少了估计射线束的角度误差，约为8.2度，并且在挑战性的现实世界数据集上总体校准准确性也超过了现有方法。

发布时间: 3/28/2025

查看原文

基于自我监督嵌入和感知对比拉伸增强的幅度-相位双路径语音增强网络

作者: Alimjan Mattursun, Liejun Wang, Yinfeng Yu, Chunyang Ma

arXiv:2503.21571v1 Announce Type: 横向摘要：语音自监督学习（SSL）在各种语音处理任务中取得了巨大进展，但在语音增强（SE）方面仍有改进空间。本文提出了BSP-MPNet，这是一种结合了自监督特征和幅度-相位信息的双路径框架。该方法首先应用感知对比拉伸（PCS）算法增强幅度-相位频谱。幅度-相位2D粗略（MP-2DC）编码器然后从增强后的频谱中提取粗略特征。接着，一个特征分离自监督学习（FS-SSL）模型分别生成幅度和相位组件的自监督嵌入。这些嵌入融合以创建跨域特征表示。最后，两个并行递归神经网络增强多注意（REMA）掩码解码器精炼特征，将它们应用于掩码，并重建语音信号。我们使用VoiceBank+DEMAND和WHAMR!数据集评估了BSP-MPNet。实验结果显示，BSP-MPNet在各种噪声条件下均优于现有方法，为自监督语音增强研究提供了新的方向。BSP-MPNet代码的实现已在线可用\footnote[2]{https://github.com/AlimMat/BSP-MPNet. \label{s1}}

发布时间: 3/28/2025

查看原文

基于局部视角的重叠社区检测模型

作者: Gaofeng Zhou, Rui-Feng Wang, Kangning Cui

arXiv:2503.21558v1 社区检测类型: cross 摘要：社区检测是识别具有密集连接节点簇并具有稀疏跨组链接的方法，对于分析现实系统中的网络结构和功能至关重要。现有的大多数基于GCNs的社区检测方法主要关注节点级信息，而忽视了社区级特征，导致在大规模网络上的性能受限。为了解决这个问题，我们提出了一种从局部社区视角出发的重叠社区检测模型LQ-GCN。LQ-GCN利用伯努利-泊松模型构建社区隶属矩阵，并形成一个端到端的检测框架。通过采用局部模ularity作为目标函数，该模型整合了局部社区信息，以提高聚类结果的质量和准确性。此外，还优化了传统的GCNs架构，以提高模型在大规模网络中识别重叠社区的能力。实验结果表明，与基线模型相比，LQ-GCN在多个真实世界基准数据集上实现了33%的归一化互信息(NMI)改进和26.3%的召回率改进。

发布时间: 3/28/2025

查看原文

SWI：大型语言模型中的意图表达

作者: Yuwei Yin, EunJeong Hwang, Giuseppe Carenini

arXiv:2503.21544v1 类别: cross 摘要: 目的，通常清晰地表述和计划，作为推理和问题解决的认知框架。本文在大型语言模型（LLMs）中引入了“意图引导说话”（Speaking with Intent，简称SWI）的概念，其中明确生成的意图体现了模型的潜在意图并提供高层次的规划，以引导后续的分析和沟通。通过模拟人类思维中的慎重和有目的的思考，SWI 假设能够增强LLMs的推理能力和生成质量。在数学推理基准实验中，广泛实验一致表明，意图引导说话（SWI）优于基准（即没有明确意图的生成）。此外，SWI 在 Chain-of-Thought 和 Plan-and-Solve 回答触发提示方法上表现出色，并且在强大的方法 ARR（分析、检索和推理）上保持了竞争力。此外，SWI 在推理密集型问答（QA）和文本总结基准上的有效性和普适性得到了验证，SWI 对基准生成带来了持续改进。在文本总结中，由SWI生成的摘要具有更高的准确性、简洁性和事实正确性，且较少出现幻觉。此外，人类评估验证了由SWI产生的意图的连贯性、有效性和可解释性。这种概念验证研究开辟了通过认知概念增强LLMs推理能力的新途径。

发布时间: 3/28/2025

查看原文

LOCATEdit: 基于图拉普拉斯优化交叉注意的局部化文本引导图像编辑

作者: Achint Soni, Meet Soni, Sirisha Rambhatla

arXiv:2503.21541v1 任务类型: 交叉摘要：文本引导的图像编辑旨在根据自然语言指令修改图像的特定区域，同时保持图像的整体结构和背景的真实性。现有方法利用来自扩散模型生成的交叉注意力图派生的掩码来识别需要修改的目标区域。然而，由于交叉注意力机制侧重于语义相关性，它们在保持图像完整性方面存在困难。结果，这些方法往往缺乏空间一致性，导致编辑伪影和失真。在本文中，我们解决了这些局限性，并引入了LOCATEdit，该方法通过基于图的方法利用自注意力派生的patches关系来增强交叉注意力图，以保持图像区域内平滑、连贯的注意力，确保修改仅限于指定的项目，同时保留周围的结构。\method在PIE-Bench上的一致性和显著性表现优于现有基准，证明了其在各种编辑任务上的领先性能和有效性。代码可以在https://github.com/LOCATEdit/LOCATEdit/找到。

发布时间: 3/28/2025

查看原文

基于变换器模型的罗马乌尔都语和乌尔都语低资源转写

作者: Umer Butt, Stalin Veranasi, G\"unter Neumann

arXiv:2503.21530v1 Announce Type: cross 摘要：随着信息检索（IR）领域越来越认识到包容性的重要性，满足低资源语言的需求仍然是一项重大挑战。尽管南亚地区广泛使用乌尔都文和罗马化乌尔都文这两种书写系统，但它们之间的转写研究仍然相对不足。对罗马-乌尔都-帕尔数据集使用RNN进行的研究虽然显示出良好的结果，但其域适应能力和评估有限。我们提出了一种基于变换器的方法，使用了m2m100多语言翻译模型，并结合了掩码语言建模（MLM）预训练和在罗马-乌尔都-帕尔数据集和领域多样化的Dakshina数据集上的微调。为了解决之前评估的不足，我们引入了严格的分数据集，并使用BLEU、字符级BLEU和CHRF评估性能。我们的模型在乌尔都->罗马化乌尔都和罗马化乌尔都->乌尔都的转写性能上表现出色，Char-BLEU得分分别为96.37和97.44。这些结果优于RNN基线和GPT-4o Mini，并证明了多语言迁移学习在低资源转写任务中的有效性。

发布时间: 3/28/2025

查看原文