LLM2D

arXiv 论文列表

作者: Afshin Khadangi, Amir Sartipi, Igor Tchappi, Ramin Bahmani
arXiv:2504.03302v1 交叉类型: cross 摘要:大语言模型(LLMs)经常生成不准确或误导性的内容幻觉。为了解决这一挑战,我们引入了Noise-Augmented Fine-Tuning(NoiseFiT)这一新颖框架,它利用基于信噪比(SNR)的自适应噪声注入来提升模型的稳健性。特别是,NoiseFiT选择性地对标识为高SNR(更具鲁棒性)或低SNR(可能欠正则化)的层进行动态放大高斯噪声的扰动。我们还提出了一种结合标准交叉熵、软交叉熵和一致性正则化的混合损失,以确保在嘈杂的训练条件下提供稳定且准确的输出。我们的理论分析表明,自适应噪声注入是无偏且方差保持的,提供了期望收敛的强保证。在多个测试和基准数据集上的实证结果表明,NoiseFiT显著降低了幻觉率,经常在关键任务上改进或匹配基础模型的性能。这些发现突显了噪声驱动策略在无需承担高昂的计算开销的情况下实现鲁棒、可信赖的语言建模的潜力。鉴于我们实验的全面和详细性,我们已将微调日志、基准评估成果和源代码分别公开发布在W&B、Hugging Face和GitHub上,以促进进一步的研究、可访问性和可复现性。
发布时间: 4/7/2025
查看原文
作者: Bingqian Wang, Quan Fang, Jiachen Sun, Xiaoxiao Ma
arXiv:2504.03295v1 Announce Type: cross 摘要:提出支持特定主题多样化或有争议立场的陈述对于允许用户表达、重塑政治 discourse 和推动社会批判与信息传播的平台至关重要。随着大型语言模型(LLMs)的发展,针对特定立场的可控文本生成已成为一个充满潜力的研究领域,其应用包括塑造公众意见和商业营销。然而,当前的数据集往往仅专注于纯文本,缺少多模态内容和有效的上下文,特别是在立场检测的背景下。本文正式提出了并研究了一个新的问题,即推特上带有文本和图像的立场驱动可控内容生成问题。在这个问题中,给定一个多模态帖子(文本和图像/视频),模型生成一个立场控制的回应。为此,我们创建了多模态立场生成数据集(StanceGen2024),这是第一个专门为政治 discourse 中的多模态立场可控文本生成设计的资源。它包含来自2024年美国总统选举的帖子和用户评论,包含文本、图片、视频和立场标注,以探索多模态政治内容如何影响立场表达。此外,我们提出了一个基于权重融合的多模态生成(SDMG)框架,该框架结合了多模态特征的加权融合和立场指导,以提高语义一致性和立场控制。我们发布了该数据集和代码(https://anonymous.4open.science/r/StanceGen-BE9D),供公众使用和进一步研究。
发布时间: 4/7/2025
查看原文
作者: Kilian Sprenkamp, Nils Messerschmidt, Amir Sartipi, Igor Tchappi, Xiaohui Wu, Liudmila Zavolokina, Gilbert Fridgen
arXiv:2504.03287v1 类型: 存储 摘要:参与平台可以成为政府增加信任和促进民主社会的重要资产。通过与非政府和私营机构、领域专家,甚至普通公众合作,决策者可以做出更明智和包容性的决策。基于媒体丰富理论,并采用设计科学研究方法,我们探讨如何设计一个聊天机器人,以提高现有公民参与平台政策制定过程的有效性。借助征集对欧洲委员会倡议和法规反馈的Have Your Say平台,我们创建了一个基于大规模语言模型的聊天机器人AskThePublic,为决策者、记者、研究人员和感兴趣的公民提供了一个便捷的渠道,以探索和参与公众意见。通过进行11次半结构化访谈,结果表明,参与者认为交互式和结构化的回应以及增强的语言能力具有价值,从而增加了他们使用AskThePublic而非现有平台的可能性。对未来迭代的展望及其在不同利益相关者视角下的讨论也进行了提供和探讨。
发布时间: 4/7/2025
查看原文
作者: Guido Barducci, Ivan Rossi, Francesco Codic\`e, Cesare Rollo, Valeria Repetto, Corrado Pancotti, Virginia Iannibelli, Tiziana Sanavia, Piero Fariselli
arXiv:2504.03278v1 型别: cross 摘要:理解残基变异如何影响蛋白质稳定性对于设计功能性蛋白质和阐明与疾病相关的突变的分子机制至关重要。最近在蛋白质语言模型(PLMs)方面的进展已经彻底改变了计算蛋白质分析,使其能够更准确地预测突变效应。在这项工作中,我们引入了JanusDDG,这是一种深度学习框架,利用PLM提取的嵌入和双向交叉注意变换器架构同时预测单个和多个残基突变的$\Delta \Delta G$,并且受到基本热力学性质,如反对称性和传递性的约束。与传统的自我注意不同,JanusDDG 计算查询(Q)和值(V)为野生型和突变嵌入之间的差值,而键(K)交替使用两者。这种交叉交错的注意机制使模型能够捕捉突变引起的扰动,同时保留重要的上下文信息。实验结果表明,JanusDDG 在仅从序列预测 $\Delta \Delta G$ 方面达到了最先进的性能,并且在单个和多个突变方面均与基于结构的方法具有相同的或更高的准确性。
发布时间: 4/7/2025
查看原文
arXiv:2504.03274v1 Announce Type: 交叉 摘要:近年来,人工智能的发展重新激发了基于代理的模型(ABMs)的活力,大型语言模型(LLMs)的整合导致了生成性ABMs作为模拟社会系统的新方法的出现。虽然ABMs提供了从微观层面的相互作用过渡到宏观层面模式的途径,但长期以来,社会科学家对此提出了批评,比如缺乏现实性、计算复杂性以及校准和验证方面的挑战。本文回顾了生成性ABM的文献,评估这种新方法如何充分解决这些长期存在的批评。我们的研究发现表明,许多研究对历史上的辩论缺乏认识。验证仍然未得到充分处理,许多研究仅依赖于对模型`可信度'的主观评估,即使是最严格的方法也无法充分证明操作有效性。我们arg认为,LLMs可能会加剧而不是解决ABMs长期存在的挑战。此外,LLMs的黑盒性质限制了它们在分离复杂涌现因果机制方面的实用性。虽然生成性ABMs仍处于早期实验阶段,这些发现质疑该领域是否以及如何能够过渡到能够为社会科学研究理论做出贡献的严密建模。
发布时间: 4/7/2025
查看原文
作者: Enguerrand Prebet, Samuel Teuber, Andr\'e Platzer
arXiv:2504.03272v1 交叉类型 摘要:本文提出了形式模型和形式安全证明,用于差分动态逻辑(dL)中的ABZ'25案例研究。该案例考虑了一辆自动驾驶汽车在高速公路上行驶,避免与相邻车辆发生碰撞。通过使用KeYmaera X的dL实现,我们在无限时间范围内证明了没有碰撞,从而确保了安全性不受行程长度的影响。这些安全保证适用于时间变化的反应时间和制动力。我们的dL模型考虑了单车道场景,包括前方或后方的车辆。我们证明了dL及其工具为运行时监控、防护和神经网络验证提供了一个严谨的基础。这样做揭示了ABZ'25研究中提供的规范和仿真环境highway-env之间的不一致之处。我们试图修正这些差异,并发现了许多反例,这些反例也表明提供的强化学习环境存在一些问题。
发布时间: 4/7/2025
查看原文
作者: Kennedy E. Ehimwenma, Hongyu Zhou, Junfeng Wang, Ze Zheng
arXiv:2504.03259v1 Announce Type: 交叉 摘要:双黑(DB)节点不应当存在于红黑(RB)树中。因此,当形成DB节点时,会立即删除它们。删除DB节点会导致其他连接节点旋转和重新染色,这对RB树的教学和学习提出了更大的挑战。为缓解这一困难,本文在此前关于符号算术代数(SA)方法删除DB节点的工作基础上进行了扩展。给出的SA运算如下:红色 + 黑色 = 黑色;黑色 - 黑色 = 红色;黑色 + 黑色 = 双黑;双黑 - 黑色 = 黑色。这些运算删除了DB节点并重新平衡了RB树中的黑色高度。进一步地,本文提出了三种SA数学方程式,即一般符号算术规则;部分符号算术规则1;和部分符号算术规则2。一个DB节点的删除最终会影响RB树中的黑色高度。为了使用SA方程式平衡黑色高度,本文考虑了所有RB树情况,即LR、RL、LL和RR,并测试了直接或间接连接到DB节点的节点的位置。在本研究中,为平衡RB树,考虑的问题包括:i) DB节点是否有内侄、外侄或两者兼有;或ii) DB节点是否有内侄、外侄或两者兼有。本文中的侄子 r 和 x 是DB节点的兄弟节点 s 的子节点,进一步向上,DB节点的双亲 p 是它们的曾祖 p。因此,r 和 x 与DB节点在DB节点形成时存在间接关系。SA方程的创新之处在于其在涉及节点旋转和沿任意简单路径节点重新染色以平衡树中黑色高度方面的有效性。
发布时间: 4/7/2025
查看原文
arXiv:2504.03241v1 交叉公告类型:cross 摘要:如今,大量的旧房间平面图以印刷形式存在或被存储为扫描的栅格图像。在扫描过程中,可能会出现轻微的旋转或偏移。将这种形式的平面图转换为机器可读的形式,以供进一步使用,仍然存在一个问题。因此,我们提出了一种端到端的管道,用于预处理图像,并利用一种新颖的方法从预处理的图像中创建区域邻接图(RAG)并预测其节点。通过将归一化步骤纳入RAG特征提取中,我们显著提高了RAG特征计算的旋转不变性。此外,应用我们的方法在旋转数据上提高了F1分数和IoU。此外,我们提出了一种墙壁分割算法,用于将墙壁分割为与相应房间相关的段。
发布时间: 4/7/2025
查看原文
作者: Akis Nousias, Efklidis Katsaros, Evangelos Syrmos, Panagiotis Radoglou-Grammatikis, Thomas Lagkas, Vasileios Argyriou, Ioannis Moscholios, Evangelos Markakis, Sotirios Goudos, Panagiotis Sarigiannidis
arXiv:2504.03238v1 安全类型: 交叉学科 摘要:恶意软件检测越来越受到诸如混淆和多态等演进技术的挑战,这限制了传统方法的有效性。与此同时,软件容器的广泛采用引入了新的安全挑战,包括恶意软件注入的日益严重的威胁,一旦容器被篡改,就可以成为进一步网络攻击的入口。在本研究中,我们通过机器学习分析容器的文件系统来识别被篡改的容器,解决这些安全问题。我们将整个软件容器通过tarball表示转换为大型RGB图像,并提出了一种在流式、基于补丁的方式上使用已建立的卷积神经网络架构的方法。为了支持我们的实验,我们发布了COSOCO数据集——这是此类数据集中的第一个数据集,包含3364张良性与被篡改的软件容器的大型RGB图像,可在https://huggingface.co/datasets/k3ylabs/cosoco-image-dataset 获取。我们的方法检测到更多的恶意软件,并在F1分数和召回率方面优于所有单一的和组合的VirusTotal引擎,证明了其有效性和识别被恶意软件篡改的软件容器的新标准。
发布时间: 4/7/2025
查看原文
arXiv:2504.03235v1 交叉通知类型: 摘要:在长时段监视视频中检测交通事故对于紧急响应和基础设施规划至关重要,但由于交通事故事件短暂且罕见,这一任务仍然极具挑战性。我们提出了HybridMamba,这是一种将视觉变换器与状态空间时间建模相结合的新架构,以实现准确的事故时间定位。我们的方法通过多级标记压缩和分层次的时间处理,在保持计算效率的同时不牺牲时间分辨率。在爱荷华州交通运输部的大规模数据集上进行评估,HybridMamba达到1.50秒的平均绝对误差,其中65.2%的预测与真实值相差不到1秒。与TimeChat和VideoLLaMA2等近期的视频-语言模型相比,它在性能上高出2.8秒,同时使用的参数显著减少。我们的结果表明,HybridMamba在各种条件下的2到40分钟视频中具有强大的普遍适用性。HybridMamba为交通监视中的细粒度时间定位提供了一个稳健且高效的解决方案。代码将在发表后发布。
发布时间: 4/7/2025
查看原文