arXiv 论文列表

语言模型中不确定性量化评估的 revisit: 与响应长度的虚假交互导致的偏差结果

作者: Andrea Santilli, Adam Golinski, Michael Kirchhof, Federico Danieli, Arno Blaas, Miao Xiong, Luca Zappella, Sinead Williamson

arXiv:2504.13677v1 类型: cross 摘要: 语言模型（LMs）中的不确定性量化（UQ）对于提高其安全性和可靠性至关重要。评估通常使用AUROC等性能指标来评估UQ方法（例如，负序概率）与任务正确性函数（例如，ROUGE-L）的相关性。在本文中，我们展示了广泛使用正确性函数对UQ评估造成了偏差，使其夸大了某些UQ方法的性能。我们评估了7种正确性函数——从基于词缀的和基于嵌入的指标到使用LLM作为裁判的方法——在4个数据集×4个模型×6种UQ方法上的效果。我们的分析表明，这些正确性函数中的长度偏差与UQ方法中的长度偏差相互作用，导致对UQ评估的扭曲。我们识别出使用LLM作为裁判的方法是最少长度偏差的选择之一，因此可能是一种减轻这些偏差的潜在解决方案。

发布时间: 4/21/2025

查看原文

基于代码上下文最小化的追踪木偶：机器学习漏洞预测

作者: Felix M\"achtle, Nils Loose, Tim Schulz, Florian Sieck, Jan-Niclas Serr, Ralf M\"oller, Thomas Eisenbarth

arXiv:2504.13676v1 宣告类型: cross 摘要：随着暴露在网络上的web应用程序和API端点数量不断增加，可被利用的漏洞数量也在增加。手动识别这些漏洞是繁琐的。同时，静态安全扫描器往往会产生许多假阳性结果。虽然基于机器学习的方法很有前景，但在训练数据和测试数据密切相关的情况下，它们通常表现最佳。基于机器学习的漏洞检测面临的一个主要挑战是提供合适的紧凑代码上下文，因为过长的上下文会负面影响机器学习模型的理解代码能力，特别是小型模型。这项工作引入了一种新的代码表示方式——Trace Gadgets，它通过移除与漏洞无关的代码来最小化代码上下文。Trace Gadgets精准捕捉覆盖漏洞路径的语句。作为机器学习模型的输入，Trace Gadgets提供了一个最小但完整的信息上下文，从而提高了检测性能。此外，我们收集了一个大规模的数据集，该数据集来自真实世界的应用程序，并手工标注以进一步提高基于机器学习的漏洞检测器的性能。我们的结果表明，在使用Trace Gadgets时，最先进的机器学习模型的检测性能优于以前的代码表示方式，至少在完全未见过的数据集上超越了GitHub的CodeQL等工业标准静态扫描器4%以上的检测能力。通过将我们的框架应用于真实世界的应用程序，我们发现了并报告了在广泛部署的软件中未知的漏洞。

发布时间: 4/21/2025

查看原文

大型语言模型将改变儿童对技术的思考方式，并影响每个交互范式

作者: Russell Beale

arXiv:2504.13667v1 公告类型: cross 摘要：本文提出了大型语言模型对未来儿童学习方式以及他们与技术交互方式可能产生巨大影响的一种乐观视角。我们回顾了大型语言模型迄今为止对教育的影响，并指出这些影响相对于即将到来的变化来说微不足道。我们提供了一个小型情景和自我人类学研究，以展示这些变化的影响，并定义了未来交互系统设计师必须加以考虑的五个重要方面。

发布时间: 4/21/2025

查看原文

对话模式会影响代码质量吗？ChatGPT生成代码的初步实证评估

作者: Antonio Della Porta, Stefano Lambiase, Fabio Palomba

arXiv:2504.13656v1 类别：交叉学科摘要：大型语言模型（LLMs）迅速改变了软件开发，尤其是在代码生成方面的应用。然而，它们不一致的表现，容易出现幻觉和质量问题，使得程序理解变得复杂，并阻碍了代码的可维护性。研究表明，提示工程——设计输入以引导LLMs生成相关输出的做法——可能有助于解决这些问题。在这方面，研究人员已经引入了提示模式，这是一种结构化的模板，旨在引导用户提出请求。然而，提示模式对代码质量的影响尚未得到充分探讨。对这种关系的更好理解将有助于推进我们对如何有效使用LLMs进行代码生成的集体知识，从而提高它们在当前软件开发中的可理解性。本文通过使用Dev-GPT数据集，实证研究了提示模式对代码质量，特别是可维护性、安全性和可靠性的影响。结果显示，零样本提示最常见，其次是带思维链的零样本和少量样本。跨距检验（Kruskal-Wallis检验）分析了7583个代码文件后表明，在质量指标方面没有显著差异，这表明在ChatGPT辅助的代码生成中，提示结构可能不会对这些质量指标产生重大影响。

发布时间: 4/21/2025

查看原文

基于专家混合的多类型上下文感知对话推荐系统

作者: Jie Zou, Cheng Lin, Weikang Guo, Zheng Wang, Jiwei Wei, Yang Yang, Hengtao Shen

arXiv:2504.13655v1 声明类型: cross 摘要: 会话推荐系统可以实现自然语言对话，从而导致更具吸引力和有效性的推荐场景。由于推荐系统的对话通常包含有限的上下文信息，许多现有的会话推荐系统通过引入外部信息来丰富上下文信息。然而，如何结合不同类型的上下文信息仍然是一个挑战。在这篇论文中，我们提出了一种多类型上下文感知的会话推荐系统，称为MCCRS，通过专家混合有效融合多类型上下文信息以提高会话推荐系统的效果。MCCRS结合了结构化信息和非结构化信息，包括结构化的知识图谱、非结构化的对话历史以及非结构化的项目评论。它由几个专家组成，每个专家在特定领域（即一种特定的上下文信息）中专门化。然后通过主席机器人协调多个专家生成最终结果。我们提出的MCCRS模型利用了不同的上下文信息，并通过主席机器人克服了单一上下文信息模型的瓶颈。实验结果表明，我们提出的MCCRS方法在现有基准方法中表现出了显著更高的性能。

发布时间: 4/21/2025

查看原文

轻量级LiDAR-相机3D动态物体检测与多类轨迹预测

作者: Yushen He, Lei Zhao, Tianchen Deng, Zipeng Fang, Weidong Chen

arXiv:2504.13647v1 类别: cross 摘要: 服务型移动机器人在执行任务时通常需要避免动态物体，但它们通常只有有限的计算资源。因此，我们提出了一种轻量级多模态框架，用于3D物体检测和轨迹预测。我们的系统协同整合了激光雷达和摄像头输入，以在3D空间中实现实时感知行人、车辆和骑手。该框架提出了两个新的模块：1）一种交叉模态可变形变换器（CMDT），用于在较高准确率和可接受的计算量下进行物体检测；2）一种基于参考轨迹的多类别变换器（RTMCT），用于高效且多样的多类别物体轨迹预测，具有灵活的轨迹长度。在CODa基准上的评估表明，与现有方法相比，在检测（mAP提高2.03%）和行人轨迹预测（最小ADE5减少0.408米）指标上表现出更优的性能。值得注意的是，该系统显示出出色的部署能力——当在配备NVIDIA 3060 GPU 的轮椅机器人上实现时，它能够实现实时推理，帧率为13.2 fps。为了促进可重复性和实际部署，我们在https://github.com/TossherO/3D_Perception 和 https://github.com/TossherO/ros_packages发布了该方法的相关代码和 ROS 推理版本。

发布时间: 4/21/2025

查看原文

不同步的大型语言模型采用行为与异质收敛路径在研究写作中的表现

作者: Cong William Lin, Wu Zhu

arXiv:2504.13629v1 交叉领域公告类型: cross 摘要：大型语言模型（LLMs），如ChatGPT，正在重新塑造内容创作和学术写作。本研究探讨了AI辅助生成性修订对研究手稿的影响，重点关注不同学科领域的采用模式及其对写作趋同的影响。利用来自arXiv的逾627,000篇学术论文的数据集，我们通过微调针对特定提示和学科的大型语言模型来开发一种新型分类框架，以检测ChatGPT修订文本的风格。我们的研究结果揭示了不同学科、性别、母语状态和职业生涯阶段在LLM采用方面的显著差异，同时学者们的写作风格也在迅速演变。此外，LLM的使用提高了清晰度、简洁性和遵循正式写作规范的程度，不同类型的修订有所差异。最后，差分分析显示，虽然LLMs促进了学术写作的趋同，但早期采用者、男性研究者、非母语说话者和初级学者表现出最显著的风格变化，使他们的写作与资深研究者更为一致。

发布时间: 4/21/2025

查看原文

思想操纵：外部思考可以高效辅助大规模推理模型

作者: Yule Liu, Jingyi Zheng, Zhen Sun, Zifan Peng, Wenhan Dong, Zeyang Sha, Shiwen Cui, Weiqiang Wang, Xinlei He

arXiv:2504.13626v1 交叉类型：cross 摘要：最近在大规模推理模型（LRMs）方面的进展已经证明了扩展测试时计算可以增强多个任务推理能力的有效性。然而，LRMs通常面临“过度思考”的问题，即模型生成大量冗余的推理步骤，但带来的性能提升有限。现有工作依赖微调来缓解过度思考的问题，这需要额外的数据、非传统训练设置、安全对齐的风险性错配和较差的泛化能力。通过实证分析，我们揭示了LRMs行为的一个重要特征，即在思考标记（$\texttt{<think>} \texttt{</think>}$）之间插入由较小模型生成的外部CoTs（潜在推理步骤），可以有效地控制模型生成更少的推理步骤。基于这些见解，我们提出了一种简单而有效的管道，即ThoughtMani，以使LRMs绕过不必要的中间步骤，显著降低计算成本。我们进行了广泛的实验来验证ThoughtMani的实用性和效率。例如，当应用于QwQ-32B在LiveBench/Code数据集上时，ThoughtMani保持了原始性能，并将输出标记数量减少了约30%，且CoT生成器带来的额外开销较少。此外，我们发现ThoughtMani平均增强了安全对齐10%。由于模型供应商通常同时提供不同大小的模型，ThoughtMani提供了一种有效的方式，构建更高效且易于访问的LRMs以供实际应用使用。

发布时间: 4/21/2025

查看原文

适应性长期嵌入与去噪及扩增推荐

作者: Zahra Akhlaghi, Mostafa Haghir Chehreghani

arXiv:2504.13614v1 交叉公告类型：cross 摘要：互联网的快速增长使得个性化推荐系统变得不可或缺。基于图的序列推荐系统，借助图神经网络（GNNs），能够有效地捕捉复杂用户-项目交互，但也常常面临噪声和静态表示的挑战。在本文中，我们介绍了自适应长期嵌入去噪和增强的推荐方法（ALDA4Rec），这是一种新型模型，构建项目-项目图，通过社区检测来过滤噪声，并丰富用户-项目交互。图卷积网络（GCNs）随后用于学习短期表示，而平均值、GRUs和注意力机制则用于建模长期嵌入。进一步引入了一种基于MLP的自适应加权策略，以动态优化长期用户偏好。在四个真实世界数据集上进行的实验表明，ALDA4Rec 在准确性和鲁棒性方面超越了现有最先进的基线，提供了显著的改进。源代码可在 https://github.com/zahraakhlaghi/ALDA4Rec 获取。

发布时间: 4/21/2025

查看原文

生成性扩散模型的熵时间调度器

作者: Dejan Stancevic, Luca Ambrogioni

arXiv:2504.13612v1 宣告类型: cross 摘要：生成扩散模型的实际性能取决于噪声调度函数的合适选择，这也可以等效地表示为时间重参数化。本文中，我们提出了一种时间调度器，它基于熵而非均匀的时间间隔选择采样点，确保每个点对最终生成贡献相同的信息。我们证明这种时间重参数化与初始时间选择无关。此外，我们提供了一个可计算的精确公式，利用训练损失估计训练模型的这种\emph{熵时间}，而不增加显著的计算开销。除了熵时间外，我们还借鉴最优性结果引入了一种缩放熵时间。在对高斯混和分布和ImageNet的实验中，我们展示了使用（缩放的）熵时间极大地提高了训练模型的推理性能。特别是，我们发现，通过缩放的熵时间重参数化，在不影响函数评估次数的情况下，预训练EDM2模型的图像质量（通过FID和FD-DINO分数评估）可以显著提高，尤其是对于少量的函数评估次数。

发布时间: 4/21/2025

查看原文