arXiv 论文列表

作者: Filipp Nikitin, Ian Dunn, David Ryan Koes, Olexandr Isayev

arXiv:2505.00169v1 宣告类型: cross 摘要: 深度生成模型在生成有效的3D分子结构方面显示出了显著的潜力，GEOM-Drugs数据集为此类基准测试提供了关键参照。然而，当前的评估协议存在严重的缺陷，包括不正确的价数定义、键阶计算中的错误，以及依赖于与参考数据不一致的势场。在此项工作中，我们重新审视了GEOM-Drugs，并提出了一种修正的评估框架：我们识别并修复了数据预处理中的问题，构建了化学上准确的价数表，并引入了基于GFN2-xTB的几何和能量基准。我们在此框架下重新训练并重新评估了几种领先的模型，提供了更新后的性能指标和对未来基准测试的实际建议。我们的结果强调了在3D分子生成中采用严格的化学评估方法的重要性。我们推荐的评估方法和GEOM-Drugs处理脚本可在 https://github.com/isayevlab/geom-drugs-3dgen-evaluation 获取。

发布时间: 5/2/2025

查看原文

使用视觉-语言模型检测和缓解多模态 meme 中的仇恨内容

作者: Minh-Hao Van, Xintao Wu

arXiv:2505.00150v1 Announce Type: cross 摘要：社交媒体的快速发展为个人提供了增强的通信渠道，使其能够在网上创建内容并表达思想和观点。多模态的表情包，通常用于带有视觉和文字元素的嬉戏或幽默表达，有时会被滥用以散播针对个人或群体的仇恨言论。尽管对仇恨表情包的检测已得到充分研究，但开发有效的方法来转换仇恨内容仍然是一个重大挑战。借助Vision-Language Models（VLMs）的强大生成和推理能力，我们解决了检测和缓解仇恨内容的任务。本文介绍了两个关键贡献：首先，一种由定义引导的提示技术，用于检测仇恨表情包；其次，一个名为UnHateMeme的统一框架，用于缓解表情包中的仇恨内容，该框架通过替换仇恨文字和/或视觉组件来实现这一目标。借助我们的定义引导提示，VLMs在仇恨表情包检测任务上取得了令人印象深刻的性能。此外，我们的UnHateMeme框架与VLMs集成后，展示了强大的能力，能够将仇恨表情包转化为符合人类标准的非仇恨形式，并保持图像和文本之间的多模态一致性。通过实证实验，我们展示了预训练的LLaVA、Gemini和GPT-4o在所提任务上的有效性，并对其各自的优点和局限性进行了全面分析。本文旨在探讨VLMs在确保安全和尊重的在线环境方面的重要应用。

发布时间: 5/2/2025

查看原文

GPRat：异步任务的高斯过程回归

作者: Maksim Helmann, Alexander Strack, Dirk Pfl\"uger

arXiv:2505.00136v1 交叉发布类型: 交叉摘要: Python 是人工智能（AI）领域事实上的软件开发语言。常用的库，如 PyTorch 和 TensorFlow，依赖于其 BLAS 后端内置的并行化，以在 CPU 上实现加速。然而，仅在低级后端应用并行化可能导致性能和扩展性下降。在本文中，我们提出了一种将基于异步运行时模型 HPX 构建的任务级 C++ 代码绑定到高级 Python API 的新方法，使用 pybind11。我们开发了一个并行高斯过程（GP）库作为应用。结果得到的 Python 库 GPRat 结合了常用 GP 库的易用性和异步运行时系统的性能和扩展性。我们在质量-弹簧-阻尼系统上评估了表现，这是一个控制理论中的标准基准，对于不同的回归器（特征）数量。结果显示，在使用 pybind11 绑定异步 HPX 代码时几乎没有绑定开销。与 GPyTorch 和 GPflow 相比，GPRat 在 AMD EPYC 7742 CPU 上高达 64 核的训练中表现出更佳的扩展性。此外，我们的库分别在预测中比 GPyTorch 快 7.63 倍，比 GPflow 快 25.25 倍。如果我们增加特征的数量从八个到 128，我们分别观察到 29.62 倍和 21.19 倍的加速。这些结果展示了在基于 Python 的 AI 应用中使用异步任务的潜力。

发布时间: 5/2/2025

查看原文

从欠思考到过思考：关于LLM推理长度与正确性的一项 empirical 研究

作者: Jinyan Su, Jennifer Healey, Preslav Nakov, Claire Cardie

arXiv:2505.00127v1 类型: cross 摘要：大语言模型（LLMs）越来越多地被优化以进行长推理，假设更多的推理会导致更好的性能。然而，新兴的证据表明，较长的回应有时会降低准确性，而不是提高准确性。在本文中，我们系统地研究了推理长度和答案正确性之间的关系。我们发现，LLMs往往会过度思考简单的问题，生成不必要的长输出，并且在难以应对的问题上思考不足，无法在最需要扩展推理时进行扩展。这表明模型可能错误地判断问题难度，并未能适当地校准其响应长度。此外，我们研究了偏好优化算法在简单地偏好较短的回应而不考虑答案正确性时的影响。实验结果显示，生成长度可以显著减少，同时保持可接受的准确性。我们的研究结果强调了生成长度作为推理行为有意义的信号，并促使进一步探索LLMs在其推理长度适应方面的自我意识。

发布时间: 5/2/2025

查看原文

细调大语言模型以适应低资源方言翻译：以 Lebanese 为例

作者: Silvana Yakhni, Ali Chehab

arXiv:2505.00114v1 交叉类型：cross 摘要：本文研究了大型语言模型（LLMs）在翻译低资源黎巴嫩方言方面的有效性，重点关注文化贴近数据与更大规模翻译数据集的影响。我们比较了三种微调方法：基础方法、对比微调和语法提示微调，使用开源Aya23模型。实验结果显示，使用较小但文化意识较强的黎巴嫩数据集（LW）进行微调的模型始终优于使用更大规模非母语数据集进行训练的模型。通过使用对比微调结合对比提示的方法获得了最佳结果，这表明让翻译模型接触不良示例的好处。此外，为了确保真实性评估，我们引入了LebEval这一新基准，该基准源自本土黎巴嫩内容，并将其与现有的FLoRes基准进行比较。我们的研究发现挑战了“更多数据更好”的范式，并强调了在方言翻译中文化贴近性的重要性。我们已将数据集和代码发布在Github上。

发布时间: 5/2/2025

查看原文

评估AI-Lab干预措施：对其它本科计算机科学课程中学生对生成式AI的认知和使用影响的研究

作者: Ethan Dickey, Andres Bejarano, Rhianna Kuperus, B\'arbara Fagundes

arXiv:2505.00100v1 宣告类型：交叉摘要：生成型人工智能（GenAI）正在迅速进入计算机科学教育领域，但其对学生学习、技能发展以及认知的影响尚待深入探索。对过度依赖的担忧与正式课程中结构化支架指导工具使用的研究空白并存。本研究考察了“AI-Lab”干预措施对印第安纳州普渡大学数据结构与算法、程序竞赛以及一年级工程课程本科生的影响，该干预措施强调了引导性支架和有意识的参与。在三个学期中，我们在四门必修和选修课程中整合了AI-Lab模块，得到了831份匹配的干预前和干预后调查问卷回复，以及焦点小组讨论。我们采用混合研究方法，分析了使用模式和态度的变化，以及学生的体验性叙述。虽然用于家庭作业或编程项目的GenAI使用频率总体上保持平稳，但在概念性、调试和家庭作业问题方面，我们观察到舒适度和开放度的大效果量变化。值得注意的是，调试的使用模式也统计上显著地发生了变化，反映了学生更加有意识和深思熟虑的方法。焦点小组讨论结果也与此一致，表明干预措施“弥合了”对GenAI的初学使用与更细致、反思性地将人工智能工具整合到课程中的差距，最终提升了学生对其自身技能发展的意识。这些发现表明，有结构的、支架式干预可以帮学生利用GenAI的优势，而不削弱基本技能。我们提供了有关负责任地将GenAI整合到计算机课程中的教育者循证建议，并指出了未来关于GenAI支持的教育方法研究的路径。

发布时间: 5/2/2025

查看原文

CoordField：低海拔城市场景中自主无人机任务分配的协调场

作者: Tengchao Zhang, Yonglin Tian, Fei Lin, Jun Huang, Rui Qin, Fei-Yue Wang

arXiv:2505.00091v1 协调类型：交叉摘要：随着对进行复杂任务的异构无人机（UAV）群在城市环境中的需求不断增加，系统设计现在面临着重大挑战，包括高效语义理解、灵活的任务规划，以及能够根据不断变化的环境条件和任务需求动态调整协调策略的能力。为了应对现有方法的局限性，本文提出了一种协调场代理系统，用于在复杂的城市场景中协调异构无人机群。在该系统中，大型语言模型（LLMs）负责解释高级人类指令并将其转换为可执行的命令，用于无人机群，如巡逻和目标跟踪。随后，提出了一种协调场机制来指导无人机运动和任务选择，使得紧急任务的分布式和适应性分配成为可能。在2D仿真空间中，共进行了50轮比较测试以评估其性能。实验结果表明，在任务覆盖范围、响应时间和对动态变化的适应性方面，提出的系统取得了优异的性能。

发布时间: 5/2/2025

查看原文

基于 Exaone 3.5 对业务智能中文本到SQL生成的事实一致性评估

作者: Jeho Choi

arXiv:2505.00060v1 宣告类型: cross 摘要:大规模语言模型（LLMs）展示了通过文本到SQL生成在结构化数据查询中启用自然语言接口的潜力。然而，由于语义幻觉、结构错误以及缺乏专门的评估框架，它们在实际商业智能（BI）环境中的应用仍然有限。在这项研究中，我们提出了一种使用Exaone 3.5（一种针对企业任务优化的指令调优的双语LLM）评估LLM生成的SQL输出语义准确性的事实一致性评估框架。我们构建了一个涵盖LG电子公司内部BigQuery环境实际销售数据的领域特定基准测试，其中包括总共219个涵盖五个不同SQL复杂度等级的自然语言业务问题。每个问题都配有一个黄金标准SQL查询和一个验证过的ground-truth答案。我们使用答案准确性、执行成功率、语义错误率和无响应率来评估模型性能。实验结果表明，虽然Exaone 3.5在简单聚合任务上表现良好（在L1级别上的准确性为93%），但在算术推理（在H1级别上的准确性为4%）以及分组排名任务（在H4级别上的准确性为31%）上表现出显著下降，语义错误和无响应主要集中在复杂情况下。定性的错误分析进一步识别了常见的失效类型，如错误应用的算术逻辑、不完整的过滤和不正确的分组操作。我们的研究发现突显了LLMs在关键商业环境中的当前局限性，并强调了事实一致性验证层和混合推理方法的必要性。这项工作贡献了一个可重现的基准测试和评估方法，以促进结构化企业数据系统的可靠自然语言接口的发展。

发布时间: 5/2/2025

查看原文

基于社交媒体和AI的情感分析：用于时尚趋势预测的Twitter情感分析

作者: Aayam Bansal, Agneya Tharun

arXiv:2505.00050v1 交叉类型：cross 摘要：本研究通过计算分析 Twitter 数据（使用 T4SA [Twitter for Sentiment Analysis] 数据集），探索了时尚趋势与社交媒体情感之间的交叉点。通过对自然语言处理和机器学习技术的应用，我们研究如何在与时尚相关的社交媒体对话中识别出的情感模式能够作为预测新兴时尚趋势的指标。分析包括与情感模式识别和分类，改进归一化技术，时间序列分解，统计验证因果关系建模，跨平台情感比较，以及品牌特定情感分析。结果表明，情感模式与时尚主题的流行度之间存在相关性，配饰和街头风格主题在统计上显示出显著上升趋势。格兰杰因果关系分析证实了可持续性和街头风格作为主要趋势驱动因素，并与多个其他主题表现出双向关系。研究结果表明，当应用适当的统计验证时，社交媒体情感分析可以作为预测时尚趋势轨迹的有效早期指标。我们的改进预测模型在情感分类中的平衡准确率达到 78.35%，为在正面、中性和负面情感类别中的趋势预测奠定了可靠的基础。

发布时间: 5/2/2025

查看原文

卷积自编码器在小卫星技术中的数据压缩与异常检测

作者: Dishanand Jayeprokash, Julia Gonski

arXiv:2505.00040v1 类型: cross 摘要: 微小卫星技术通过简化设计和降低发射成本，增加了几何任务的潜在可行性和可行性。载荷上的数据采集系统可以从机器学习（ML）的实施中受益，以在图像处理或特征提取等任务中实现更好的性能和更高的效率。本文介绍了为微小卫星载荷设计的卷积自动编码器，旨在实现数据压缩以提高离卫星数据传输的效率，并且在数据源处进行异常检测以指导卫星数据采集。这种能力在使用非洲大陆航空图像数据集的灾情监测应用场景中得到了演示，为微小卫星应用中的新型ML方法以及非洲空间技术与人工智能的发展提供了途径。

发布时间: 5/2/2025

查看原文