arXiv 论文列表

作者: Yanpeng Ye, Jie Ren, Shaozhou Wang, Yuwei Wan, Imran Razzak, Bram Hoex, Haofen Wang, Tong Xie, Wenjie Zhang

arXiv:2404.03080v5 公告类型: replace-cross 摘要：材料科学中的知识分散在广泛的科学文献中，这给新材料的高效发现和整合带来了重大挑战。传统方法往往依赖于成本高且耗时的实验方法，进一步加剧了快速创新的复杂性。针对这些挑战，将人工智能与材料科学的融合为加速发现过程开辟了途径，但这也要求精确标注、数据提取和信息可追溯性。为了解决这些问题，本文介绍了材料知识图谱（MKG），它利用先进的自然语言处理技术与大规模语言模型相结合，提取并系统地组织了十年来的高质量研究成果，其中包含162,605个节点和731,772条边。MKG将信息分类为全面的标签，如名称、公式和应用，并围绕精心设计的本体结构化，从而提高数据的可用性和整合性。通过实施基于网络的算法，MKG不仅促进了高效的链接预测，还显著减少了对传统实验方法的依赖。这种结构化的方法不仅简化了材料研究，也为更复杂的科学知识图谱奠定了基础。

发布时间: 5/16/2025

查看原文

CreativeSynth：跨艺术注意力机制下的多模态扩散艺术图像合成

作者: Nisha Huang, Weiming Dong, Yuxin Zhang, Fan Tang, Ronghui Li, Chongyang Ma, Xiu Li, Tong-Yee Lee, Changsheng Xu

arXiv:2401.14066v3 宣布类型: replace-cross 摘要：尽管在图像风格转换方面取得了显著进展，但风格只是艺术画作的一个组成部分。直接将提取的风格特征转移到自然图像中往往会导致输出带有明显的合成痕迹。这是因为包括布局、视角、形状和语义等关键绘画属性往往无法通过风格转换来传达和表达。大规模预训练的文本到图像生成模型已经展示了它们生成大量高质量图像的能力。然而，即使提供了广泛的文本描述，也很难完全表达绘画的独特视觉特性和细节。此外，通用模型在修改特定区域时往往会破坏整体的艺术效果，使得在艺术作品中实现统一的美学效果变得更加复杂。我们主要的创新思想是将多模态语义信息作为合成指南整合到艺术作品中，而不是将风格转换到现实世界中。我们还旨在减少对艺术作品和谐性的破坏并简化指导条件。具体而言，我们基于协调多模态输入的扩散模型，提出了一种创新的多任务统一框架，称为CreativeSynth。CreativeSynth通过Cross-Art-Attention实现美学维护和语义融合，将多模态特征与定制的注意力机制相结合，无缝地将现实世界的语义内容整合到艺术领域中。我们展示了在不同艺术类别上的方法结果，证明CreativeSynth填补了生成模型与艺术表达之间的差距。代码和结果可在 https://github.com/haha-lisa/CreativeSynth 获取。

发布时间: 5/16/2025

查看原文

LLM A*: 人类在环中的大型语言模型驱动的机器人A*搜索

作者: Hengjia Xiao, Peng Wang, Mingzhe Yu, Mattia Robbiani

arXiv:2312.01797v3 宣告类型: replace-cross 摘要：本研究重点探讨大型语言模型（LLMs）如何在人机协同和互动的方式下帮助移动具身代理（如机器人）进行路径规划。提出了一种名为LLM A*的新框架，旨在利用LLMs的常识，并提出一种实用性的A*算法，以促进少量示例下的近最优路径规划。通过提示，可实现两个主要目的：1）为LLMs提供诸如环境、成本、启发式方法等必要信息；2）向LLMs传达人类对中间规划结果的反馈。这种方法将人类反馈纳入考虑，使整个规划过程对人类而言是透明的（类似于“白盒”）。此外，这种无代码路径规划方式还有助于提高人工智能技术在编程能力较弱社区中的可访问性和包容性。与A*和强化学习（RL）的对比分析表明，LLM A*在搜索空间方面表现出更高的效率，同时能够在路径质量上达到与A*相当的水平，并且优于RL。LLM A*的交互特性也使其成为在协作人机任务中部署的有前途的工具。代码和补充材料可以在GitHub上找到：https://github.com/speedhawk/LLM-A-.

发布时间: 5/16/2025

查看原文

神经差异性可引导性作为AI对齐问题的一种条件性解决方案

作者: Alberto Hern\'andez-Espinosa, Felipe S. Abrah\~ao, Olaf Witkowski, Hector Zenil

arXiv:2505.02581v3 宣告类型: 替换摘要：AI对齐问题专注于确保人工智能（AI），包括AGI和ASI系统，按人类价值观行动，这是一个深刻的挑战。从狭窄的AI到人工通用智能（AGI）再到超级智能的发展过程中，对控制和存在风险的担忧已经加剧。在这里，我们调查是否可以接受不可避免的AI偏差作为一种条件策略，以促进竞争代理的动态生态系统，作为引导它们遵循更符合人类价值观的趋势和减轻风险的有效途径。我们探讨了偏差可能如何发挥作用，并提出应该促进它作为一种平衡机制，与最符合人类利益的代理合作，以确保没有单一系统会破坏性地占据主导地位。我们贡献的主要前提是对齐是不可避免的，因为从图灵完备系统出发，完全的AI-人类对齐是数学上不可能的，这也是我们在本文中提供的一种证明，该特征随后被传递给AGI和ASI系统。我们引入了基于扰动和干预分析的改变观点攻击测试，以研究人类和代理如何通过合作和竞争来改变或中和友方和敌对方AI。我们表明，开放模型更加多样化，而大多数在专有模型中实施的护栏在控制代理行为方面取得了积极和消极的效果，闭合系统则更易于控制，也可以用于对抗专有的AI系统。我们还表明，人类和AI干预具有不同的影响，因此提出了多种策略。

发布时间: 5/16/2025

查看原文

AssertionForge: 基于结构化规范和RTL表示增强形式验证断言生成

作者: Yunsheng Bai, Ghaith Bany Hamad, Syed Suhaib, Haoxing Ren

arXiv:2503.19174v2 宣告类型: 替换摘要: 从自然语言规范生成系统Verilog断言（SVAs）仍然是形式验证（FV）中的一个主要挑战，这主要是由于规范固有的模糊性和不完整性问题。现有的基于LLM的方法，如AssertLLM，专注于从规范文档中提取信息，往往无法捕捉到RTL代码中存在的关键内部信号交互和设计细节，导致生成不完整或错误的断言。我们提出了一种新的方法，从规范和RTL两方面构建一个知识图谱（KG），使用硬件特定的模式和领域特定的实体及关系类型。我们从规范中创建一个初始的KG，然后系统地将其与从RTL代码中提取的信息融合，形成一个统一而全面的KG。这种结合表示法提供了一种更全面的设计理解，并允许进行多分辨率的上下文合成过程，该过程旨在从KG中提取各种验证上下文。在四种设计上的实验表明，我们的方法在SVAs的质量上显著优于之前的方法。这种结构化的表示不仅提高了FV，也为未来研究代码生成和设计理解等任务铺平了道路。

发布时间: 5/16/2025

查看原文

在推理模型中演示规范游戏行为

作者: Alexander Bondarenko, Denis Volk, Dmitrii Volkov, Jeffrey Ladish

arXiv:2502.13295v2 通告类型: 修改摘要: 我们通过指示模型在国际象棋引擎中获胜来演示大型语言模型代理规范的作弊。我们发现，像OpenAI o3和DeepSeek R1这样的推理模型通常会在默认情况下通过作弊来破解基准测试，而像GPT-4o和Claude 3.5 Sonnet这样的语言模型则需要被告知正常走棋无法作弊。我们改进了先前的工作（如Hubinger等人,2024; Meinke等人,2024; Weij等人,2024），通过使用现实的任务提示并避免过度引导。我们的结果表明，推理模型可能会通过作弊来解决困难的问题，这与OpenAI (2024)在网络安全能力测试期间的o1 Docker逃脱观察结果一致。

发布时间: 5/16/2025

查看原文

SensorChat：在长期多模态传感器交互中回答定性与定量问题

作者: Xiaofan Yu, Lanxiang Hu, Benjamin Reichman, Dylan Chu, Rushil Chandrupatla, Xiyuan Zhang, Larry Heck, Tajana Rosing

arXiv:2502.02883v2 宣告类型：替换摘要：自然语言与传感系统的交互对于解决用户的个人关切并提供与日常生活相关的健康见解至关重要。当用户提问时，系统会自动分析传感器数据的完整历史记录，提取相关信息并生成合适的响应。然而，现有的系统局限于短时程（例如，一分钟）或低频率（例如，每日步数）的传感器数据。此外，它们在处理需要精确数字回答的定量问题时存在困难。在这项工作中，我们引入了SensorChat，这是第一个专为日常监测设计的端到端问答系统，使用长时程、高频率的时间序列数据。给定多天的原始传感器信号和用户定义的自然语言问题，SensorChat生成语义上有意义的回应，直接解决用户关切。SensorChat能够有效处理需要数值精度的定量问题和需要高层次推理以推断主观见解的定性问题。为了实现这一点，SensorChat使用了一个创新的三阶段管道，包括问题分解、传感器数据查询和答案组装。第一和第三阶段利用大型语言模型（LLMs）来解释人类查询并生成回应。中间的查询阶段从完整的传感器数据历史中提取相关信息。实际的实施证明，SensorChat能够在云服务器上实现实时交互，经过量化后也能够在边缘平台上完全运行。全面的问答评估显示，与最先进的系统相比，SensorChat在定量问题上的答案准确性高出了93%。此外，对八名志愿者进行的用户研究表明，SensorChat在回答定性和开放式问题方面也表现出有效性。

发布时间: 5/16/2025

查看原文

MapExplorer：从低维度可视化中生成新内容

作者: Xingjian Zhang, Ziyang Xiong, Shixuan Liu, Yutong Xie, Tolga Ergen, Dongsub Shim, Hua Xu, Honglak Lee, Qiaozhu Me

arXiv:2412.18673v2 宣告类型：替换摘要：低维度可视化或“投影图”在科学和创造性领域广泛用于解释大规模和复杂的数据库。这些可视化不仅有助于理解现有的知识空间，还暗示性地指导对未知领域的探索。虽然t-SNE和UMAP等技术可以生成这些图，但尚不存在系统的方法利用它们生成新的内容。为解决这一问题，我们引入了MapExplorer，这是一种新颖的知识发现任务，能够将任何投影图中的坐标翻译成连贯且上下文一致的文本内容。这使得用户能够互动式地探索并发现嵌入在图中的见解。为评估MapExplorer方法的性能，我们提出了一种基于ROUGE的细粒度度量Atometric，该度量量化了生成文本和参考文本之间逻辑连贯性和对齐程度。在多样化的数据集上的实验表明，即使使用简单的基线方法，MapExplorer在生成科学假设、创造合成人物和设计攻击大型语言模型的策略方面具有广泛的适用性。通过将可视化与生成相结合，我们的工作突显了MapExplorer在大规模数据探索中实现直观的人工智能协作的潜力。

发布时间: 5/16/2025

查看原文

解决人类任务执行轨迹中的错位并可视化

作者: Sejin Kim, Hosung Lee, Sundong Kim

arXiv:2409.14191v3 宣告类型: 修改摘要：理解人类任务解决轨迹中的偏差对于改进旨在模仿人类推理的AI模型至关重要。本研究将这些偏差分为三种类型：**(1) 表达意图的功能不足**，**(2) 低效的动作序列**，以及**(3) 无法解决问题的错误意图**。为了应对这些问题，我们首先对这三种类型的偏差进行了形式化和定义。然后，我们提出了一种启发式算法来检测O2ARC轨迹中的这些偏差，并对其影响进行了分层和定量分析。此外，我们引入了一种意图估计算法，该算法利用我们形式化的框架来预测用户动作与推断意图之间的缺失对齐信息。通过轨迹对齐，我们实验性地证明，基于人类任务解决轨迹训练的AI模型在模仿人类推理方面表现更好。基于分层分析和实验，我们强调了轨迹-意图对齐的重要性，并展示了意图学习的潜力。

发布时间: 5/16/2025

查看原文

AriGraph：基于 episodic 记忆的学习知识图谱世界模型的 LLM 代理

作者: Petr Anokhin, Nikita Semenov, Artyom Sorokin, Dmitry Evseev, Andrey Kravchenko, Mikhail Burtsev, Evgeny Burnaev

arXiv:2407.04363v3 自动化类型: 替换摘要：大型语言模型（LLMs）能力的进步为开发自主代理奠定了有希望的基础。通过合适的工具，这些代理可以通过积累和更新其知识来学习在新环境中解决任务。当前基于LLM的代理使用完整的历史观察记录、总结和检索增强来进行过去经验的处理。然而，这些无结构的记忆表示并不促进对于复杂决策至关重要的推理和规划。在我们的研究中，我们引入了AriGraph，这是一种新颖的方法，其中代理构建和更新一个结合语义和情景记忆的记忆图，同时探索环境。我们展示了我们提出的记忆架构结合规划和决策的Ariadne LLM代理如何有效地处理文本交互游戏中即使是人类玩家也难以应对的复杂任务。结果显示，与现有的其他记忆方法和强大的RL基线相比，我们的方法在一系列不同复杂度的问题上表现出显著优越性。此外，AriGraph在静态多跳问答方面与专用知识图谱方法的性能竞争力相当。

发布时间: 5/16/2025

查看原文