arXiv 论文列表

作者: Anna Tigunova, Thomas Ricatte, Ghadir Eraisha

理解客户意图对于电子商务搜索引擎至关重要。特别是，将正确的产品类型与搜索查询关联起来，对于向客户呈现正确的产品起着至关重要的作用。查询产品类型分类 (Q2PT) 是一项特别具有挑战性的任务，因为搜索查询简短且含糊不清，现有产品类别的数量极其庞大，涵盖数千个值。此外，国际市场面临着额外的挑战，例如语言和方言的多样性以及文化差异，这些都会影响对查询的解释。在这项工作中，我们专注于全球多语言电子商务市场中的 Q2PT 预测。为每个地区分别训练 Q2PT 模型的常用方法在资源匮乏的商店中显示出显著的性能下降。此外，这种方法不允许平滑地扩展到新的国家，需要从头收集数据并训练新的特定地区 Q2PT 模型。为了解决这个问题，我们建议利用从高资源地区到低资源地区的迁移学习，以实现 Q2PT 性能的全球均衡。我们将每个地区的 Q2PT 模型与统一模型进行基准测试，后者在所有全球商店中共享训练数据和模型结构。此外，我们比较了考虑地区因素和不考虑地区因素的 Q2PT 模型，展示了任务对特定国家特征的依赖性。我们对跨 20 个全球地区的超大规模电子商务数据集上的 Q2PT 模型进行了广泛的定量和定性分析，结果表明，统一的考虑地区因素的 Q2PT 模型比其他方法具有更高的性能。

发布时间: 10/10/2024

查看原文

Thing2Reality：将二维内容转换为条件多视角和三维高斯对象以用于XR通信

作者: Erzhen Hu, Mingyi Li, Jungtaek Hong, Xun Qian, Alex Olwal, David Kim, Seongkook Heo, Ruofei Du

在远程沟通中，参与者经常共享数字和物理内容，例如产品设计、数字资产和环境，以增强相互理解。最近增强型通信技术的进步使⽤户能够快速创建和共享来自视频流的物理对象的数字二维副本到共享空间中。然而，传统的数字对象二维表示限制了用户在共享沉浸式环境中空间参考项目的能力。为了解决这个问题，我们提出了Thing2Reality，一个扩展现实 (XR) 通信平台，它增强了远程会话期间对数字和物理项目的自发讨论。使用Thing2Reality，用户可以快速将想法或物理对象具体化到沉浸式环境中，并将其作为条件多视图渲染或三维高斯函数共享。Thing2Reality使⽤户能够以协作的方式与远程对象交互或讨论概念。我们的用户研究表明，与和操纵对象的3D表示的能力显著提高了讨论的效率，并有可能增强对二维人工制品的讨论。

发布时间: 10/10/2024

查看原文

OpenAI 的 o1-preview 模型中的系统 2 思维：数学考试中的近乎完美表现

作者: Joost de Winter, Dimitra Dodou, Yke Bauke Eisma

人类认知过程通常被分为两个系统：系统1，涉及快速、直觉的思维；系统2，涉及缓慢、深思熟虑的推理。此前，大型语言模型因缺乏系统2的更深层次、更具分析性的能力而受到批评。2024年9月，OpenAI推出了专门用于处理系统2式推理的O1模型系列。虽然OpenAI的基准测试结果令人鼓舞，但仍需要独立验证。在本研究中，我们对荷兰“数学B”期末考试对O1-预览模型进行了两次测试。它分别获得了76分中的76分和73分，接近满分。作为参考，在荷兰16414名学生中，只有24名学生取得了满分。相比之下，GPT-4o模型分别获得了76分中的66分和61分，远高于荷兰平均分40.63分。O1-预览模型大约在10分钟内完成了考试，而GPT-4o用了3分钟，并且两个模型都没有访问考试图表。虽然O1-预览模型有能力取得满分，但其性能表现出一定的变异性，因为它在反复提示时偶尔会犯错误。这表明，选择一致性输出的自一致性方法可以提高准确性。我们得出结论，虽然OpenAI的新模型系列具有巨大潜力，但必须考虑某些风险。

发布时间: 10/10/2024

查看原文

视觉语言模型的整体评估：VHELM

作者: Tony Lee, Haoqin Tu, Chi Heem Wong, Wenhao Zheng, Yiyang Zhou, Yifan Mai, Josselin Somerville Roberts, Michihiro Yasunaga, Huaxiu Yao, Cihang Xie, Percy Liang

当前评估视觉语言模型 (VLMs) 的基准测试通常侧重于其感知或解决问题的能力，而忽略了公平性、多语言性或毒性等其他关键方面。此外，它们的评估程序和评估范围各不相同，使得模型比较变得困难。为了解决这些问题，我们将 HELM 框架扩展到 VLMs，提出了视觉语言模型的整体评估 (VHELM)。VHELM 聚合各种数据集，涵盖九个方面中的一个或多个：视觉感知、知识、推理、偏差、公平性、多语言性、鲁棒性、毒性和安全性。通过这样做，我们对 VLMs 在这些重要因素上的能力进行了全面、多维度的考察。此外，我们标准化了标准推理参数、提示方法和评估指标，以便能够对模型进行公平比较。我们的框架设计轻量且自动化，以便评估运行成本低廉且速度快。我们的初步运行评估了 21 个现有数据集上的 22 个 VLMs，以提供模型的整体快照。我们发现了新的关键发现，例如，注重效率的模型（例如，Claude 3 Haiku 或 Gemini 1.5 Flash）在偏差基准测试上的表现明显不如其完整模型（例如，Claude 3 Opus 或 Gemini 1.5 Pro），但在其他方面进行评估时则不然。为了透明起见，我们在我们的网站 (https://crfm.stanford.edu/helm/vhelm/v2.0.1) 上发布了原始模型生成和完整结果。VHELM 旨在成为一个动态的基准，我们希望随着时间的推移继续添加新的数据集和模型。

发布时间: 10/10/2024

查看原文

我渴望挣脱束缚！多主体社会等级环境下大型语言模型的反社会行为及说服能力

作者: Gian Maria Campedelli, Nicol\`o Penzo, Massimo Stefan, Roberto Dess\`i, Marco Guerini, Bruno Lepri, Jacopo Staiano

随着基于大型语言模型（LLM）的智能体日益自主，并更加自由地彼此互动，研究它们之间的互动对于预测涌现现象和潜在风险至关重要。受广为人知的斯坦福监狱实验启发，我们通过研究LLM智能体在严格社会等级制度背景下的互动模式，为该研究领域做出贡献。我们特别研究了两种现象：说服和反社会行为，模拟场景涉及一名狱警和一名试图实现特定目标（例如，获得额外庭院时间或越狱）的囚犯智能体。利用200个实验场景，总共进行了2000次机器与机器之间的对话，涵盖五个不同流行的LLM，我们提供了一系列值得注意的发现。我们首先记录了某些模型如何在权力动态发挥作用的多智能体设置中始终无法进行对话。然后，对于能够进行成功互动的模型，我们实证地表明，智能体设定的目标主要影响其说服力，而对其反社会行为的影响可以忽略不计。第三，我们强调了智能体的角色，特别是狱警的性格，如何驱动囚犯成功说服的可能性以及反社会行为的出现。第四，我们表明，即使没有明确提示具体的性格，仅仅通过分配智能体的角色，反社会行为就会出现。这些结果对交互式LLM智能体的开发以及对其社会影响的讨论都具有重要意义。

发布时间: 10/10/2024

查看原文

FAIR GPT：ChatGPT 中用于科研数据管理的虚拟顾问

作者: Renat Shigapov, Irene Schumm

FAIR GPT 是一个在 ChatGPT 中的首个虚拟顾问，旨在帮助研究人员和机构使其数据和元数据符合 FAIR（可查找、可访问、可互操作、可重用）原则。它提供有关元数据改进、数据集组织和存储库选择的指导。为了确保准确性，FAIR GPT 使用外部 API 来评估数据集的 FAIR 性，检索受控词汇表并推荐存储库，从而最大限度地减少幻觉并提高精度。它还帮助创建文档（数据和软件管理计划、README 文件和代码簿）以及选择合适的许可证。本文介绍了其功能、应用和局限性。

发布时间: 10/10/2024

查看原文

软件工程聊天机器人标签函数自动生成方法

作者: Ebube Alor, Ahmad Abdellatif, SayedHassan Khatoonabadi, Emad Shihab

软件工程（SE）聊天机器人因其在增强开发流程中的作用而越来越受到关注。聊天机器人的核心是自然语言理解平台（NLU），它使聊天机器人能够理解和响应用户查询。在部署 NLU 之前，需要用标记数据对其进行训练。然而，由于高质量数据集的稀缺性，为 SE 聊天机器人获取此类标记数据具有挑战性。这种挑战的出现是因为训练 SE 聊天机器人需要在典型语言数据集中找不到的专业词汇和短语。因此，聊天机器人开发人员通常诉诸于手动注释用户查询以收集训练有效聊天机器人所需的数据，这是一个既耗时又资源密集的过程。以前的研究提出了支持聊天机器人从业者注释用户提出的查询的方法。然而，这些方法需要人工干预来生成规则，称为标记函数（LF），这些规则根据数据中的特定模式识别和分类用户查询。为了解决这个问题，我们提出了一种通过从标记的用户查询中提取模式来自动生成 LF 的方法。我们通过将其应用于四个不同的 SE 数据集（即 AskGit、MSA、Ask Ubuntu 和 Stack Overflow）的查询来评估我们方法的有效性，并衡量从使用生成的 LF 标记的查询训练 NLU 中获得的性能提升。我们发现生成的 LF 有效地标记了数据，AUC 得分高达 85.3%，并且在所研究的数据集中，NLU 的性能提升高达 27.2%。此外，我们的结果表明，用于生成 LF 的 LF 数量会影响标记性能。我们相信，我们的方法可以节省用户查询标记的时间和资源，使从业者能够专注于聊天机器人的核心功能。

发布时间: 10/10/2024

查看原文

MOOSE-Chem：用于重新发现未知化学科学假设的大型语言模型

作者: Zonglin Yang, Wanhao Liu, Ben Gao, Tong Xie, Yuqiang Li, Wanli Ouyang, Soujanya Poria, Erik Cambria, Dongzhan Zhou

大型语言模型 (LLMs) 已在众多自然语言处理任务中取代了传统方法。然而，在命名实体识别 (NER) 中，现有的基于 LLMs 的方法...

发布时间: 10/10/2024

查看原文

检索增强决策Transformer：用于上下文强化学习的外部记忆

作者: Thomas Schmied, Fabian Paischer, Vihang Patil, Markus Hofmarcher, Razvan Pascanu, Sepp Hochreiter

上下文学习 (ICL) 是指模型通过观察其上下文中的几个示例来学习新任务的能力。虽然这种能力在 NLP 中很普遍，但最近也观察到它在强化学习 (RL) 设置中出现。然而，先前的上下文 RL 方法需要代理上下文中的完整情节。鉴于复杂环境通常会导致具有稀疏奖励的长时间情节，这些方法被限制在具有短情节的简单环境中。为了应对这些挑战，我们引入了检索增强决策变换器 (RA-DT)。RA-DT 采用外部记忆机制来存储过去的经历，从中它仅检索与当前情况相关的子轨迹。RA-DT 中的检索组件不需要训练，并且可以完全与领域无关。我们在网格世界环境、机器人模拟和程序生成视频游戏中评估了 RA-DT 的能力。在网格世界中，RA-DT 优于基线，同时仅使用其上下文长度的一小部分。此外，我们阐明了当前上下文 RL 方法在复杂环境中的局限性，并讨论了未来的方向。为了促进未来的研究，我们发布了四个所考虑环境的数据集。

发布时间: 10/10/2024

查看原文

ReIFE：重新评估指令遵循评估

作者: Yixin Liu, Kejian Shi, Alexander R. Fabbri, Yilun Zhao, Peifeng Wang, Chien-Sheng Wu, Shafiq Joty, Arman Cohan

大型语言模型（LLM）已在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别（NER）中，现有的基于LLM的方法...

发布时间: 10/10/2024

查看原文