arXiv:2402.18164v2 宣告类型: replace-cross
摘要:最近在表示学习方面的进展成功地利用了不同领域数据的潜在领域特定结构。然而,在潜在空间中表示以表格式存储的多样化和复杂实体仍然具有挑战性。在本文中,我们引入了DEEPCAE,这是一种用于多层收缩自编码器(CAEs)计算正则化项的新方法。此外,我们正式提出了一个通用实体嵌入框架,并使用该框架实验证明,DEEPCAE在重建性能和下游预测性能方面均优于所有测试的自编码器变体。值得注意的是,与13个数据集上的堆叠CAE相比,DEEPCAE在重建误差上提高了34%。
arXiv:2402.01613v2 宣告类型: replace-cross
摘要: 本技术报告描述了nomic-embed-text-v1的训练情况,这是第一个完全可再现、开源、开放权重、开放数据、上下文长度为8192的英文文本嵌入模型,其在短上下文MTEB基准和长上下文LoCo基准上均优于OpenAI的Ada-002和OpenAI的text-embedding-3-small。我们以Apache 2.0许可证发布训练代码和模型权重。与其他开源模型不同,我们发布了完整的经 curate 的训练数据和代码,从而使nomic-embed-text-v1的完整复制成为可能。您可以在https://github.com/nomic-ai/contrastors找到用于复制该模型的代码和数据。
arXiv:2310.17250v2 宣告类型: replace-cross
摘要:机器学习是一种强大的工具,可以从多种数据集中提取有价值的信息并进行各种预测。传统的机器学习算法依赖于明确的输入和输出变量;然而,在某些情况下,输入和输出变量与模型中相关的输入和输出层之间的分离情况是未知的。特征选择 (FS) 和神经架构搜索 (NAS) 已成为这类情况下的有前途的解决方案。本文提出了一种嵌入式特征选择的模型输入输出配置搜索方法,即 MICS-EFS。该方法探索了分类任务中 1D 传感器时间序列和 2D 图像数据完整输入参数空间内的内部依赖关系。MICS-EFS 使用修改后的编码器-解码器模型和序列前进搜索 (SFS) 算法,结合了输入输出配置搜索和嵌入式特征选择。实验结果表明,MICS-EFS 在特征选择方面的性能优于其他特征选择算法。在所有测试数据集中,MICS-EFS 相较于基线模型的平均准确率提高了 1.5%,准确率提升范围从 0.5% 到 5.9%。此外,算法将特征维度减少到原始数据的 2-5%,显著提升了计算效率。这些结果突显了 MICS-EFS 在各种机器学习任务中提高模型准确性和效率的潜力。此外,该方法还在一个关注机械加工过程的实际工业应用中得到了验证,表明其在解决复杂输入输出挑战方面既有效又实用。
arXiv:2310.09401v5 通知类型: replace-cross
摘要: 个性化新闻推荐旨在帮助用户找到与其兴趣相匹配的新闻文章,这在减轻用户信息过载问题方面发挥着关键作用。尽管已经有许多近期的研究致力于改进个性化新闻推荐,但仍需进一步探索以下挑战:(C1) 理解新闻文章中交织的多种意图,(C2) 区分不同新闻文章的阅读后偏好变化,以及 (C3) 解决冷启动用户问题。为了共同应对上述挑战,本文提出了一种新颖的个性化新闻推荐框架(CROWN),该框架采用 (1) 类别导向的意图解耦方法解决 (C1),(2) 一致性驱动的新闻表示方法解决 (C2),以及 (3) 基于GNN的混合用户表示方法解决 (C3)。此外,我们将类别预测作为辅助任务纳入CROWN的训练过程中,这为意图解耦提供了额外的监督信号。在两个真实世界数据集上的广泛实验表明:(1) CROWN 在十个最先进的新闻推荐方法中提供了持续的性能改进,并且 (2) 所提出的策略显著提高了 CROWN 的准确性。
arXiv:2305.00948v3 通告类型: replace-cross
摘要:大型语言模型(LLMs)的性能最近得到了显著提升,现在这些模型在许多语言任务上也能表现出色。我们在这里展示了一个新的成果——这是首次证明这些模型能够生成有效的关于语言数据的元语言分析。我们提出了一项研究计划,通过提示的方式测试LLMs在这些任务上的行为可解释性。由于这些模型主要是在文本上进行训练,因此评估其元语言能力不仅提高了我们对其一般能力的理解,还为语言学中的理论模型提供了新的见解。我们显示,OpenAI的o1在涉及绘制句法树和音系概括的任务上远优于其他模型。我们推测,OpenAI的o1相较于其他模型的独特优势可能来源于其链式思维方式,这种机制模仿了在复杂认知任务(如语言分析)中人类推理的结构。
arXiv:2304.08804v4 公告类型: replace-cross
摘要:在AI辅助决策中,有人认为将人类纳入系统的重要承诺是他们应该能够通过推翻AI系统的错误建议来补充AI系统。然而,在实践中,我们经常看到人类无法评估AI建议的正确性,因此要么坚持错误的建议,要么错误地推翻正确的建议。依赖AI建议的不同方式对决策质量有着即时但独特的意义。不幸的是,在当前关于AI辅助决策的文献中,依赖和决策质量往往被不恰当地混为一谈。在这项工作中,我们解分和正式化了依赖和决策质量之间的关系,并确定人类与AI互补性的实现条件。为了说明依赖和决策质量之间的关系,我们提出了一种视觉框架,并展示了其在解释实证发现方面的用处,包括解释性干预措施的影响。总体而言,我们的研究强调了在AI辅助决策中区分依赖行为和决策质量的重要性。
arXiv:2501.14630v2 通知类型: 修订
摘要:局部搜索预处理通过提供高质量的初始点使冲突导向字句学习(CDCL)求解器更快,并且现代SAT求解器已经将其纳入预处理步骤中。然而,这些工具依赖于基本策略,而这些策略忽略了问题中的结构性模式。我们提出了一种方法,该方法应用大型语言模型(LLMs)来分析基于Python的编码代码。这揭示了问题转换为SAT中的隐藏结构性模式。我们的方法会自动生成针对这些模式的专业局部搜索算法,并利用它们生成强大的初始分配。这种方法适用于同一编码类型的任何问题实例。我们的测试结果显示了令人鼓舞的结果,与基线预处理系统相比,实现了更快的求解时间。
arXiv:2501.14304v2 宣布类型:替换
摘要:大型语言模型(LLM)越来越被探索用于解决问题的任务。然而,它们的战略规划能力经常受到怀疑。最近的研究将蒙特卡罗树搜索(MCTS)算法纳入其中,以增强LLM的规划能力。尽管MCTS具有潜力,但它依赖于广泛的采样模拟来近似真实奖励分布,这导致了两个主要问题。首先,对于围棋等任务,模拟结果可以提供客观的奖励(例如,胜利得1分,失败得0分)。然而,对于问答任务,模拟结果是问题的答案,没有参考答案就无法提供客观奖励。其次,获得统计上显著的奖励估计通常需要超过30次模拟的样本大小,导致大量的标记使用和时间消耗。为了解决这些问题,我们提出了一个名为利用LLM专业化MCTS的多代理系统与战术执行和推理(MASTER)的新型框架,该框架通过LLM专业化MCTS协调代理招聘和通信。该系统根据任务复杂性自主调整代理数量,并确保他们之间的集中通信。在各种任务的全面实验中,证明了我们提出的框架的有效性。该框架在HotpotQA上达到76%的准确率,在WebShop上达到80%,在这些数据集上设立了新的前沿性能。
arXiv:2412.01441v2 类型: 替换
摘要: 在本文中,我们提出了一项基准测试,用于在非常长的上下文域(多达一百万个词元)中测试当今前沿模型在多模态决策能力方面承受压力的能力,并调查这些模型是否可以从大量专家示范中学到东西。我们评估了Claude 3.5 Sonnet、Gemini 1.5 Flash、Gemini 1.5 Pro、Gemini 2.0 Flash Experimental、GPT-4o、o1-mini、o1-preview 和 o1作为策略在一系列简单的互动决策任务中的表现:玩井字游戏、国际象棋和Atari游戏,导航网格世界,解决填字游戏,控制模拟猎豹。我们在上下文中研究了不同数量的专家示范的影响——从没有示范到512个完整回合。在我们的任务中,模型很少能完全达到专家水平,而且通常,提供更多示范几乎没有影响。在少数任务上,一些模型随着更多示范的提供稳步提高。我们研究了将观察编码为文本或图像的效果,以及思想链提示的影响。为了帮助量化其他方法和其他创新的影响,我们开源了涵盖零样本、少量样本和大量样本评估的基准测试。
arXiv:2410.17621v2 公告类型: 替换
摘要: 基于单元测试反馈的强化学习(RL)增强了大语言模型(LLMs)的代码生成能力,但这种方法依赖于仅在完整代码评估后提供的稀疏奖励,这限制了学习效率和逐步改进。当生成的代码失败所有单元测试时,不会接收到任何学习信号,这阻碍了复杂任务的进步。为了解决这个问题,我们提出了一个进程奖励模型(PRM),它在生成过程中提供密集的、逐行的代码正确性反馈,模拟了人类代码的精炼过程,并提供了即时指导。我们探讨了各种训练PRM的方法以及将其集成到RL框架中的策略,发现将PRM作为密集奖励以及作为价值函数初始化器时,显著提升了性能。我们的实验结果还强调了PRM在提高基于RL的代码生成方面的有效性,尤其是在长期任务中。