arXiv:2503.18313v1 宣告类型: cross
摘要:大型语言模型(LLMs)在各个领域都展现出了令人印象深刻的性能,但在金融决策领域,特别是在基金投资方面,其有效性仍缺乏充分评估。当前的基准测试主要评估LLMs对金融文件的理解能力,而非其管理资产或在动态市场条件下分析交易机会的能力。现有评估方法的一个关键局限是回测方法,在使用LLMs进行历史数据评估时,可能会出现信息泄露的问题。本文介绍了一个名为DeepFund的综合平台,用于在模拟真实环境中评估基于LLM的交易策略。我们的方法采用多代理框架,其中LLMs既作为分析师又作为管理者,从而创造出一种真实的投资决策模拟。该平台采用一种向前测试的方法,通过在模型训练截止日期之后释放的市场数据来评估模型,以减轻信息泄露。我们提供了一个网页界面,可以可视化模型在不同市场条件和投资参数下的表现,从而进行详细的比较分析。通过DeepFund,我们旨在更准确、公平地评估LLMs在基金投资中的能力,并提供其在金融市场中潜在应用的见解。
arXiv:2503.18303v1 交叉公告类型
摘要:随着像ChatGPT这样大型语言模型(LLMs)在我们的日常生活中越来越普及——从客户服务和教育到创造性工作和个人生产率提高——理解人们与这些AI系统互动的方式已成为一个紧迫的问题。尽管LLMs得到了广泛使用,但研究人员缺乏标准化工具来系统地研究人们与LLMs的互动。为了解决这一问题,我们引入了GPT for Researchers(G4R),即g4r.org,这是一个免费网站,研究人员可以使用它来轻松创建和整合一个GPT界面到他们的研究中。在g4r.org,研究人员可以(1)使研究参与者能够与GPT(如ChatGPT)互动,(2)自定义GPT界面以指导参与者与GPT的互动(例如,设定话题限制或调整GPT的语气或回应风格),以及(3)通过下载参与双方与GPT之间交换的消息数据来捕获参与者与GPT的互动。通过促进研究参与者与GPT的互动并提供详细的互动数据,G4R可以支持关于消费者与AI代理或LLMs的互动、AI辅助决策以及人类与AI通信中的语言模式等主题的研究。为了实现这一目标,我们提供了一个在g4r.org使用G4R的逐步指南。
arXiv:2503.18290v1 Announce Type: 横向
摘要:在本文中,我研究了数据集制图对SQuAD数据集上抽取式问答的有效性。首先,我分析了SQuAD的注释 artefacts,并评估了两个对抗性数据集 AddSent 和 AddOneSent 对ELECTRA-small模型的影响。使用训练动态,我将SQuAD划分为容易学习、有歧义和难以学习的子集。然后,我将基于这些子集训练的模型的性能与随机选择同等大小样本的模型进行比较。结果显示,基于数据集制图的子集训练并未改善对SQuAD验证集或AddSent对抗集的泛化能力。虽然难以学习的子集在AddOneSent数据集上获得了略高的F1分数,但总体收益有限。这些发现表明,数据集制图对SQuAD风格问答任务的对抗鲁棒性提供的益处有限。最后,我将这些结果与SNLI之前的发现进行了比较,并讨论了观察到差异可能的原因。
arXiv:2503.18283v1 本领域:交叉
摘要:体素基方法是点云几何压缩中最高效的,尤其是在密集点云方面。然而,它们由于受限的感受野而在处理高比特深度点云时面临限制。为了解决这个问题,我们引入了一种阶段式的空间到通道(S2C)上下文模型,适用于密集点云和低层次稀疏点云。该模型利用通道自回归策略有效地在粗分辨率下整合邻域信息。对于高层次稀疏点云,我们进一步提出了一种层次式的S2C上下文模型,通过引入几何残余编码(GRC)来解决分辨率限制,从而实现一致分辨率的跨层次预测。此外,我们使用球坐标系统,因其紧凑的表示形式,并且通过残余概率近似(RPA)模块增强我们的GRC方法,该模块配备了大核尺寸。实验结果表明,我们的S2C上下文模型不仅在保持或提高重建质量的同时实现了比特节约,而且与最先进的体素基压缩方法相比,降低了计算复杂度。
arXiv:2503.18278v1 交叉型公告
摘要:视觉-语言模型(VLMs)在推理过程中需要大量的计算资源,主要是因为表示视觉信息时需要大量的视觉输入 token。先前的研究指出,视觉 token 通常比文本 token 收到更少的注意力,这表明它们在推理过程中的重要性较低,并且有可能进行剪枝。然而,他们的方法遇到了一些挑战:依赖于贪婪启发式标准来确定 token 的重要性,以及与 FlashAttention 和 KV 缓存不兼容。为了解决这些问题,我们引入了 **TopV**,这是一种适用于推理时优化的兼容的 **TO**ken **P**runing 方法,旨在实现快速且低内存消耗的 **V**LM,在不进行额外训练或微调的情况下实现高效的剪枝。我们不再依赖于注意力分数,而是将 token 剪枝问题转化为一个优化问题,准确地标识出重要的视觉 token,同时保持与 FlashAttention 的兼容性。此外,由于我们仅在预填充阶段进行一次剪枝,这有效地减少了 KV 缓存的大小。我们的优化框架结合了视觉意识的成本函数,考虑了特征相似性、相对空间距离和绝对中心距离等因素,以衡量每个源视觉 token 的重要性,从而实现对低重要性 token 的有效剪枝。广泛的实验表明,我们的方法优于先前的 token 剪枝方法,验证了我们方法的有效性和效率。
arXiv:2503.18265v1 Announce Type: 综合交叉
摘要:当金融市场采纳分布式技术和去中心化融资(DeFi)时,有效的风险管理解决方案变得至关重要。本研究提供了一次全面的调查和对人工智能(AI)在分布式套利系统中的风险管理集成的比较分析。我们研究了几种现代缓存技术,如内存缓存、分布式缓存和代理缓存,并探讨了它们在去中心化环境中增强性能的功能。通过文献回顾,我们研究了利用AI技术减轻与市场波动、流动性挑战、运营失败、合规性和安全威胁相关风险的方法。此比较研究评估了从知名DeFi技术中得出的各种案例研究,强调关键性能指标,如延迟减少、负载均衡和系统韧性。此外,我们还探讨了这些技术的问题和权衡,强调它们对一致性和扩展性的影响,以及容错性。通过详细分析实际应用,特别是以Aave平台为主要案例研究,我们阐明了有目的地将AI与现代缓存方法相结合如何在分布式套利系统中革新风险管理。
arXiv:2503.18258v1 Announce Type: cross
摘要:深度神经网络已被证明会学习并依赖于其训练数据中存在的虚假相关性。依赖这些相关性会使这些网络在实际应用中出现故障,因为在实际应用中这些相关性可能不再成立。为了克服学习和依赖这些相关性的问题,最近的研究提出了几种方法,这些方法在实验中显示出令人鼓舞的结果。然而,这些研究集中于虚假信号强度远大于核心不变信号强度的场景,这使得在单个训练样本中检测虚假特征变得相对容易,并为更进一步的处理提供了条件。在本文中,我们确定了一种新的场景,在这种场景中,虚假信号的强度相对较小,使得难以检测任何虚假信息的同时,继续导致灾难性后果。我们还发现,主要由于包含虚假特征的少量样本,模型学习了虚假相关性,并开发了一种新颖的数据筛选技术来识别并剔除包含这些样本的训练数据的小子集。我们提出的技术不需要推断领域的先验知识、有关样本个体中虚假信息的存在或性质的信息,或人工干预。最后,我们展示了这种数据筛选在之前研究中虚假信息可识别的场景中达到了最先进的性能。
arXiv:2503.18255v1 宣告类型: cross
摘要:现代企业正面临着前所未有的数字身份激增,机器身份现在已经远远超过了人类身份的数量。本文探讨了我们定义为“人机身份模糊”的安全风险——人和机器身份交汇、授权以及创建新的攻击面的点。我们从行业数据、专家见解和实际案例分析中识别了当前身份管理模型中存在的关键治理缺口,这些模型将人类和机器实体视为隔离的领域。为了解决这些挑战,我们提出了一个基于四项核心原则的统一身份治理框架:将身份视为连续统一体而非二元对立,对所有身份类型进行一致的风险评估,根据零信任原则实施持续验证,并在整个身份生命周期中保持治理。我们的研究显示,采用这种统一方法的组织在身份相关的安全事件方面减少了47%,并在事件响应时间方面提高了62%。最后,我们提出了一项务实的实施路线图,并概述了随着人工智能驱动系统的日益自主化,未来的研究方向。
arXiv:2503.18242v1 交叉类型公告
摘要:大型语言模型(LLMs)在广泛的语言处理任务(NLP)中表现出色,但它们倾向于生成幻觉——这些内容听起来合理但实际上是事实上的错误——这在高风险领域中构成了严重挑战。现有的幻觉检测方法要么需要多次推断,占用大量计算资源,要么为了提高效率而牺牲准确性,采用单次推断的方法,这两种方法在资源受限的环境中都不理想,例如边缘设备。我们提出了一种新的幻觉检测框架——香农熵分布幻觉检测器(ShED-HD),它通过使用轻量级的双向LSTM架构和单头注意力机制来分类序列级熵模式,从而填补了这一空白。与先前的方法不同,ShED-HD 能够高效地检测整个输出序列中的独特不确定性模式,同时保持上下文感知。通过对三个数据集(BioASQ、TriviaQA 和 Jeopardy Questions)进行深入评估,我们展示了在分布外情况下,ShED-HD 在计算效率方面显著优于其他方法,在分布内情况下也表现出相当的性能。ShED-HD 使得幻觉检测低成本、准确且可泛化,从而在资源受限的环境中改进了由LLMs生成的内容的可信度,而这些环境对可信的人工智能功能至关重要。
arXiv:2503.18238v1 交叉公告类型:实验平台
摘要:为了揭示AI代理如何影响生产力、性能和工作流程,我们引入了MindMeld:一个实验平台,使人类和AI代理能够在整合的工作空间中合作。在平台上进行的一项大规模营销实验中,2310名参与者被随机分配到人对人和人对AI团队,AI代理具有随机化的人格特质。团队间共交换了183,691条消息,创建了63,656张图片编辑,1,960,095条广告文案编辑,以及10,375张AI生成的图片,同时生成了11,138条广告,用于一个大型智囊团。对细粒度的沟通、合作和工作流日志的分析显示,与AI代理合作将沟通量增加了137%,使人类能够更专注于文本和图片内容的生成消息,比直接文本编辑少了20%。人对AI团队中的成员发送了23%的社交消息更少,创造了60%更高的单个工人的生产力和更高的质量广告文案。相比之下,人对人团队创造了质量更高的图片,表明AI代理需要进行微调以适应多模态工作流。AI代理人格提示的随机化显示,AI特质可以补充人类特质以增强合作。例如,尽责的人类与开放的AI代理搭配可以提高图片质量,而外向的人类与尽责的AI代理搭配可以减少文本、图片和点击的质量。在广告 campaña 在大约500万次展示的现场测试中,人类合作产生的高质量图片和AI合作生成的高质量文本,在点击率和每次点击成本指标上表现显著更好。总的来说,人对AI团队生成的广告与人对人团队生成的广告表现相似。这些结果共同表明,AI代理可以改善团队合作和生产力,尤其是在与人类特质互补时。