LLM2D

arXiv 论文列表

作者: Mario Bifulco, Luca Roversi
本研究首先探讨了混合经典-量子分类器 (HCQC) 在情感分析中的应用,并将其性能与经典 CPLEX 分类器和 Transformer 架构进行了比较。我们的研究结果表明,虽然 HCQC 在分类准确率方面表现不如 Transformer,但它需要明显更少的时间来收敛到一个相当好的近似解。该实验还揭示了 HCQC 的一个关键瓶颈,其架构部分被 D-Wave 属性隐藏。为了解决这一限制,我们提出了一种基于 QUBO 模型代数分解的新算法,该算法提高了量子处理单元可以分配给问题解决任务的时间。
发布时间: 9/26/2024
查看原文
作者: Yong-Siang Shih, Zach Zhao, Chenhao Niu, Bruce Iberg, James Sharpnack, Mirza Basim Baig
对于高风险在线考试,检测潜在的违规行为至关重要,以确保考试的安全。本研究探讨了检测考生是否将视线移开屏幕的任务,因为这种行为可能是考生正在查阅外部资源的迹象。对于异步监考,考试视频会被录制并由监考人员进行审查。然而,当考试时间较长时,让监考人员观看整个考试视频以确定考生何时将视线移开会非常繁琐。我们提出了一种 AI 辅助的注视检测系统,它允许监考人员在不同的视频帧之间导航,并发现考生注视方向相似的视频帧。该系统使监考人员能够更有效地识别视频中的可疑时刻。我们提出了一个评估框架来评估该系统与仅人工和仅机器学习的监考方法相比的效果,并进行了一项用户研究以收集监考人员的反馈,旨在证明该系统的有效性。
发布时间: 9/26/2024
查看原文
作者: Wenhao Liu, Siyu An, Junru Lu, Muling Wu, Tianlong Li, Xiaohua Wang, Xiaoqing Zheng, Di Yin, Xing Sun, Xuanjing Huang
角色扮演代理(RPAs)在各种应用中展现出卓越的性能,但它们往往难以识别和恰当地响应与角色扮演知识冲突的困难查询。为了研究 RPAs 面对不同类型的冲突请求时的表现,我们开发了一个评估基准,其中包括上下文知识冲突请求、参数知识冲突请求和非冲突请求,以评估 RPAs 识别冲突并适当地拒绝回答的能力,而不会过度拒绝。通过广泛的评估,我们发现大多数 RPAs 在面对不同冲突请求时表现出显著的性能差距。为了阐明原因,我们对 RPAs 在各种冲突场景下的表示层进行了深入分析。我们的发现揭示了模型转发表示中存在拒绝区域和直接响应区域,从而影响了 RPA 的最终响应行为。因此,我们引入了一种轻量级表示编辑方法,方便地将冲突请求转移到拒绝区域,从而提高模型的拒绝准确性。实验结果验证了我们编辑方法的有效性,提高了 RPAs 对冲突请求的拒绝能力,同时保持了它们的一般角色扮演能力。
发布时间: 9/26/2024
查看原文
作者: Jaeyoung Huh, Paul Klein, Gareth Funka-Lea, Puneet Sharma, Ankur Kapoor, Young-Ho Kim
心内超声(ICE)是心电生理(EP)和结构性心脏病(SHD)介入中至关重要的影像学方法,它提供了来自心脏内部的实时、高分辨率视图。尽管它具有优势,但有效操作 ICE导管需要大量的专业知识,这会导致结果不一致,尤其是在经验不足的操作者中。为了解决这一挑战,我们提出了一种基于人工智能的闭环视图引导系统,该系统具有“人机协同”反馈,旨在帮助用户在无需专业知识的情况下导航 ICE 影像。我们的方法在空间坐标系中对任意视图和临床定义的 ICE 视图之间的相对位置和方向向量进行建模,指导用户如何操作 ICE 导管,以随着时间的推移从当前视图过渡到所需视图。该系统在闭环配置中运行,持续预测并更新必要的导管操作,确保与现有临床工作流程无缝集成。通过基于模拟的评估证明了所提出系统的有效性,在 6532 个测试数据集上实现了 89% 的成功率,突出了其在提高 ICE 影像程序的准确性和效率方面的潜力。
发布时间: 9/26/2024
查看原文
作者: Xusen Guo, Xinxi Yang, Mingxing Peng, Hongliang Lu, Meixin Zhu, Hai Yang
开发高效的交通模型对于优化交通系统至关重要,但现有的方法仍然需要耗费大量时间,而且由于依赖人工流程,容易出现人为错误。传统的流程包括详尽的文献综述、公式优化和迭代测试,导致研究效率低下。为了解决这个问题,我们引入了交通研究代理(TR-Agent),这是一个由人工智能驱动的系统,旨在通过迭代的闭环过程自动开发和改进交通模型。具体来说,我们将研究流程划分为四个关键阶段:想法生成、理论公式化、理论评估和迭代优化;并构建了TR-Agent,包含四个相应的模块:想法生成器、代码生成器、评估器和分析器。这些模块协同工作,从外部资源获取知识,生成新颖的想法,实现和调试模型,最后在评估数据集上进行评估。此外,系统根据迭代反馈不断改进这些模型,提高研究效率和模型性能。实验结果表明,TR-Agent 在多个交通模型上取得了显著的性能提升,包括用于跟车行为的智能驾驶模型 (IDM)、MOBIL 换道模型和 Lighthill-Whitham-Richards (LWR) 交通流模型。此外,TR-Agent 还为其优化提供了详细的解释,使研究人员能够轻松地验证和改进其改进。这种灵活性使该框架成为交通领域乃至其他领域研究人员的强大工具。为了进一步支持研究和合作,我们已经开源了我们在实验中使用的代码和数据,方便更广泛的访问,并推动该领域不断发展。
发布时间: 9/26/2024
查看原文
人工智能在商业领域的普及带来了与伦理原则、治理和法律合规相关的重大挑战。尽管企业已将人工智能融入日常流程,但它们缺乏一种统一的方法来减轻其潜在风险。本文介绍了一个框架,确保人工智能必须是道德、可控、可行和可取的。平衡这些因素确保了该框架的设计能够解决其权衡,例如在性能和可解释性之间取得平衡。一个成功的框架为企业提供了切实可行的建议,帮助它们满足金融和医疗保健等行业的监管要求,在这些行业中,遵守 GDPR 和欧盟人工智能法案等标准至关重要。不同的案例研究通过在学术和实践环境中整合人工智能来验证该框架。例如,大型语言模型是生成模拟对环境问题的态度的合成观点的经济高效的替代方案。这些案例研究表明,拥有一个结构化框架如何能够增强透明度并保持性能水平,如合成分布和预期分布之间的一致性所示。这种一致性使用卡方检验分数、归一化互信息和 Jaccard 指数等指标进行量化。未来的研究应进一步探索该框架在不同工业环境中的实证验证,确保模型的可扩展性和适应性。
发布时间: 9/26/2024
查看原文
作者: Shunyu Yao, Fei Liu, Xi Lin, Zhichao Lu, Zhenkun Wang, Qingfu Zhang
启发式算法通常用于解决各种搜索和优化问题。设计启发式算法通常需要使用领域知识进行繁琐的手动设计。最近的研究将大型语言模型 (LLM) 整合到自动启发式搜索中,利用其强大的语言和编码能力。然而,现有的研究只关注目标问题的最优性能作为唯一目标,而忽略了效率和可扩展性等其他标准,这些标准在实践中至关重要。为了应对这一挑战,我们建议将启发式搜索建模为一个多目标优化问题,并考虑引入除最优性能之外的其他实用标准。由于搜索空间的复杂性,传统的 多目标优化方法难以有效地处理多目标启发式搜索。我们提出了第一个基于 LLM 的多目标启发式搜索框架,即多目标启发式进化 (MEoH),该框架以零样本的方式集成 LLM,以生成一组非支配启发式算法,以满足多个设计标准。我们设计了一种新的支配-差异机制,用于有效的种群管理和选择,该机制结合了搜索空间中的代码差异和目标空间中的支配关系。MEoH 在两个著名的组合优化问题中得到证明:在线装箱问题 (BPP) 和旅行推销员问题 (TSP)。结果表明,在一次运行中自动生成了各种精英启发式算法,提供了比现有方法更多的折衷方案。它成功地实现了具有竞争力或优于现有方法的性能,同时将效率提高了 10 倍。此外,我们还观察到,多目标搜索为启发式设计带来了新的见解,并导致了多种启发式算法的发现。
发布时间: 9/26/2024
查看原文
调解通常被视为谈判的延伸,而没有考虑到规范和事实在法律调解中所起到的独特作用。此外,当前针对改变变量而更新论点可接受性的方法通常需要引入新的论点或删除现有的论点,这在法律纠纷中的决策过程中可能效率低下且繁琐。在本文中,我们的贡献有两个方面。首先,我们引入了 QuAM(定量论证调解)框架,该框架在确定调解目标的可接受性时,整合了当事人的知识和调解人的知识,包括事实和法律规范。其次,我们开发了一种新的形式化方法来模拟目标论点的可接受性与赋予与该论点相关的变量的值之间的关系。我们使用一个真实的法律调解案例作为运行示例来说明我们的方法。
发布时间: 9/26/2024
查看原文
作者: Jonathan H. Rystr{\o}m, Kenneth C. Enevoldsen
文化人工智能基准通常依赖于对测量构建的隐含假设,导致表述模糊,效度差,相互关系不明确。我们建议使用结构方程模型形式的显式认知模型来暴露这些假设。以跨语言对齐迁移为例,我们展示了这种方法如何回答关键研究问题并识别缺失数据集。此框架从理论上为基准构建奠定了基础,并指导数据集开发以改进构建测量。通过拥抱透明度,我们朝着更严格、更累积的人工智能评估科学迈进,挑战研究人员批判性地检查他们的评估基础。
发布时间: 9/26/2024
查看原文
作者: Purin Sukpanichnant, Anna Rapberger, Francesca Toni
同行评审是确定提交给科学会议或期刊的论文质量的必要过程。然而,它具有主观性和易受偏差的影响。一些研究已经应用自然语言处理技术来支持同行评审,但它们基于黑盒技术,其输出难以解释和信任。本文提出了一种新颖的管道来支持和理解同行评审的评审和决策过程:PeerArg 系统,它结合了大型语言模型和知识表示方法。PeerArg 接收论文的评论集作为输入,并输出论文接受预测。我们评估了 PeerArg 管道在三个不同数据集上的性能,并将其与使用少量学习来预测给定评论的论文接受的新型端到端大型语言模型进行了比较。结果表明,端到端大型语言模型能够根据评论预测论文接受,但 PeerArg 管道的变体优于此大型语言模型。
发布时间: 9/26/2024
查看原文