LLM2D

arXiv 论文列表

这项研究引入了一种新颖的评估框架,用于评估大型语言模型 (LLM) 在 675 个根本无法解决的问题上承认不确定性的能力。我们使用一个精心策划的、包含研究生水平重大挑战性问题(这些问题故意设计成答案未知)的数据集,评估了 12 个最先进的 LLM(包括开源和闭源模型),考察它们承认无知而非生成似是而非但错误答案的倾向。最佳模型在承认问题解决方案未知方面的准确率在 62% 到 68% 之间,涵盖了从生物学到哲学和数学等多个领域。我们观察到问题难度与模型准确率之间存在反比关系,GPT-4 在更具挑战性的问题上表现出更高的不确定性承认率 (35.8%),而在较简单的问题上则为 20.0%。这种模式表明,当问题看起来更容易解决时,模型更容易产生推测性答案。这项研究还揭示了不同问题类别之间的显著差异,模型在承认发明和 NP 完全问题中的不确定性方面存在困难,而在哲学和心理学挑战方面表现相对较好。这些结果通过强调不确定性识别作为未来机器智能评估的关键组成部分,为不断增长的关于人工智能通用性 (AGI) 评估的研究做出了贡献。因此,这项不可能性测试通过提供当前 LLM 识别自身知识边界能力的局限性的经验证据,扩展了以往关于通用智能测试的理论框架,并为改进模型训练架构和评估方法提出了新的方向。
发布时间: 11/25/2024
查看原文
作者: Moritz Rietschel, Fang Guo, Kyle Steinfeld
建筑师采用可视化脚本和参数化设计工具来探索更广阔的设计空间(Coates,2010),细化他们对设计几何逻辑的思考(Woodbury,2010),并克服传统软件的局限性(Burry,2011)。尽管二十年来一直努力使设计脚本更容易访问,但设计师自由的思维方式与算法的僵化性之间仍然存在脱节(Burry,2011)。大型语言模型 (LLM) 的最新发展表明这种情况可能很快就会改变,因为 LLM 编码了对人类语境的普遍理解,并展现出生成几何逻辑的能力。本项目推测,如果 LLM 能够有效地协调用户意图和算法,它们将成为一个强大的工具,使设计脚本更加普及和有趣。我们探索了此类系统是否能够解释自然语言提示以组装与计算设计脚本相关的几何运算。在该系统中,多层 LLM 代理配置了特定的上下文以推断用户意图并构建顺序逻辑。给定用户的较高层次的文本提示,创建一个几何描述,将其提炼成一系列逻辑运算,并映射到特定软件的命令。完整的脚本在用户的可视化编程界面中构建。该系统成功地生成了达到一定复杂度的完整可视化脚本,但在超过此复杂度阈值后则失败。它展示了 LLM 如何使设计脚本更符合人类的创造力和思维方式。未来的研究应探索对话式交互,扩展到多模态输入和输出,并评估这些工具的性能。
发布时间: 11/25/2024
查看原文
作者: Atharva Gundawar, Karthik Valmeekam, Mudit Verma, Subbarao Kambhampati
先前的工作尝试通过各种提示工程技术来提升大型语言模型 (LLM) 在规划和调度任务上的性能。虽然这些方法可以在测试的分布内发挥作用,但它们既不鲁棒也不可预测。可以通过复合LLM架构来解决这一限制,其中LLM与其他组件协同工作以确保可靠性。本文对一种复合LLM架构——LLM-Modulo框架进行了技术评估。在这个框架中,LLM与一套完整的健全验证器配对,这些验证器验证其输出,并在其失败时重新提示它。这种方法确保系统永远不会输出任何错误的输出,因此保证每个生成的输出都是正确的——这是以前的技术无法实现的。我们在四个调度领域进行的评估结果表明,使用各种模型,LLM-Modulo框架实现了显著的性能提升。此外,我们还探索了对框架基本配置的修改,并评估了它们对整体系统性能的影响。
发布时间: 11/25/2024
查看原文
作者: Roland Daynauth, Christopher Clarke, Krisztian Flautner, Lingjia Tang, Jason Mars
选择哪个大型语言模型 (LLM) 是一项复杂的问题。成对排序已成为评估人类对大型语言模型偏好的一种新方法。这种方法需要人类根据预定义的标准评估模型输出对。通过收集这些比较,可以使用 Elo 等方法构建排名。然而,在大型语言模型评估的背景下应用这些算法会带来一些挑战。在本文中,我们探讨了用于大型语言模型成对比较的排序系统的有效性。我们正式定义了一套有效排序的基本原则,并对几种排序算法在大型语言模型环境下的稳健性进行了广泛的评估。我们的分析揭示了影响排序准确性和效率的关键因素,为根据具体的评估环境和资源限制选择最合适的方法提供了指导。
发布时间: 11/25/2024
查看原文
作者: Yuze Liu, Tingjie Liu, Tiehua Zhang, Youhua Xia, Jinze Wang, Zhishu Shen, Jiong Jin, Fei Richard Yu
大型语言模型 (LLM) 因其广泛的通用世界知识,在各种自然语言处理 (NLP) 任务中取得了令人瞩目的成功。最近的研究发现,LLM 的性能严重依赖于输入提示。然而,提示工程通常以试错的方式手动进行,这可能费力且难以找到最佳提示。为了解决这些问题并释放 LLM 的最大潜力,我们提出了一种新颖的与 LLM 无关的提示优化框架,即 GRL-Prompt,该框架旨在通过强化学习 (RL) 以端到端的方式自动构建最佳提示。为了提供用于优化提示的结构化动作/状态表示,我们构建了一个知识图谱 (KG),以更好地编码用户查询和候选上下文示例之间的相关性。此外,制定了一个策略网络,通过以奖励的顺序选择一组上下文示例来生成最佳动作以构建提示。此外,利用基于嵌入的奖励塑造来稳定 RL 训练过程。实验结果表明,GRL-Prompt 优于最新的最先进方法,ROUGE-1 平均提高了 0.10,ROUGE-2 平均提高了 0.07,ROUGE-L 平均提高了 0.07,BLEU 平均提高了 0.05。
发布时间: 11/25/2024
查看原文
作者: Zongrong Li, Junhao Xu, Siqin Wang, Yifan Wu, Haiyang Li
基于街景图像的大型语言模型用于地理空间预测:StreetViewLLM框架通过整合大型语言模型、链式思维推理和多模态数据源(包括街景图像、地理坐标和文本数据),提高了地理空间预测的精度和粒度。该方法利用检索增强生成技术,增强了地理信息提取能力,实现了对城市环境的详细分析。该模型已应用于包括香港、东京、新加坡、洛杉矶、纽约、伦敦和巴黎在内的七个全球城市,在预测人口密度、医疗保健可及性、归一化植被指数、建筑高度和不透水地面等城市指标方面表现出优越的性能,并持续优于基准模型。这项研究为将大型语言模型集成到城市分析、城市规划决策、基础设施管理和环境监测中开辟了新的机遇。
发布时间: 11/25/2024
查看原文
作者: Cau\~a Ferreira Barros, Bruna Borges Azevedo, Valdemar Vicente Graciano Neto, Mohamad Kassab, Marcos Kalinowski, Hugo Alexandre D. do Nascimento, Michelle C. G. S. P. Bandeira
大型语言模型(LLM)在医疗、教育和社会科学等领域文本数据呈指数级增长,而传统的定性分析方法耗时且容易受主观性影响,已无法满足需求。基于先进生成式AI的大型语言模型(LLM)作为一种变革性工具出现,能够自动化和增强定性分析。本研究系统地梳理了关于将LLM用于定性研究的文献,探讨了它们的应用场景、配置、方法和评估指标。研究结果表明,LLM被应用于各个不同的领域,展示了自动化传统上需要大量人工投入流程的潜力。然而,诸如依赖提示工程、偶尔出现不准确以及上下文限制等挑战仍然是重要的障碍。本研究强调了将LLM与人类专业知识相结合、提高模型稳健性以及改进评估方法的机会。通过综合趋势和识别研究差距,本研究旨在指导LLM在定性分析应用中的未来创新。
发布时间: 11/25/2024
查看原文
作者: Aurora Lithe Roy, Md Kamrul Siam, Nuzhat Noor Islam Prova, Sumaiya Jahan, Abdullah Al Maruf
糖尿病,特别是2型糖尿病(T2D),构成了巨大的全球健康负担,其相关的并发症,如心血管疾病、肾衰竭和视力障碍,进一步加剧了这一负担。T2D的早期检测对于改善医疗保健结果和优化资源分配至关重要。在本研究中,我们利用机器学习(ML)技术对来自T2D患者的基因表达数据进行分析,以解决T2D早期检测方面的不足。我们的主要目标是通过先进的ML方法提高T2D早期检测的准确性,并使用可解释人工智能(XAI)技术提高模型的可信度。通过基因表达数据集分析T2D的潜在生物学机制代表了一个新的研究前沿,在以往的研究中相对较少被探索。虽然许多研究都集中于利用临床和人口统计数据进行T2D预测,但整合来自基因表达数据集的分子信息为理解该疾病的病理生理学提供了一条独特而有前景的途径。通过对来自NCBI基因表达综合数据库(GEO)的数据应用六种ML分类器,我们观察到所有模型均表现出良好的性能。值得注意的是,XGBoost分类器的准确率最高,达到97%。我们的研究解决了T2D早期检测方法中的一个显著差距,强调了利用基因表达数据和先进ML技术的重要性。
发布时间: 11/25/2024
查看原文
随着大型语言模型 (LLM) 越来越多地应用于影响社会结果的领域,了解它们延续和放大偏见的趋势至关重要。本研究调查了大型语言模型在预测人类出行(一种基本的人类行为)方面是否表现出基于种族和性别的偏见。我们使用三个突出的大型语言模型——GPT-4、Gemini 和 Claude——分析了它们对个人访问兴趣点 (POI) 的预测,所依赖的提示包括带有和不带有明确人口统计信息的姓名。我们发现,大型语言模型经常反映和放大现有的社会偏见。具体而言,对少数群体的预测不成比例地偏斜,这些人与财富相关的兴趣点 (POI) 的关联度明显较低。性别偏见也很明显,因为与男性相比,女性与职业相关的兴趣点 (POI) 的关联度始终较低。这些有偏见的关联表明,大型语言模型不仅反映了社会刻板印象,而且还加剧了社会刻板印象,尤其是在涉及种族和性别的背景下。
发布时间: 11/25/2024
查看原文
先前文章中,我们介绍了一种基于对称微分方程的神经网络框架。这个新颖的框架展现出完全的对称性,赋予其完美的数学特性。虽然我们已经考察了该系统的一些数学特性,但尚未详细讨论网络训练方法。本文借鉴传统反向传播算法的原理,提出了一种利用微分方程信号传播而非链式法则推导的替代训练方法。这种方法不仅保留了训练的有效性,而且具有增强的生物学可解释性。该方法的基础在于系统的可逆性,这源于其固有的对称性,这也是我们研究的关键方面。然而,仅此方法不足以进行有效的神经网络训练。为了解决这个问题,我们进一步引入了一种分布式比例-积分-微分 (PID) 控制方法,并强调其在闭环系统中的实现。通过结合这种方法,我们实现了更快的训练速度和更高的精度。这种方法不仅为神经网络训练提供了新的见解,也扩展了对控制方法的研究范围。为了验证其有效性,我们将此方法应用于 MNIST 数据集,证明了其实用性。
发布时间: 11/25/2024
查看原文