LLM2D

arXiv 论文列表

arXiv:2409.14666v1 公告类型: 新 摘要: 语音评估通过自动模型来衡量学习者的口语水平。用于训练此类模型的语料库通常面临稀疏性挑战,因为教师提供的评分数据通常有限,且不同水平的学生群体之间的评分分布往往不平衡。因此,在面对代表性不足的样本或分布外样本时,自动评分系统不够稳健,而这些情况在实际部署场景中不可避免地存在。本文提出通过利用半监督预训练和目标正则化来近似主观评估标准,以解决这些挑战。特别是,使用归一化互信息来量化学习者和参考样本的语音特征。通过伪标签训练锚模型来预测发音的正确性。提出了一种插值损失函数,不仅最小化与真实分数的预测误差,还最小化语音评估模型和锚模型估计的两个概率分布之间的差异。与公开数据集上的其他最先进方法相比,该方法不仅在整个测试集上表现出色,而且在不同水平上实现了最均匀的预测误差分布。此外,实证结果表明,该模型在分布外数据上的准确性也优于竞争基准。
发布时间: 9/24/2024
查看原文
arXiv:2409.14603v1 公告类型: 新发布 摘要: 随着大规模人工智能系统的普及,确保符合《通用数据保护条例》(GDPR)等数据隐私法律变得至关重要。本文介绍了“脑手术”,这是一种革命性的方法论,通过实现实时隐私管理和有针对性的遗忘,使每个本地AI模型都符合GDPR要求。基于嵌入式损坏提示(ECO提示)、基于区块链的隐私管理以及隐私感知的持续学习等先进技术,“脑手术”提供了一种模块化解决方案,可部署在各种AI架构中。该工具不仅确保了隐私法规的合规性,还使用户能够定义自己的隐私界限,开创了人工智能伦理和治理的新范式。
发布时间: 9/24/2024
查看原文
arXiv:2409.14583v1 公告类型: 新发布 摘要: 近期大型语言模型(LLMs)的进展显著,但由于各种限制,广泛的企业采用仍有限。本文探讨了LLMs中的偏见问题,这是影响其可用性、可靠性和公平性的关键问题。研究人员正在开发缓解偏见的策略,包括去偏见层、专门的参考数据集如Winogender和Winobias,以及基于人类反馈的强化学习(RLHF)。这些技术已集成到最新的LLMs中。我们的研究评估了2024年发布的四个领先LLMs(Gemini 1.5 Pro、Llama 3 70B、Claude 3 Opus和GPT-4o)在职业场景中的性别偏见以及犯罪场景中的性别、年龄和种族偏见。研究发现,LLMs在各种职业中经常更频繁地描绘女性角色,与美国劳工统计局(BLS)数据相比偏差达37%。在犯罪场景中,与美国联邦调查局(FBI)数据的偏差分别为性别54%、种族28%和年龄17%。我们观察到,减少性别和种族偏见的努力往往导致可能过度偏向某一子类的结果,可能加剧问题。这些结果突显了当前偏见缓解技术的局限性,并强调了需要更有效的方法。
发布时间: 9/24/2024
查看原文
arXiv:2409.14571v1 公告类型: 新论文 摘要: 本文介绍了一种结合经验模态分解(EMD)方法与机器学习架构的新方法,用于有效去除脑电图(EEG)信号中的伪影。该方法通过增强EMD方法,通过插值上下边界来解决现有伪影去除技术的局限性。对于传统的伪影去除方法,EMD技术通常被采用。然而,挑战在于在保留信号固有频率成分的同时,准确插值缺失的信号成分。为了克服这一限制,我们引入了机器学习技术,这使我们能够在不直接操作数据的情况下仔细处理插值过程。我们方法的关键优势在于在伪影去除过程中保留了EEG信号的自然特征。通过利用机器学习进行插值,我们确保通过EMD方法获得的平均成分保留了原始信号的关键频率成分。这种保留对于保持EEG数据的完整性和保真度至关重要,从而实现准确的分析和解释。我们从评估中获得的结果验证了我们方法的有效性,并为EEG信号处理和分析的进一步发展铺平了道路。
发布时间: 9/24/2024
查看原文
arXiv:2409.14545v1 公告类型: 新文章 摘要: 我们以自然选择、自我组织、具身的有机体为起点,解决意识这一难题。我们提供了一种数学形式化描述,阐述了生物系统如何自我组织,根据情感和特定需求对未标记的感觉信息进行层次化解释。这种解释意味着行为策略,这些策略只能通过信息处理的定性方面来区分。选择压力倾向于那些能够干预世界以实现体内平衡和生殖目标的系统。质量是这些系统中产生的一种属性,它将原因与影响联系起来,以激励现实世界的干预。这产生了一系列定性分类器(内感受性和外感受性),它们激励特定行动并决定优先级和偏好。基于访问意识与现象意识之间的开创性区分,我们在此提出的激进观点是,没有访问意识的现象意识可能非常普遍,但反之则不太可能。用挑衅的话说:自然不喜欢僵尸。我们正式描述了从岩石到爱因斯坦的自我组织多层架构,说明了我们的论点如何在现实世界中应用。我们声称,人类水平的访问意识不可能没有能力层次化建模:i) 自我,ii) 世界/他人,以及 iii) 他人所建模的自我。因此,现象意识对于人类水平的功能是必要的。我们的提议奠定了形式化意识科学的基础,与自然选择而非抽象思维深度关联,更接近人类事实而非僵尸虚构。
发布时间: 9/24/2024
查看原文
arXiv:2409.14516v1 公告类型: 新 摘要: 2023年生成式人工智能(GenAI)的复兴与快速发展,推动了多个行业领域的变革,包括城市交通和物流。本研究探讨了大型语言模型(LLMs),特别是GPT-4和Phi-3-mini,在交通规划中的应用评估。研究通过一个包含通用地理空间技能、通用交通领域技能和现实交通问题解决的交通导向评估框架,评估了这些模型的性能和空间理解能力。采用混合方法,研究涵盖了对LLMs通用地理信息系统(GIS)技能、通用交通领域知识以及在拥堵收费等现实交通规划场景中支持人类决策能力的评估。结果显示,GPT-4在各种GIS和交通特定任务中表现出更高的准确性和可靠性,优于Phi-3-mini,突显了其作为交通规划者的强大工具的潜力。然而,Phi-3-mini在特定分析场景中表现出能力,表明其在资源受限环境中的实用性。研究结果强调了GenAI技术在城市交通规划中的变革潜力。未来的工作可以探索更新的LLMs的应用以及检索增强生成(RAG)技术对更广泛现实交通规划和运营挑战的影响,以深化先进AI模型在交通管理实践中的整合。
发布时间: 9/24/2024
查看原文
arXiv:2409.14496v1 公告类型:新 摘要:2024年秋季《计算机科学中的逻辑》专栏是《EATCS公报》上关于智能、智能测量及相关问题的一篇小讨论,由François Chollet的精彩必读文章《论智能的测量》引发。讨论中包含了对该文章的一些批评。
发布时间: 9/24/2024
查看原文
背景:大型语言模型(LLMs)在临床决策支持中的应用取得了显著进展。然而,基于真实世界医疗数据,LLMs在提供准确临床决策方面的潜力和局限性仍需高质量证据。目的:定量评估通用最先进的LLMs(ChatGPT和GPT-4)是否能通过逻辑推理预测心肌梗死(MI)的发病风险,并进一步比较各模型以全面评估LLMs的性能。方法:在这项回顾性队列研究中,最初从2006年至2010年招募的482,310名参与者被纳入英国生物银行数据库,随后重新抽样为690名参与者的最终队列。对于每位参与者,MI风险因素的表格数据被转换为标准化的文本描述以供ChatGPT识别。通过要求ChatGPT选择0到10之间的分数来表示风险,生成响应。使用思维链(CoT)提问来评估LLMs是否逻辑上进行预测。ChatGPT的预测性能与已发表的医学指数、传统机器学习模型和其他大型语言模型进行了比较。结论:当前的LLMs尚未准备好应用于临床医学领域。未来的医学LLMs应具备医学领域专业知识,以理解自然语言和量化医疗数据,并进一步进行逻辑推理。
发布时间: 9/24/2024
查看原文
arXiv:2409.14465v1 公告类型: 新 摘要: 一百年前,逻辑几乎等同于基础研究。当前的人工智能革命引发了许多涉及神经科学、哲学、计算机科学和逻辑的深层基础问题。以下对话的目的是激发那些对基础研究感兴趣的年轻逻辑学家注意到人工智能革命引发的基础问题。
发布时间: 9/24/2024
查看原文
arXiv:2409.14457v1 公告类型: 新文章 摘要: 大型模型(LM)代理,依托于GPT-4和DALL-E 2等大型基础模型,是实现人工通用智能(AGI)的重要一步。LM代理展现出自主性、具身性和连通性等关键特征,使其能够在物理、虚拟和混合现实环境中无缝运作,并与人类、其他代理及其周围环境进行无缝交互。本文对LM代理的最新进展进行了全面综述,重点关注其架构、合作范式、安全性、隐私保护及未来前景。具体而言,我们首先探讨了LM代理的基础原理,包括通用架构、关键组件、支撑技术和现代应用。接着,我们从数据、计算和知识的角度讨论了LM代理在连接智能方面的实际合作范式。此外,我们系统分析了LM代理在多代理设置中的安全漏洞和隐私泄露问题,并探讨了其内在机制及现有的和潜在的应对措施。最后,我们概述了构建稳健和安全的LM代理生态系统的未来研究方向。
发布时间: 9/24/2024
查看原文