LLM2D

arXiv 论文列表

作者: Yunquan Gao, Zhiguo Zhang, Praveen Kumar Donta, Chinmaya Kumar Dehury, Xiujun Wang, Dusit Niyato, Qiyang Zhang
arXiv:2503.21109v1 交叉发布类型: cross 摘要:深度神经网络(DNNs)在各种行业中越来越被部署,推动了移动设备支持的需求。然而,现有的移动推理框架通常依赖于每个模型一个处理器,这限制了硬件利用率,并导致性能和能效不理想。要在移动平台上扩展DNN的可访问性,需要适应性、资源高效的方法来满足不断增长的计算需求,而不牺牲功能。在异构处理器上并行执行多个DNN仍具有挑战性。一些研究工作将DNN操作划分为子图以便在处理器之间并行执行,但这通常基于硬件兼容性进行划分,导致子图数过多,增加了调度复杂性和内存开销。 为此,我们提出了一种高级多DNN模型调度(ADMS)策略,以优化在移动异构处理器上进行多DNN推理。ADMS在离线构建最优子图划分策略,平衡硬件操作支持和调度粒度,并使用一种处理器状态感知算法,根据实时条件动态调整工作负载。这确保了高效的工作负载分布并最大化处理器利用率。实验结果显示,与传统的框架相比,ADMS将多DNN推理延迟减少了4.04倍。
发布时间: 3/28/2025
查看原文
作者: Yedan Shen, Kaixin Wu, Yuechen Ding, Jingyuan Wen, Hong Liu, Mingjie Zhong, Zhouhan Lin, Jia Xu, Linjian Mo
arXiv:2503.21098v1 Announce Type: cross 摘要:生成检索(GR)随着大语言模型(LLMs)的出现革命性地改变了文档检索,并且基于LLM的GR逐渐被行业采用。尽管其具有显著的优点和潜力,但基于LLM的GR遭受幻觉的影响,在某些情况下生成与查询无关的文档,极大地挑战了其在实际应用中的可信度。因此,我们提出了一种优化的GR框架,旨在减轻检索幻觉,该框架在模型训练中结合了知识蒸馏推理,并加入决策代理以进一步提高检索精度。具体来说,我们使用LLM来评估和推理GR检索到的查询-文档(q-d)对,然后将推理数据作为转移知识传授给GR模型。此外,我们利用决策代理作为后处理步骤,通过检索模型扩展GR检索到的文档,并从多个角度从中选择最相关的文档作为最终生成检索结果。在支付宝的基金搜索和保险搜索真实世界数据集上的离线实验以及在线A/B测试中,我们的框架在提高搜索质量和转换收益方面显示了其优越性和有效性。
发布时间: 3/28/2025
查看原文
arXiv:2503.21095v1 Announce Type: cross 摘要:加速发现和制造具有特定性质的先进材料是一个关键但艰巨的挑战,原因在于庞大的搜索空间、实验成本高昂以及材料表征的耗时性。近年来,主动学习作为一种有前景的方法已经出现,它模拟了人类科学家的科学发现过程,通过在有限预算下引导实验以实现高价值成果来应对这些挑战。在众多主动学习的哲学思想中,捕捉预期结果和观察结果之间偏差的惊喜概念已经展示出显著潜力,能够驱动实验试次并改进预测模型。科学发现往往源自于惊喜,因此使其成为自然驱动因素,用于引导搜索过程。尽管如此,以前利用香农和贝叶斯惊喜等度量的研究缺乏机制来考虑先前的置信度,导致过多探索不确定区域,这些区域可能不会提供有用的信息。为了解决这一问题,我们提出了自信校正惊喜度量的主动资源密集型试次(CA-SMART)框架,这是一种针对优化数据驱动实验而设计的新型贝叶斯主动学习框架。从宏观角度来看,CA-SMART结合了自信校正惊喜(CAS)来动态平衡探索和利用,通过在模型更加确定的区域放大惊喜,而在高度不确定的区域降低惊喜。我们在两个基准函数(六鞍骆驼峰和Griewank)上以及在预测钢的疲劳强度方面评估了CA-SMART。结果表明,CA-SMART在准确性与效率方面优于传统的惊喜度量、标准贝叶斯优化(BO)获取函数以及传统机器学习方法。
发布时间: 3/28/2025
查看原文
作者: Haoming Xu, Shuxun Wang, Yanqiu Zhao, Yi Zhong, Ziyan Jiang, Ningyuan Zhao, Shumin Deng, Huajun Chen, Ningyu Zhang
arXiv:2503.21088v1 交叉公告类型 摘要:本文介绍了ZJUKLAB团队在SemEval-2025任务4中的提交,该任务旨在从大型语言模型中选择性地删除敏感知识,避免过度遗忘和不足遗忘的问题。我们提出了一种利用模型合并(具体是TIES-Merging)的遗忘系统,将两个专业模型合并为一个更平衡的遗忘模型。我们的系统取得了竞争性的结果,在26支队伍中排名第二,Task Aggregate的在线得分为0.944,总体Aggregate得分为0.487。在本文中,我们还进行了局部实验,并对遗忘过程进行了全面分析,考察了性能轨迹、损失动态和权重视角,以及一些补充实验,以理解我们方法的有效性。此外,我们分析了我们方法和评估指标的局限性,强调仅凭MIA得分和基于ROUGE的指标不足以全面评估成功的遗忘。最后,我们强调在未来的研究中需要更全面的评估方法论,并重新思考遗忘目标的重要性。代码可在https://github.com/zjunlp/unlearn/tree/main/semeval25获取。
发布时间: 3/28/2025
查看原文
arXiv:2503.21074v1 Announce Type: cross 摘要:本文采用了一种混合CNN-Transformer架构,结合了详细的考古学框架,研究了印度河谷文字的视觉形态与藏缅走廊象形系统的潜在历史联系。通过三个目标文字在15个独立训练模型上的集成方法,我们表明藏缅走廊文字在视觉相似性方面比青铜时代楔形文字原形(10.2%-10.9%)或埃兰文字原形(7.6%-8.7%)高出约六倍(61.7%-63.5%)与印度河文字相似。此外,与我们目前对印度河文明网络的理解相反,印度河文字意外地更接近藏缅走廊文字,平均余弦相似度为0.629,而上述古西亚文字系统的平均余弦相似度分别为0.104和0.080,尽管它们地理位置相近且存在明确的贸易关系。在各种降维技术和聚类方法中,印度河文字始终聚类在藏缅走廊文字附近。我们的计算结果与特定象形系统、性别标记和关键象征元素的定性观察结果一致;这进一步得到了考古证据的支持,即在印度河文明衰落的同时,沿古蜀绳道存在持续的接触网络,为文字的传播提供了合理的途径。虽然仍存在其他解释的可能性,但观察到的特定和一致性挑战了孤立文字发展的传统叙事,表明南亚和东亚之间比以前认识的要复杂的古代文化交流网络。
发布时间: 3/28/2025
查看原文
arXiv:2503.21011v1 类别: cross 摘要: 前期研究显示大型语言模型(LLMs)可以根据其他态度预测人类的态度,但这些工作大多集中在高度相似和相互关联的态度上进行预测。相比之下,人类的态度往往即使在不相关和差异较大的主题之间也存在强烈的相关性。利用一个新颖的关于人类对多样态度陈述的反应数据集,我们发现前沿语言模型(GPT-4o)能够再现单个态度之间的成对相关性,并能够从一个人的态度预测另一个人的态度。关键的是,在前人工作的基础上,我们测试了GPT-4o在态度表层相似性缺失情况下的预测能力,发现尽管表层相似性可以提高预测准确性,但该模型仍能够生成有意义的社会推断,特别是在不相似的态度之间。总之,我们的研究结果表明,LLMs捕获了人类信念系统深层、潜在结构的关键方面。
发布时间: 3/28/2025
查看原文
作者: Lynnette Hui Xian Ng, Kokil Jaidka, Kaiyuan Tay, Hansin Ahuja, Niyati Chhaya
arXiv:2503.21000v1 类别: cross 摘要: 监督机器学习模型在预测对话文本中的用户行为时常常表现不佳,这受到了 crowdsourced 标签质量差和自然语言处理任务准确性低的影响。我们引入了元数据敏感加权编码集成模型 (MSWEEM),该模型整合了注释员的元特征,如疲劳和加速。首先,我们的结果显示,MSWEEM 在保留数据上的表现比标准集成高出 14%,在另一个替代数据集上高出 12%。其次,我们发现整合注释员行为的信号,例如速度和疲劳,显著提升了模型性能。第三,我们发现具有更高资质的注释员,如持有硕士学位的,提供了更一致且更快的注释。鉴于注释质量的不确定性日益增加,我们的实验表明,理解注释员的模式对于提高用户行为预测模型的准确性至关重要。
发布时间: 3/28/2025
查看原文
作者: Yupeng Cao, Haohang Li, Yangyang Yu, Shashidhar Reddy Javaji, Yueru He, Jimin Huang, Zining Zhu, Qianqian Xie, Xiao-yang Liu, Koduvayur Subbalakshmi, Meikang Qiu, Sophia Ananiadou, Jian-Yun Nie
arXiv:2503.20990v1 类型:cross 摘要:音频大型语言模型(AudioLLMs)已受到广泛关注,并在对话、音频理解以及自动语音识别(ASR)等音频任务中显著提高了性能。尽管取得了这些进步,但在金融场景中评估音频大型语言模型的标准却缺失,而在金融分析和投资决策中,音频数据(如收益电话会议和CEO演讲)是至关重要的资源。本文介绍了 \textsc{FinAudio},这是首个专为评估音频大型语言模型在金融领域的性能而设计的基准。我们首先基于金融领域的独特特点定义了三个任务:1) 短金融音频的ASR,2) 长金融音频的ASR,3) 长金融音频的总结。然后,我们分别策展了两个短音频和两个长音频数据集,并为金融音频总结开发了一个新的数据集,包含 \textsc{FinAudio} 基准。随后,我们在 \textsc{FinAudio} 上评估了七种流行的音频大型语言模型。我们的评估揭示了现有音频大型语言模型在金融领域中的局限性,并为改进音频大型语言模型提供了见解。所有数据集和代码都将公开发布。
发布时间: 3/28/2025
查看原文
作者: Xiaoran Xu, Zhaoqian Xue, Chi Zhang, Jhonatan Medri, Junjie Xiong, Jiayan Zhou, Jin Jin, Yongfeng Zhang, Siyuan Ma, Lingyao Li
arXiv:2503.20981v1 类别:cross 摘要:研究公众对急診设施的体验对于促进社区医疗服务的发展至关重要。传统的调查方法常常由于范围有限、时间和空间覆盖不足而不足。通过在线评论或社交媒体来征集众包数据提供了一种有价值的获取这些见解的方法。随着大型语言模型(LLMs)的最新进展,从评论中提取细腻的感知已经变得可行。本研究表明,收集DMV和佛罗里达地区的Google Maps评论,并使用GPT模型进行提示工程,以分析急診服务方面的态度情感。我们首先分析了人际因素、运营效率、技术质量、财务状况和设施等各种方面的地理空间模式。接下来,我们确定了在不同人口普查小区(CBG)水平上支持公众感知差异的特征,包括人口密度、中位收入、基尼指数、房租收入比、贫困家庭比例、无保险比例和失业率。研究结果显示,在调整了多变量模型后,人际因素和运营效率是影响急診患者满意度的最强因素,而技术质量、财务状况和设施没有显著的独立影响。在社会经济和人口统计因素中,只有人口密度与患者评分之间显示出显著但微弱的关联,而其余因素没有显示出显著的相关性。总体而言,本研究突显了众包在发现对居民来说最重要因素方面的潜力,并为利益相关者提供了宝贵的见解,以提高公众对急診服务的满意度。
发布时间: 3/28/2025
查看原文
arXiv:2503.20975v1 类型:交叉 摘要:在现代资源共享系统中,多个代理以未知的随机条件访问有限资源来执行任务。当多个代理同时访问同一个资源(臂)时,他们竞争成功的使用权,导致争用和减少奖励。这促使我们研究竞争多臂赌博机(CMAB)游戏。在本文中,我们研究了一种新的N玩家K臂竞争多臂赌博机游戏,其中非短视玩家(代理)通过时间变化的方式争夺多样化私人估计同一臂。他们可能在同一臂上的碰撞以及臂奖励的时间变化性使得策略分析比现有研究中短视玩家的情况更为复杂。我们明确分析了社会最优和社会上已经存在的自私策略的阈值结构,表明后者导致了延长的收敛时间Ω(\(\frac{K}{\eta^2}\ln({\frac{KN}{\delta}})\)),而通过协调通信的社会最优策略将其降低到\(\mathcal{O}(\frac{K}{N\eta^2}\ln{(\frac{K}{\delta})})\)。基于这些比较,我们证明了自私玩家争夺最优臂的竞争可能导致无限的无效率代价(PoA),这比社会最优效率损失更大。我们进一步证明,没有任何信息机制(包括贝叶斯说服)能够减少这种无限的PoA,因为非短视玩家的战略性误报削弱了这些方法。为了解决这一问题,我们提出了一种联合信息性和旁边支付机制(CISP),该机制根据玩家的时间变化私人信念提供适当的信息和货币激励,以推荐社会最优臂。我们的CISP机制保持了社会规划者事后的预算平衡,并确保玩家的真诚报告,实现了最小的PoA=1和与社会最优相同的收敛时间。
发布时间: 3/28/2025
查看原文