arXiv:2504.05331v1 声明类型: cross
摘要:随着人工智能(AI)嵌入医疗领域,医疗决策的信任正在快速变化。本文观点认为,AI的信任并不简单地从人类转移到机器——它是一种动态的、不断演变的关系,必须通过建立和维护来实现。而不是争论AI是否属于医学领域,本文提出的问题是:AI需要获得什么类型的信任,以及如何获得?从哲学、生物伦理学和系统设计中汲取灵感,本文探讨了人类信任与机器可靠性之间的关键区别——强调透明性、问责制和与关怀价值的对齐。本文认为,对AI的信任不应依赖于模仿同理心或直觉,而应依赖于精心的设计、负责任的部署以及明确的道德责任。目标是获得一种平衡的观点——既避免盲目乐观,也避免过度恐惧。对AI的信任不应被视为理所当然,而应被视为需要通过时间来赢得的东西。
arXiv:2504.05325v1 宣告类型: cross
摘要:近年来,大型语言模型(LLMs)的进展使其成为终端用户常用的信息获取工具。然而,LLMs的统计训练方法引发了对其对未充分代表话题的表示能力的担忧,这可能导致潜在的偏见,从而影响现实世界的决策和机会。随着LLMs的普及增加,这些偏见可能会在直接互动(例如,用户与聊天机器人或自动化助理交互时)或集成到第三方应用程序(作为代理)中通过后台影响决策和功能时产生重大经济、社会和文化影响。我们的研究考察了LLMs在美国城市和城镇在三个领域的推荐中存在哪些偏见:迁移、旅游和创业。我们探讨了两个关键研究问题:(i) LLMs的响应有多相似,(ii) 这种相似性如何可能在某些特征的地区上更为有利,从而引入偏见。我们关注LLMs响应的一致性及其过度代表或低估特定位置的倾向。我们的发现表明,在这些推荐中存在一致的人口统计偏见,这可能会加剧现有的经济不平等,产生“富者愈富”的效应。
arXiv:2504.05324v1 交叉公告类型
摘要:大型语言模型(LLMs)在语言理解和生成方面表现出色,但在事实准确性方面容易出现幻觉,生成不正确的或缺乏支持的输出。检索增强生成(RAG)系统通过利用外部知识使LLM的回答得到扎根,解决了这一问题。本研究使用三种检索方法来评估检索器的效寸与LLM幻觉减少之间的关系:基于BM25关键词搜索的稀疏检索,使用Sentence Transformers进行语义搜索的密集检索,以及一个提出的混合检索模块。混合模块结合了查询扩展,并通过动态加权的互逆排名融合得分将稀疏检索和密集检索的结果结合在一起。使用HaluBench数据集,该数据集用于问答任务中的幻觉基准测试,我们使用平均精度均值和归一化折扣累积收益等指标评估检索性能,重点关注检索到的前三个文档的相关性。结果显示,混合检索器在相关性分数上表现更好,优于稀疏检索和密集检索。进一步对LLM生成的答案与真实值进行评估,使用诸如准确率、幻觉率和拒绝率等指标发现,混合检索器在错误上的准确率达到最高,幻觉率最低,拒绝率最低。这些发现突显了混合检索器增强检索相关性、降低幻觉率和提高LLM可靠性的能力,强调了利用高级检索技术减轻幻觉并提高响应准确性的关键性。
arXiv:2504.05323v1 交叉公告类型
摘要:在信息技术快速发展的时代,推荐系统已经成为了应对信息过载的关键工具。然而,传统的推荐系统在捕捉用户行为的动态演变方面仍然存在局限性。为了更好地理解和预测用户行为,尤其是考虑到时间演变的复杂性,序列推荐系统逐渐成为了研究的焦点。目前,许多序列推荐算法忽视了普遍偏差的放大效应,这导致推荐结果容易受到马太效应的影响。此外,这还会限制推荐系统深度感知和捕获用户偏好动态变化的能力,从而降低其推荐覆盖范围。为了解决这一问题,我们提出了一种基于序列信息和注意力机制的推荐系统,称为多视角偏置序列推荐(MABSRec)。首先,我们将用户序列重构为三种短类型,并使用图神经网络进行物品加权。之后,我们提出了一种自适应多偏置视角注意力模块来提高推荐的准确性。实验结果显示,MABSRec 模型在所有评估指标上都表现出显著优势,展示了其在序列推荐任务中的出色性能。
arXiv:2504.05321v1 宣布类型: cross
摘要: 在赞助搜索广告领域,将广告与用户查询的搜索意图相匹配至关重要。查询到出价关键词(即竞价关键词)的重写是一种至关重要的技术,已经引起了广泛关注。近年来,随着大语言模型(LLMs)的普及,生成性检索方法已被证明在生成高相关性重写方面非常有效。然而,我们发现了现有方法中的一个显著局限性:虽然针对特定领域的微调增强了语义相关性,但这些模型对生成内容的内在价值,如商业价值,缺乏感知。因此,在微调之后,通常会采用基于强化学习的人类反馈微调(RLHF)阶段来解决这一问题。然而,传统的偏好对齐方法在对齐细微的价值方面通常面临挑战,并且容易过拟合,这降低了生成结果的有效性和质量。为了解决这些挑战,我们提出了VALUE(值感知大型语言模型用于加权 trie 的查询重写),这是第一个确保生成高价值和高度相关的出价关键词的框架。我们的方法利用了加权 trie,这是一种对传统trie数据结构进行创新修改。通过在解码过程中利用 trie 中的价值信息调整 LLM 的输出概率分布,我们限制生成空间并引导文本生成的轨迹。离线试验显示了我们的方法在语义匹配和偏好对齐方面的有效性,展示了价值属性超过五倍的显著改善。在线 A/B 测试进一步表明,我们的每千次展现收入(RPM)指标提高了 1.64%。VALUE 于 2024 年 10 月部署在我们的广告系统上,并服务于中国的双十一促销活动,这是最大的购物狂欢节。
arXiv:2504.05319v1 交叉类型
摘要:在建筑设计、工程和施工(AEC)行业中,建筑信息建模(BIM)和基于模型的设计的采用受到一个观点的阻碍,即使用BIM创作工具比传统的2D制图需要更多的努力。为了提高设计效率,本文提出了一种BIM命令推荐框架,基于用户的历史交互实时预测最优的下一个操作。我们提出了一种大规模原始BIM日志数据的全面过滤和增强方法,并介绍了一种新型命令推荐模型。我们的模型基于最新的Transformer骨干网络,最初开发用于大型语言模型(LLMs),并结合了定制的特征融合模块、专用的损失函数和针对特定学习策略。在一项案例研究中,所提方法应用于从BIM创作软件Vectorworks全球收集的超过320亿行真实日志数据。实验结果表明,我们的方法可以从不同国家、学科和项目的匿名用户交互序列中学习到通用和可泛化的建模模式。在生成下一个命令的建议时,我们的方法在Recall@10方面达到了约84%的水平。
arXiv:2504.05318v1 类型: cross
摘要: 多任务学习(MTL)是一种常见的机器学习技术,它允许模型在不同任务之间共享信息,并提高所有任务的推荐准确率。现有的许多MTL实现面临着可扩展性问题,随着任务数量的增加,训练和推理性能可能会下降,这会限制基于MTL的推荐系统在实际应用场景中的使用。受大型语言模型近期进展的启发,我们开发了一个端到端高效且可扩展的通用推荐器(GRec)。GRec通过利用NLP头部、并行Transformer以及宽深结构来处理多模态输入。这些输入随后通过一个新的任务-句子级别路由机制结合并输入模型,从而在不牺牲性能的情况下增强模型在多个任务上的能力。离线评估和在线实验表明,GRec显著优于我们之前的各种推荐解决方案。GRec已在一家最大的电信网站和应用程序中成功部署,每天有效地管理着大量的在线流量。
arXiv:2504.05317v1 类型: cross
摘要:问答(QA)占了在实际使用中大规模语言模型(LLM)使用量的重要部分。然而,LLM 有时会产生虚假或误导性的响应,也就是所谓的“幻觉”。因此,将生成的答案与提供的上下文信息联系起来——即为生成的文本提供证据——对于提升LLM的可信度至关重要。提供这些信息是上下文归因的任务。在本文中,我们系统地研究了基于LLM的上下文归因方法,具体而言,我们探讨了(i)零-shot推理,(ii)LLM集成,以及(iii)在由较大LLM生成的合成数据上微调小型LM。我们的重要贡献是SynQA:一种新颖的合成策略,用于生成上下文归因数据。给定选择的上下文句子,LLM生成由这些句子支持的QA对。这种方法利用了LLM在文本生成方面的自然优势,同时确保合成训练数据中的归因路径清晰。我们展示了通过SynQA合成的归因数据对不同QA任务和领域的小型LM进行微调时具有高度有效性。最后,通过用户研究,我们验证了在上下文归因中使用在SynQA生成的合成数据上微调的小型LM的有效性。
arXiv:2504.05316v1 类型: cross
摘要: 组合图像检索(CIR)旨在使用参考图像和修改文本的组合作为查询来搜索感兴趣的图像。尽管最近取得了进展,但由于训练数据有限和三元组标注过程繁琐,这一任务仍然具有挑战性。为了解决这个问题,本文提出合成训练三元组以增加CIR问题的训练资源。具体而言,我们首先利用大规模多模态模型训练一个修改文本生成器,并在整个预训练和微调阶段逐步扩大CIR的学习规模。在预训练阶段,我们利用训练好的生成器直接根据图像对生成面向修改文本的合成三元组(MTST)。在微调阶段,我们首先合成反向修改文本以将目标图像与参考图像连接起来。随后,我们设计了一种两步对齐策略,逐步缩小多模态对和目标图像之间的语义差距。我们首先通过循环方式利用原始三元组及其反向版本学习隐式原型,随后将隐式原型特征与修改文本相结合,以促进与目标图像的准确对齐。广泛实验验证了生成三元组的有效性,并确认我们提出的方法在CIRR和FashionIQ基准上取得了竞争力的召回率。
arXiv:2504.05314v1 项类型: cross
摘要: 生成式推荐已经发展成为一种有前景的范式,旨在直接生成目标候选者的标识符。大多数现有方法试图利用预训练语言模型(PLMs)中嵌入的先验知识来提高推荐性能。然而,他们往往无法适应PLMs的通用语言知识与推荐系统特定需求之间的差异。此外,它们很少考虑项目多模态信息之间的互补知识,这些信息代表了用户多方面的偏好。为了促进有效的推荐知识迁移,我们提出了一种名为多模态定量语言用于生成式推荐(MQL4GRec)的新型方法。我们的主要思想是将来自不同领域和模态的项目转换为一种统一的语言,这种语言可以作为推荐知识转移的桥梁。具体来说,我们首先引入定量翻译器,将不同领域项目的文本和图像内容转换为一种新的简洁语言,这种语言称为定量语言,所有项目共享相同的词汇。然后,我们设计了一系列定量语言生成任务,以此丰富定量语言的语义信息和先验知识。最后,我们通过预训练和微调,实现了来自不同领域和模态的推荐知识向推荐任务的转移。通过广泛的实验和与现有方法的比较,我们评估了MQL4GRec的有效性,并在三个不同数据集上分别以11.18%,14.82%和7.95%的NDCG指标改进了基线方法。