arXiv 论文列表

AutoBench-V：大型视觉-语言模型能自我 benchmark 吗？

作者: Han Bao, Yue Huang, Yanbo Wang, Jiayi Ye, Xiangqi Wang, Xiuying Chen, Yue Zhao, Tianyi Zhou, Mohamed Elhoseiny, Xiangliang Zhang

arXiv:2410.21259v3 宣告类型: replace-cross 摘要：大型视觉-语言模型（LVLMs）已成为推动视觉和语言信息集成的关键。然而，评估LVLMs面临着重大挑战，因为评估基准总是需要大量的人力成本来构建，并且一旦构建完成就缺乏灵活性。尽管在文本模态中已经探索了自动评估，但在视觉模态中仍然存在不足。因此，在本文中，我们回答了一个问题：“LVLMs本身是否可以在视觉自动领域中相互作为基准？”我们介绍了AutoBench-V，这是一个自动化的评估框架，可以根据特定的模型能力方面提供按需评估，即基于特定方面对LVLMs进行基准测试。AutoBench-V 利用文本到图像模型生成相关图像样本，然后利用LVLMs来协调视觉问答（VQA）任务，从而高效灵活地完成评估过程。通过针对五种所需用户输入（即评估能力）对九个流行的LVLMs进行全面评估，该框架显示了其有效性和可靠性。

发布时间: 2/4/2025

查看原文

TurboHopp：一致性模型加速分子骨架跳跃

作者: Kiwoong Yoo, Owen Oertell, Junhyun Lee, Sanghoon Lee, Jaewoo Kang

arXiv:2410.20660v2 宣布类型: replace-cross 摘要：在药物发现中导航可成药化合物的庞大化学空间是一项艰巨的挑战，其中生成模型越来越多地被用于识别可行的候选物。考虑复杂三维相互作用和分子几何结构的基于条件三维结构的药物设计（3D-SBDD）模型尤为有前景。骨架跳跃是一种有效的策略，通过有选择地修改分子的核心结构，来识别相似的活性化合物，从而有效缩小化学空间范围，提高药物类似物的发现效率。然而，3D-SBDD生成模型的实际应用受到了其缓慢处理速度的阻碍。为了解决这一瓶颈，我们引入了TurboHopp，这是一种加速的口袋条件三维骨架跳跃模型，它将传统骨架跳跃的战略效用与一致性模型的快速生成能力相结合。这种协同作用不仅提高了效率，还显著提高了生成速度，比现有的基于扩散的模型快了多达30倍，同时生成质量 superior，确立了TurboHopp作为药物发现的强大工具地位。通过更快的推理速度的支持，我们进一步优化了我们的模型，采用一致性模型的增强学习（RLCM），以输出理想的分子。我们展示了TurboHopp在多个药物发现场景中的广泛适用性，突显了其在各种分子环境中的潜力。

发布时间: 2/4/2025

查看原文

面向生存预测的条件分布校准研究

作者: Shi-ang Qi, Yakun Yu, Russell Greiner

arXiv:2410.20579v2 宣告类型: replace-cross 摘要: 生存预测通常涉及从截尾数据集中估计事件时间分布。之前的 접근方法主要集中在提高区分能力和边际校准。在本文中，我们强调了条件校准在实际应用中的重要性——特别是在个人决策中的作用。我们提出了一种基于形变预测的方法，该方法使用模型在该时刻观察到的时间下预测的个体生存概率。该方法有效地改善了模型的边际校准和条件校准，而不会牺牲区分能力。我们为边际校准和条件校准提供了渐近理论保证，并在15个不同的真实世界数据集中进行了广泛的测试，证明了该方法在各种环境下的实际有效性和 versatility。

发布时间: 2/4/2025

查看原文

多视角生物医学基础模型用于分子-靶标和性质预测

作者: Parthasarathy Suryanarayanan, Yunguang Qiu, Shreyans Sethi, Diwakar Mahajan, Hongyang Li, Yuxin Yang, Elif Eyigoz, Aldo Guzman Saenz, Daniel E. Platt, Timothy H. Rumbell, Kenney Ng, Sanjoy Dey, Myson Burch, Bum Chul Kwon, Pablo Meyer, Feixiong Cheng, Jianying Hu, Joseph A. Morrone

arXiv:2410.19704v3 宣告类型: replace-cross 摘要：基础模型应用于生物分子空间有望加速药物发现。分子表示对于构建此类模型至关重要。前期工作通常侧重于单一的分子表示或视角。在这里，我们开发了一种多视图基础模型方法，该方法将图形、图像和文本的分子视图整合起来。单一视图的基础模型分别在多达2000万分子的数据集上进行预训练，然后组合生成综合表示。我们的多视图模型在18项不同任务上进行了验证，涵盖了配体-蛋白质结合、分子溶解性、代谢和毒性。我们展示了多视图模型的稳健性能，并且能够平衡特定视图的强项和弱项。然后，我们应用该模型对大型（超过100个靶标）G蛋白耦合受体（GPCRs）的化合物进行筛选。从这一靶标库中，我们识别出33个与阿尔茨海默病相关的靶标。在这一子集中，我们利用我们的模型识别强结合物，并通过基于结构的建模和关键结合模式的识别进行了验证。

发布时间: 2/4/2025

查看原文

图 fusion：全球视角下的知识图谱构建 RAG 框架

作者: Rui Yang, Boming Yang, Aosong Feng, Sixun Ouyang, Moritz Blum, Tianwei She, Yuang Jiang, Freddy Lecue, Jinghui Lu, Irene Li

arXiv:2410.17600v2 公告类型: 替换-交叉摘要：知识图谱（KGs）在人工智能领域至关重要，并且广泛应用于下游任务，如问答（QA）。知识图谱的构建通常需要领域专家的巨大努力。大规模语言模型（LLMs）最近被用于知识图谱构建（KGC）。然而，大多数现有方法主要侧重于局部视角，从单独的句子或文档中提取知识三元组，而忽略了将知识融合到全局知识图谱中的融合过程。本文引入了Graphusion，这是一种基于自由文本的零样本KGC框架。它包含三个步骤：在第一步中，我们使用主题建模提取种子实体列表，以指导最终知识图谱包含最相关的实体；在第二步中，我们使用LLMs进行候选三元组提取；在第三步中，我们设计了一个新颖的融合模块，为提取的知识提供全局视图，包括实体合并、冲突解决和新三元组发现。结果显示，Graphusion在实体提取和关系识别方面的得分分别为2.92和2.37（满分为3分）。此外，我们展示了如何将Graphusion应用于自然语言处理（NLP）领域，并在其教育场景中进行了验证。具体来说，我们引入了TutorQA，这是一种新的专家验证基准，包含六个任务和总共1200个问答对。使用Graphusion构建的知识图谱，我们在基准测试中取得了显著改进，例如在子图完成任务上的准确率提高了9.2%。

发布时间: 2/4/2025

查看原文

通过联合硬件-工作负载协同优化实现高效IMC加速器设计

作者: Olga Krestinskaya, Mohammed E. Fouda, Ahmed Eltawil, Khaled N. Salama

arXiv:2410.16759v2 公告类型: 替换-交叉摘要: 设计能够高效支持多种工作负载的一体化内存计算(IMC)硬件需要对大量设计方案进行探索，这 manual 实施起来是不切实际的。单独为每个工作负载优化硬件或仅针对最大的工作负载往往不能获得最高效的通用解决方案。为了解决这一问题，我们提出了一种联合硬件-工作负载优化框架，以识别优化的IMC芯片架构参数，从而实现更高效、负载灵活的硬件。我们展示了联合优化在分别针对VGG16、ResNet18、AlexNet和MobileNetV3的工作负载时，分别在能源-延迟-面积指标上比单独针对单个最大工作负载优化的架构参数搜索高出36%、36%、20%和69%。此外，我们量化了联合优化得到的通用IMC硬件与针对特定工作负载设计的IMC硬件之间的性能权衡和损失。

发布时间: 2/4/2025

查看原文

GUIDEd 代理：通过局部化受限环境中的任务特定不确定性抽象增强导航策略

作者: Gokul Puthumanaillam, Paulo Padrao, Jose Fuentes, Leonardo Bobadilla, Melkior Ornik

arXiv:2410.15178v3 宣告类型: replace-cross 摘要：自主车辆在复杂环境中执行导航任务面临重大挑战，由于状态估计中的不确定性。在许多场景中，如隐蔽操作或资源受限的设置中，获取高精度定位的成本很高，迫使机器人主要依赖较低精度的状态估计。我们的关键观察是，不同的任务在不同的区域需要不同程度的精度：一个在拥挤空间中导航的机器人可能需要在障碍物附近精确的定位，但在其他地方可以有效地工作在较低精度下。在本文中，我们将提出一种规划方法，将任务特定的不确定性要求直接整合进导航策略中。我们引入了任务特定不确定性图（TSUMs），它跨越不同区域抽象出可接受的状态估计不确定性水平。TSUMs 使用共享表示空间将任务需求和环境特征对齐，该空间通过领域适配编码器生成。使用 TSUMs，我们提出了综合决策和执行中的不确定性（GUIDE）泛化不确定性整合策略框架，将这些不确定性要求整合进机器人的决策中。我们发现，TSUMs 提供了一种有效的方法来抽象任务特定的不确定性要求，并基于 TSUMs 调整策略使机器人能够根据上下文条件考虑不确定性价值并相应地调整其行为。我们展示了将 GUIDE 整合到强化学习框架中如何使代理能够在没有显式奖励工程的情况下学习平衡任务完成和不确定性管理的导航策略。我们对各种实际机器人导航任务进行了 EVALUATION，发现与那些没有明确考虑任务特定不确定性基线方法相比，GUIDE 显示出显著提高的任务完成率。

发布时间: 2/4/2025

查看原文

当大语言模型上线：网页启用的大语言模型 emerging威胁

作者: Hanna Kim, Minkyoo Song, Seung Ho Na, Seungwon Shin, Kimin Lee

arXiv:2410.14569v3 宣告类型: replace-cross 摘要：近期大型语言模型（LLMs）的发展已经确立了它们作为能够进行计划和与各种工具交互的自主系统的优势地位。这些LLM代理通常与基于网络的工具配对，以访问多样化的来源和实时信息。尽管这些进展在各种应用中提供了显著的利益，但也增加了恶意利用的风险，尤其是在涉及个人信息的网络攻击中。在此项工作中，我们研究了在涉及个人数据的网络攻击中滥用LLM代理的风险。具体而言，我们旨在理解：1) 当指示LLM代理开展网络攻击时，它们多么具有潜在的危害性，2) 基于网络的工具如何增强网络攻击，3) 利用LLM代理发起网络攻击变得多么经济实惠和容易。我们研究了三种攻击场景：个人可识别信息（PII）的收集、冒名帖子的生成以及针对特定个人的网络钓鱼邮件的创建。我们的实验揭示了LLM代理在这些攻击中的有效性：LLM代理在收集PII方面的精准度高达95.9%，生成的冒名帖子中有93.9%被认定为真实的，以及在针对特定个人的网络钓鱼邮件中增加了46.67%的点击率。此外，我们的发现强调了现有防护措施在当代商用语言模型中的局限性，突显了迫切需要采取 robust的安全措施以防止滥用LLM代理的必要性。

发布时间: 2/4/2025

查看原文

基于知识的社会媒体误信息检测注释者可靠性评估与样本加权

作者: Owen Cook, Charlie Grimshaw, Ben Wu, Sophie Dillon, Jack Hicks, Luke Jones, Thomas Smith, Matyas Szert, Xingyi Song

arXiv:2410.14515v2 通知类型: replace-cross 摘要：虚假信息在社交媒体上迅速传播，混淆了真相，针对潜在的易受伤害人群。为了有效减轻虚假信息的负面影响，必须首先准确检测虚假信息，然后才可应用缓解策略，如X的社区笔记，目前这一过程是手动进行的。本研究采用了基于知识的方法来检测虚假信息，将问题建模为自然语言推理问题类似。介绍了EffiARA注释框架，旨在利用注释者之间和注释者内部的一致性来理解每个注释者的可靠性，并影响基于注释者可靠性的大型语言模型分类训练。在评估EffiARA注释框架时，开发并公开发布了俄罗斯-乌克兰冲突知识型虚假信息分类数据集（RUC-MCD）。研究发现，使用注释者可靠性的样本加权效果最佳，利用了注释者之间和内部一致性以及软标签训练。使用Llama-3.2-1B进行分类时，宏F1得分为0.757，使用TwHIN-BERT-large时得分为0.740。

发布时间: 2/4/2025

查看原文

NSmark: 基于Null空间的黑盒水印防御框架 for 语言模型

作者: Haodong Zhao, Jinming Hu, Peixuan Li, Fangqi Li, Jinrui Sha, Tianjie Ju, Peixuan Chen, Zhuosheng Zhang, Gongshen Liu

arXiv:2410.13907v2 宣告类型: replace-cross 摘要：语言模型（LMs）已成为急需保护的重要知识产权（IP）资产。尽管已经提出了各种水印策略，但它们仍然容易受到线性功能等价攻击（LFEA）的攻击，这种攻击可以在不了解水印方案或训练数据的情况下无效化大多数现有的白盒水印。本文分析并扩展了LFEA的攻击场景，将其应用于语言模型中常用的黑盒设置，考虑了最后一层输出（称为LL-LFEA）。我们发现输出矩阵的零空间对LL-LFEA攻击保持不变。基于这一发现，我们提出了一个任务无关的黑盒水印方案NSmark，能够抵抗LL-LFEA攻击。NSmark包括三个阶段：(i) 使用所有者数字签名生成水印，通过扩展的频谱扩展调制提高鲁棒性；(ii) 通过保持语言模型性能的同时最大化水印容量的输出映射提取器嵌入水印；(iii) 通过提取率和零空间一致性进行水印验证。对预训练和下游任务的广泛实验证实了我们方法的有效性、可扩展性、可靠性、准确性和鲁棒性。代码可在 https://github.com/dongdongzhaoUP/NSmark 获取。

发布时间: 2/4/2025

查看原文