arXiv:2412.03104v3 宣告类型:替换
摘要:理解时间序列数据在实际应用场景中至关重要。最近,大型语言模型(LLMs)越来越被应用于时间序列任务,利用它们强大的语言能力来增强各种应用。然而,对于时间序列理解和推理解析的多模态LLMs(MLLMs)的研究仍然有限,主要是由于缺乏能够将时间序列与文本信息对齐的高质量数据集。本文介绍了ChatTS,一种专门用于时间序列分析的新型MLLM。ChatTS 将时间序列视为一种模态,类似于视觉MLLM处理图像的方式,使其能够进行时间和序列的理解与推理解析。为了解决训练数据稀缺性问题,我们提出了一种基于属性的方法,用于生成带有详细属性描述的合成时间序列。此外,我们引入了Time Series Evol-Instruct,这是一种新颖的方法,用于生成多样化的时序问答,增强模型的推理解析能力。据我们所知,ChatTS 是第一个接受多变量时间序列作为输入,用于理解和推理的TS-MLLM,并且仅在合成数据集上进行了专门的微调。我们使用包含实际数据的基准数据集对该模型进行了评估,包括六个对齐任务和四个推理任务。我们的结果显示,ChatTS 显著优于现有的基于视觉的MLLM(如GPT-4o)和基于文本/代理的LLM,在对齐任务中实现了46.0%的改进,在推理任务中实现了25.8%的改进。我们已在https://github.com/NetManAIOps/ChatTS 开放了源代码、模型检查点和数据集。
arXiv:2411.17404v3 宣告类型: 替换
摘要: 大型语言模型(LLMs)展现出高级的推理能力,能够将自然语言问题转化为数学模型。然而,现有开源的运营研究领域数据集在标注建模过程方面存在不足,如变量定义等,仅关注目标值,这阻碍了强化学习的应用。为解决这一问题,我们发布了StructuredOR数据集,该数据集标注了全面的标签,涵盖了完整的数学建模过程。我们还提出了BPP-Search算法,该算法利用Beam搜索结构、Process奖赏模型以及成对偏好算法将强化学习整合到基于树的思想结构中。这种方法能够高效探索树结构,避免穷尽搜索,同时提高准确性。在StructuredOR、NL4OPT和MAMO-ComplexLP数据集上的广泛实验表明,BPP-Search在性能上显著优于当前最先进的方法。在基于树的推理中,BPP-Search在准确性和效率方面表现出色,能够更快地检索到正确解。StructuredOR数据集可以在https://github.com/tengwang0318/StructuredOR获取。
arXiv:2410.09080v2 社会决定因素类型: 更新
摘要:越来越多的证据表明,社会决定因素(SDoH)这一组非医学因素会影响个体发展阿尔茨海默病(AD)及相关痴呆症的风险。然而,这种关系的病因机制仍然不清楚,主要是由于难以收集相关的信息。本研究提出了一种新的自动化框架,利用大型语言模型(LLM)和自然语言处理技术,从广泛的文献中挖掘SDoH知识,并将其与从通用知识图PrimeKG中提取的AD相关生物实体结合起来。使用图神经网络,我们执行链接预测任务以评估结果的SDoH增强知识图。我们的框架有望增强AD的知识发现,并可以推广到其他SDoH相关研究领域,提供一种探索社会决定因素对健康结果影响的新工具。我们的代码可在以下链接获取:https://github.com/hwq0726/SDoHenPKG
arXiv:2211.04509v2 宣告类型:替换
摘要:慢性疾病管理中的健康传感为社会福利带来了巨大的益处。现有的健康传感研究主要集中在对身体慢性疾病的预测上。然而,慢性疾病常见的并发症——抑郁症——却缺乏足够的研究。我们通过医学文献支持使用动传感器数据进行抑郁症检测。为了在这一决策过程中连接人类、保护信任并确保算法的透明度,我们开发了一种可解释的深度学习模型:时间原型网络(TempPNet)。TempPNet 基于新兴的原型学习模型构建。为了适应传感器数据的时间特征以及抑郁症的渐进性质,TempPNet 在捕捉原型的时间演变方面不同于现有的原型学习模型。使用真实世界的运动传感器数据进行广泛的经验分析显示,TempPNet 在抑郁症检测中优于最先进的基准模型。此外,TempPNet 通过可视化传感器数据中检测到的抑郁症及其相应的症状时间演变来解释其决策。我们进一步通过用户研究和医疗专家小组证明了与基准模型相比其在可解释性方面的优越性。本研究提供了一种算法解决方案,用于在健康传感中进行慢性疾病和抑郁症的协作护理。在方法论上,该研究为来自传感器数据的抑郁症检测贡献了一种新的可解释的深度学习模型。患者、医生和护理人员可以将我们的模型部署在移动设备上,以实时监控患者的抑郁症风险。我们的模型的可解释性还允许人类专家通过审查解释和作出知情干预来参与决策过程。
arXiv:2504.12292v1 声明类型: cross
摘要:从单目图像和视频中实时准确地重建人体头部是众多视觉应用的基础。由于大规模的真实三维数据难以获取,之前的方法试图以半监督的方式学习大量可用的二维视频数据。通常,这涉及使用可微网格渲染,尽管其效果较好,但也存在局限性。为改进这一方法,我们提出了SHeaP(Self-supervised Head Geometry Predictor Learned via 2D Gaussians)方法。给定一个源图像,我们预测一个3DMM网格和一组与该网格绑定的高斯分布。然后,我们重新动画化这个绑定的头部avatar,使其匹配目标帧,并以光度损失反向传播来优化3DMM和高斯分布预测网络。我们发现,使用高斯分布进行渲染显著提高了这种半监督方法的有效性。仅使用2D数据进行训练,我们的方法在NoW基准(针对中性面部)和一个新基准(针对非中性表达)上的几何评估中均超过了现有的半监督方法。我们的方法还能生成高度表达性的网格,优于当前最先进的表情分类方法。
arXiv:2504.12284v1 Announce Type: 交叉
摘要:我们解决了一个新颖的问题,即给定单个RGB视图、动作文本以及物体上的3D接触点作为输入,预测3D手部运动和接触图(或交互轨迹)。我们的方法包括:(1) 交互码本:一种VQVAE模型,用于学习手部姿态和接触点的潜在码本,有效地对交互轨迹进行标记化;(2) 交互预测器:一种通过索引模块从学习到的码本中检索潜在可用性来预测测试时输入的交互轨迹的变压器-解码器模块。为了训练我们的模型,我们开发了一个数据引擎,从多样的HoloAssist数据集中提取3D手部姿态和接触轨迹。我们将在物体和交互观察多样性方面比现有工作大2.5-10倍的基准上评估我们的模型,并测试模型在不同物体类别、动作类别、任务和场景中的泛化能力。实验结果表明,我们的方法在所有设置中都优于变压器和扩散基线方法。
arXiv:2504.12268v1 文心一言类型: 交叉学科
摘要: 大型语言模型(LLM)训练和推理的快速扩展推动了其在学术界和工业界的半导体设计中的应用。尽管大多数先前的工作在硬件描述语言(HDL)任务上评估LLM,尤其是Verilog,设计师越来越多地使用高层次综合(HLS)来构建领域特定加速器和复杂硬件系统。然而,用于评估LLM的HLS设计任务的基准和工具仍然稀缺。
为了解决这个问题,我们介绍了HLS-Eval,这是首个用于LLM驱动HLS设计的完整基准和评估框架。HLS-Eval针对两个核心任务:(1) 从自然语言描述生成HLS代码,(2) 执行特定于HLS的代码编辑以优化性能和硬件效率。基准包括94个独一无二的设计,这些设计来自标准HLS基准和新颖的来源。每个案例通过半自动流程生成自然语言描述和配对的测试台,用于C模拟和综合验证,确保每个任务都是“LLM准备好”的。
除了基准之外,HLS-Eval还提供了一个模块化的Python框架,用于自动化并行评估本地和托管的LLM。该框架包括并行评估引擎、直接HLS工具集成以及支持不同LLM交互范式的抽象,从而能够快速原型化新的基准、任务和LLM方法。
我们通过在Vitis HLS上对开源LLM进行基线评估来演示HLS-Eval,跨四个关键指标(可解析性、可编译性、可运行性和可综合性)测量输出,反应了HLS设计的迭代周期。我们还报告了pass@k指标,为更广泛的LLM-for-hardware社区建立了清晰的基线和可重用的基础设施。
所有基准、框架代码和结果均可在https://github.com/stefanpie/hls-eval开源。
arXiv:2504.12262v1 类别: cross
摘要: 空间时间学习由于空间依赖性和时间依赖性的复杂相互作用、数据的高维性和扩展性约束而具有挑战性。在科学领域,这些挑战进一步加剧,因为数据往往分布不规则(例如,由于传感器故障导致的缺失值)且数据量大(例如,高保真模拟),这带来了额外的计算和建模难题。在本文中,我们提出了SCENT,一种新型的可扩展且考虑连续性的时空表示学习框架。SCENT将插值、重构和预测统一在一个架构中。基于基于变压器的编码器-处理器-解码器基础架构,SCENT引入可学习的查询以增强泛化能力和基于查询的交叉注意力机制以有效捕捉多尺度依赖性。为了确保在数据规模和模型复杂性方面的可扩展性,我们整合了稀疏注意力机制,这使得输出表示更加灵活,并且可以在任意分辨率下进行高效评估。通过广泛的模拟和实际实验,我们验证了SCENT,展示了其在多个具有挑战性的任务中达到了最先进的性能,同时实现了更好的可扩展性。
arXiv:2504.12256v1 宣布类型:交叉
摘要:在过去几年中,人工智能(AI)的进展已经展示了AI如何解决许多感知和生成任务的能力,例如图像分类和文本写作,然而推理仍然是一个挑战。本文引入了FLIP数据集,这是一个基于Idena区块链上的人工验证任务来评估AI推理能力的基准。FLIP挑战要求用户选择四个图像的两种排序中逻辑连贯的一种。通过强调顺序推理、视觉故事讲述和常识,FLIP为多模态AI系统提供了独特的测试平台。我们的实验评估了最新的模型,利用了视觉-语言模型(VLMs)和大规模语言模型(LLMs)。结果表明,即使是最先进的开源和封闭源模型,在零样本设置下分别达到75.5%和77.9%的最大准确率,而人类的表现为95.3%。图像描述模型通过提供图像的文本描述来辅助推理模型,从而比直接使用原始图像获得了更好的结果,Gemini 1.5 Pro的准确率为69.6%比75.2%。将15个模型的预测进行集成,准确率提高到85.2%。这些发现突显了现有推理模型的局限性,并强调了像FLIP这样稳健的多模态基准的必要性。完整的代码库和数据集将可在 https://github.com/aplesner/FLIP-Reasoning-Challenge 获取。
arXiv:2504.12215v1 Announce Type: cross
摘要:在胸腔计算机断层扫描(CT)中可靠地分割肿瘤仍然是具有挑战性的,原因是边界模糊性、类别不平衡和解剖变异。我们提出了一种不确定性引导的、从粗略到精细的分割框架,该框架结合了全体积肿瘤定位与细化的感兴趣区域(ROI)分割,并通过解剖意识后处理加以增强。第一阶段模型生成粗略预测,随后基于肺重叠、与肺表面的距离以及组件大小进行解剖意识筛选。第二阶段模型的结果ROI通过使用不确定性意识损失函数进行训练,以提高不确定区域的准确性和边界校准。在私有和公开数据集上的实验显示了Dice和Hausdorff评分的改进,同时减少了假阳性,并增强了空间可解释性。这些结果突出了在级联分割流水线中结合不确定性建模和解剖先验的价值,以实现稳健且具有临床意义的肿瘤轮廓。在奥兰多数据集上,我们的框架将Swin UNETR的Dice值从0.4690提高到0.6447。假组件数量的减少与分割性能的提升强烈相关,强调了解剖意识后处理的价值。