材料科学的多模态大语言模型

计算材料学 2026-05-07 19:21

文章摘要

背景：传统材料计算方法（如DFT）精度高但成本昂贵，难以高通量筛选；而现有图模型虽擅长性质预测，但缺乏文本理解与交互能力；大语言模型虽能处理语言，却无法理解三维原子结构。研究目的：本文提出MatterChat，一种面向材料科学的多模态大语言模型，旨在通过桥接预训练的材料图编码器（如CHGNet、MACE）与大语言模型（Mistral 7B），统一处理晶体结构数据和自然语言文本，以实现准确的材料性质预测和高效的人机交互。结论：MatterChat在142,899个晶体结构上训练，仅通过训练轻量级桥接模型（基于BLIP2的多层Transformer），在金属性、带隙、形成能等九项性质预测任务上显著优于开源大语言模型(Vicuna、Mistral)和物理模型(SchNet、CHGNet、MACE)。该模型还能进行高级科学推理，如解释结构稳定性、生成合成方案，并通过多模态检索增强生成（RAG）进一步提升了鲁棒性。嵌入可视化表明桥接模型有效保留了结构-性质信息。研究认为，MatterChat的模块化设计兼顾了性能与灵活性，但未来仍需加强图结构的语义理解、多步推理能力以及减少语言模型的幻觉问题。