川观智库研究员 黄爱林
本月初,继OpenAI发布医疗开源大模型后,百川智能也发布了第二款医疗增强大模型Baichuan-M2,并迅速反超OpenAI。医疗大模型的价值凸显,正成为科技巨头争抢的重要赛道。蚂蚁集团研究院与中国信通院联合发布的《人工智能大模型在医疗健康领域发展态势研究报告》(下简称“报告”)指出,基础层数据问题正成为医疗大模型发展的最大瓶颈,高质量数据短缺与“孤岛效应”,让医疗大模型陷入“无米之炊”的困境。
中国医疗大模型的规模迅速扩张。毕马威指出,据不完全统计,在全球范围内已发布的医疗大模型里中国发布数量占比超70%,其中按模型类别来看,大语言模型数量最多占比近65%。报告显示,截至2025年5月1日,我国新发布医疗大模型133个,远超2024年全年的94个、2023年全年的61个。同时,根据亿欧智库数据,2025年医疗大模型市场规模接近20亿元,在行业爆发期间,预计以高达140%的年平均增长率扩张,于2028年突破百亿元。
尽管规模在迅速扩张,医疗大模型仍在技术上深陷双重困境。首先是医疗模型在学习阶段面临“数据贫瘠与知识鸿沟”挑战。高度专业化的医疗任务需要特定知识支撑,但高质量、覆盖全疾病谱系的标注数据集极其匮乏。主要因为标准化缺失,各级医疗机构数据编码、字段命名混乱;质量参差不齐,病历、影像等非结构化数据存在大量缺失、重复和人工录入错误;标注成本高昂,专业医学标注需临床专家参与,罕见病、复杂病例数据尤为稀缺。而且这些数据来源往往单一(比如主要来自大城市大医院),导致医疗大模型到了小医院或者面对不同人群就容易“蒙圈”,诊断可能不靠谱。
即使模型训练好了,部署落地仍面临“算力饥渴与系统孤岛”的阻碍。一方面,训练和运行需要巨额算力投入,推理速度难以满足临床实时需求,庞大的模型和硬件要求令基层医院望而却步;另一方面,缺乏统一标准的医疗信息系统(如HIS/EMR)形成孤岛,换言之医疗大模型更像一个“外来户”,和医院既有的老系统完全“语言不通”,难以直接融合。而大模型与医院系统集成需要大量定制开发,成本高昂且复杂,严重阻碍了其融入实际诊疗流程。这些困境相互交织,共同制约着医疗大模型从规模扩张迈向真正的临床应用和价值释放。
【未经授权,严禁转载!联系电话028-86968276】
