首页 >
/ 发展成果 / 智库观点
>文章详情

焦点睿研|构建开源模型创新生态,打造国际人工智能开源创新高地

信息来源:省工信院 | 发布时间:2025-06-20 09:38:06

开源模型是指模型参数、源代码、训练数据和技术文档公开的AI模型,具有开放性、可访问性、可扩展性、低成本等特点。岁末年初,杭州初创公司深度求索(DeepSeek)发布的V3、R1两款模型以MIT协议(允许免费商用和二次开发)开源,凭借成本性能优势,让更多的国家和企业参与到AI竞争中,影响全球AI产业格局。2025年4月底,阿里云通义千问Qwen3在Hugging Face总榜登顶,多版本性能碾压Llama 4。全球人工智能竞赛迎来“Linux时刻”,开源模型的“飞轮效应”和“乘数效应”开始显现。


一、巩固开源模型先发优势,构建创新生态成为当务之急


开源模型创新生态是“站在巨人肩膀”的创新,对于发展人工智能产业、形成新质生产力意义重大。


一是开源模型是引领人工智能发展、赋能百行千业万众创新的关键基石。开源成为AI模型开发重要技术路线,让模型正从大厂和实验室的“寡头游戏”走向“全民共创”,坚持走闭源路线的百度于2月14日提出开源计划,中小企业、创业者、个体工作者纷纷主动拥抱大模型。IDC预测,2025年55%的组织将通过开源模型开发应用。开源模型也是推动行业数智化转型的关键动力,能够显著降低技术门槛、提高创新速度,AlphaFold3在预测药物分子与蛋白质的相互作用方面提升准确率约50%、全面加速药物研发。


二是开源模型是我国人工智能从跟跑并跑到领跑、赢得竞争主动权的重要路径。我国在开源领域的话语权逐步提升,据GitHub统计,我国开发者活跃率全球第一,开源项目数量全球第二。阿里云、DeepSeek等企业主动探索“开源模式”参与国际竞争合作,既拓宽发展渠道、又确保技术路线主导权,形成以需求为导向的技术演进范式,比闭源模型更具创新活力、更普惠易用。据统计,全球TOP 50大模型中有37个选择开源,开源社区贡献的优化方案使模型推理效率平均提升42%。发展开源模型将成为我国推动人工智能、提升国际话语权和规则制定权的制胜一招。


三是打造国际开源模型创新高地是巩固我国开源先发优势、构建开源模型创新生态的战略抓手。未来的AI发展规则将不再由单一国家主导,但仍然需要一个AI时代的“赫尔辛基”,通过线上线下联动,打造一个具有国际影响力的人工智能开源创新高地,有利于聚合各国开源创新资源,建立合理的治理框架和规则、加速全球技术突破与创新合作、普及开源精神和文化,倡导发展“以人为本、智能向善”的人工智能,助力构建人类命运共同体。


二、在激流中更需认清实际,我国开源创新生态存在四方面差距


近年来,我国开源模型实力跃居全球第一梯队,拥有阿里魔搭、百度飞桨、华为AI Gallery、开源中国Gitee AI等开源社区,PaddlePaddle、MindSpore、Qwen-Agent等开源框架,阿里Qwen系列、深度求索DeepSeek系列、智谱GLM系列、腾讯Hunyuan等开源模型,Qwen成为全球最大的开源模型族群、衍生模型数量突破10万。在DeepSeek爆火出圈、影响全球AI发展格局的同时,我们仍需清醒认识到,与国外先进地区相比,我国开源模型创新生态仍存在短板需补齐。


一是开源文化普及不足。开源发展认识不够深,仅个别龙头企业对开源有系统性认识,开发者普遍存在“用的多、贡献少”现象,而模型开源并不是完全开放、模型开源也不等于随意使用,例如Meta的Llama 4系列仅为权重开放,商用需申请授权,且欧盟地区禁止使用或分发;近期发布的国内开源模型基本做到免费商用,但需严格遵守其许可证规定。开源社区规模不够大,Hugging Face作为全球最大的AI模型托管平台,月活跃用户100万,汇聚超100万个AI模型,相比之下,魔搭社区作为全球第二、国内最大的模型开源社区,汇聚超6.9万个AI模型,差距仍然巨大。开源影响力不够强,根据全球开源贡献与影响力Top 100榜单显示,我国在区域、企业、项目三个维度上的入选数量均显著低于美国。


二是开源模型基础不稳。整体创新能力仍需提升,发展大模型是一场“长跑”,DeepSeek在模型工程技术领域实现了“换道超车”,但模型的幻觉、“黑箱”等问题仍待解决,AI基础模型仍处于国际跟跑阶段。商业模式仍需明确,C端订阅制、B端API调用收费等国际主流盈利模式在国内开源环境下面临重构,智谱、月之暗面等模型新势力企业依赖融资输血,阿里的通义千问、字节跳动的豆包等多次降价,百度文心一言提出逐步开放免费服务以扩大用户基数,价格战成为行业现实,可持续盈利模式仍需探索。垂直模型赋能效应仍需激发,办公、教育、医疗、制造等各类垂直领域的应用场景潜能未充分挖掘,针对不同行业特点和需求的定制化服务仍在路上,研发成本对于中小企业依旧难以承担。


三是生态要素支撑不够。高质量数据集缺乏,我国在高质量数据方面仍相对薄弱,中文语料在全球数据中占比较小,标准化的数商较少,缺乏类似Snowflake、Databricks等“Data+AI”模式的数据基础设施供应商,数据市场产业化规模化尚待培育,制造、交通、教育、医疗等垂直行业模型对多维度、海量的训练数据有着迫切需求。模型人才亟待培养,模型人才结构性短缺问题突出,核心算法人才普遍紧缺,软件专业毕业生难以满足企业发展需求,2024年我国已有530多所高校开设人工智能专业,但缺乏实践环境,相关专业博士毕业生进入企业从事大模型开发工作仍需6—12个月适应期。金融资本支持不足,CB Insights数据显示,2024年我国AI初创企业筹集的资金仅52亿美元,占美国AI初创企业筹集资金763亿美元的7%。


四是安全防护有待夯实。网络安全风险陡增,数据投毒、后门植入、对抗攻击、数据泄露等模型安全威胁不断加剧,360《大模型安全漏洞报告》对多个开源项目进行代码梳理和风险评估后发现近40个大模型相关安全漏洞,DeepSeek-R1开源后遭受每秒超2.3亿次的DDoS攻击、攻击总量达到整个欧洲三天网络流量总和。技术滥用需要警惕,随着模型应用的不断丰富,模型滥用、恶意使用等现象开始出现,数据窃取和滥用、“AI换脸”类诈骗案等大模型犯罪开始出现。安全与发展仍需平衡,安全与发展的双重博弈在开源模型尤其突出,模型与智能体应用的爆发式增长对政策监管不断提出新挑战。


三、做好四个联动,构建开源模型创新生态


为抓住机遇,顺势而为,推动数据、算力、算法、场景应用、产业生态一体化发展,建议做好四个联动。


一是加强线上和线下联动,打造国际人工智能开源创新高地。打造产业地标,重点考虑杭州等地区,通过落地国际性大会、国际组织,争取国家开放原子开源基金会在杭州成立专业委员会,争取Linux基金会等国际开源组织设置分支机构,聚合国际国内相关资源,加快开源模型相关项目、开发者等进一步集聚。做大做强开源社区,加大对魔搭、鸿蒙、Gitee等开源社区支持,建设具有国际影响力的软件代码托管平台、技术协同开发平台等,大力发展面向大模型、工业软件、智能网联汽车等新兴领域的开源社区。推动开源教育科技人才一体化发展,通过地区试点,支持高校与开源模型社区、开源高贡献企业等共建开源人才培育体系,开设开源课程,培养开源商业人才。打造中国特色开源文化,谋划举办具有国际影响力的人工智能开源品牌活动,提升我国在人工智能开源领域话语权;结合产业地标建设,设立开源文化推广中心,讲述全球和中国开源文化,传播开源理念。


二是加强科技创新和产业创新联动,全面提升人工智能自主创新能力。突破关键技术,开源模型的快速推广应用,自顶向下推动“芯片—算力—模型”自主可控发展;建议支持国内重点AI芯片厂商与DeepSeek等模型企业合作,重点攻关GPU芯片、算力卡、高功率密度液冷服务器、算子库、编译器等关键技术,加快国产软硬件适配兼容,提升模型训练和推理效率。打造创新成果转化通路,建立“高校+平台+企业+产业链”的结对合作机制,组织实施人工智能应用攻关工程,建设高质量场景语料、开展开源模型攻关和应用验证、推广标准化应用产品,面向智能网联汽车、人形机器人、智能体等重点领域,加强开源模型应用成效和控制安全验证,提升软硬件适配能力。培育优质开源创新项目,依托社区和创新平台等,定期发布优质开源项目清单、解决方案清单,组织项目评价、供需对接,加速开源项目商业化,打造优秀示范项目和应用场景。


三是加强开源和闭源联动,推动人工智能应用场景落地。加强基础模型开源开放,语言大模型开源开放逐步成为主流,要在视觉、多模型等通用基础模型上进一步抢占开源高地地位,构建“技术底座—通用模型—行业模型—应用服务”的大模型供给体系。加大开发基于开源模型的闭源小模型和智能体应用,要充分发挥我国在制造业等领域的产业优势,以开源模型为工具,带动垂直行业模型技术和产品开发创新,形成一批适用的智能体应用及服务。培育开源模型应用新业态新模式,深入实施“人工智能+”行动,坚持需求导向,围绕制造、教育、医疗、金融、交通、城市治理等重点行业领域,建设一批具有辨识度的应用场景,加速推进大小模型落地应用,助力模型迭代升级。


四是加强国企和民企联动,助力数据算力算法协同发展。在数据算力上发挥国企的基础担当作用,按照普惠原则,引导国企构建满足中小企业算力需求的智算云平台,建立面向区域、服务中小企业的智算云网一体化服务体系,优化算力分配供给;支持国企牵头建设行业数据可信空间,联接多方主体,健全数据获取、清洗、确权、交易机制,建设行业高质量数据集,打造资源共享共用的数据流通基础设施。在知识算法上发挥民企的灵活开发作用,支持企业推动细分行业的经营管理原理、行业知识机理、专家经验等代码化算法化,加速知识、模型、算法、智能体应用开发。打造多方协同的耐心资本,政府性基金要发挥引领撬动作用,在完善投资共决机制和风险共担机制、尽职免责机制基础上,联动市场化基金完善“母基金+子基金+直投”的耐心资本运作模式,设置适应科创投资属性、市场规则的考核和激励机制,共同助力开源模型创新生态建设。建立多元共治的安全防护机制,引导国企民企、高校院所等多方联合,制定安全标准和规范,提升开源模型和应用的安全性和可信度。加强人工智能开源模型衍生产品知识产权保护,在数据、应用、模型、源代码等分类开展著作权、专利权等知识产权登记。