观韬视点 | 生成式AI发展与监管白皮书(一):新一轮人工智能革命下 中国如何讲述发展故事
白皮书出品团队:观韬中茂律师事务所X南财合规科技研究院
白皮书作者:王渝伟 杨欣如 周丹 钱雨晴 王俊 冯恋阁 郑雪 温泳珊 林婉娜 罗洛
编者按:自1956年“人工智能”的概念首次被提出已过60余年,此间,人工智能从虚化的代码逐渐转化成实践应用,催生出一批批商业故事。不过,人工智能规模化商用并非坦途,概念的火热一直以来未能助推技术突破与商业应用。
时间来到2022年,生成式AI发展为人工智能发展再注入一针强心剂。ChatGPT横空出世,被视为通用人工智能的起点和强人工智能的拐点,引发新一轮人工智能革命。人工智能发展似乎找到了自己的主流叙事。
不过,技术创新的同时也带来了监管难题。如何平衡发展与安全,中国正在摸索自己的AI治理路径。南财合规科技研究院与观韬中茂律师事务所推出《中国AI治理的独立思考——生成式人工智能发展与监管白皮书》,通过分析生成式AI的发展现状、政策导向、实操中面临的风险,以及各国的监管路径,以期为未来的AI治理提供有益思路。
2022年被认为是“生成式AI元年”,Dall-E2、Midjourney、Stable Diffusion等文生图应用的出现引起广泛关注;12月底,ChatGPT的横空出世更是使得生成式AI的风头一时无两。
自1956年概念的首次提出至今,人工智能技术已发展超60年。然而,时至今日,其仍未实现大规模应用。生成式AI的出现标志着人工智能进入了新纪元,机器开始能够模拟人类的创造性思维,并有望促进社会生产力的大幅跃进。
根据技术实现及应用路径,生成式AI可以细分为数据层、算力层、模型层和商业化应用层。数据层包括数据提供、数据分析以及标注等环节;算力层是AI训练的基础设施,包括数据中心、服务器,以及高性能的AI芯片;模型层位于生成式AI的中游,是生成式AI得以实现的关键环节;商业化应用层则涵盖文本、音频、图片、影片的生成等,是产业链的最下游,但也是AI能否大规模应用、能否真正创造价值的关键。
可以看到,2023年各类大模型井喷式爆发,上中下游产业链持续高涨,技术应用热潮席卷全球。
热潮之下,各国、地区对于AI规则的“军备竞赛”已然开始。当欧盟正试图通过专门的《人工智能法案》来展现他们对于生成式AI基于风险的治理思路时,中国在7月发布的《办法》则体现其对于生成式AI治理的不同思考。“发展”正逐渐成为中国AI治理的第一视角。
与此前的征求意见稿相比,《办法》有较大的思路调整,“坚持目标导向和问题导向”,单设了“技术发展与治理”章节,同时也新增了不少有力措施来鼓励生成式AI技术发展。
其背后所反映的,正是中国对于目前生成式AI发展、治理的独立思考。
本篇将分析目前中国生成式AI发展现状、面临的问题以及政策导向。
一、大模型“涌现” 百模大战上演
大模型是本轮生成式AI竞赛的杀手锏。各个科技公司加码大模型,上演“百模大战”。
《中国人工智能大模型地图研究报告》显示,截至今年5月28日,中国10亿参数规模以上的大模型已发布79个。而美国和中国就占全球已发布大模型总量的80%以上。
中国大模型不断涌现,既有实力雄厚的互联网平台企业:百度、阿里、华为等互联网公司发布 “文心一言”、 “通义千问”及华为盘古大模型等;也有人工智能新秀,比如澜舟科技的孟子GPT、智谱AI的ChatGLM、科大讯飞的星火大模型等。
一批高校、科研院所也相继入局,清华大学发布大模型GLM-130B、复旦大学则发布大语言模型MOSS;上海人工智能实验室发布天气预报大模型“风乌”、北京智源人工智能研究院发布“悟道3.0”等。
在教育和新能源汽车行业,一些企业选择布局与原有业务相适应的大模型。如网易有道为教育场景自研的类ChatGPT模型“子曰”,学而思的自研数学大模型MathGPT也预计在年内推出。新能源车企如理想汽车已经发布了自研MindGPT,将应用于车载AI助手“理想同学”,而蔚来、小鹏等车企也已在申请GPT商标。在医疗领域,上海联通、华山医院联合开发的Uni-talk、医联“MedGPT”、云知声的“山海”等也相继登场。
处于核心的模型层,目前可分为通用大模型和行业大模型。通用大模型能够处理多种任务和应用于不同领域,是资金、资源雄厚的科技巨头优选;行业大模型则是针对特定领域或任务进行优化设计的模型,基于自建模型或利用通用大模型,引入行业语料进行模型深度训练,以提升对特定行业/领域应用场景的支撑能力。
由于大模型在资金、算力、语料训练集等方面存在较高门槛,垂直大模型以其成本低,部署升级灵活的优势成为新赛道;不过,垂直大模型需要专门的、行业深度训练的数据以更贴合业务;还需更好地与企业内部知识库进行配合,才能做到实时迭代更新。
值得注意的是,大模型的门槛逐渐降低。近日,脸书母公司Meta宣布将推出开源大型语言模型Llama 2,可免费用于研究和商业用途。
开源为更多想要入局者提供了想象空间。开源平台和开源生态将助推大模型的快速迭代与落地应用,尤其是对于缺少算力和资金的中小企业而言,开源打开了一个充满机会的世界。
中国也在积极建设人工智能生态。科技部副部长吴朝晖在2023中关村论坛上表示,中国坚持开源协作,加强大模型技术持续创新,协同解决透明性、稳定性等共性问题,进一步推动算力资源和数字资源开放共享,加快形成大模型的产业生态。
二、商业化落地才能创造价值
大模型持续火热,业内更关心应用落地。只有让大模型与千行百业的具体业务场景结合,才能产生具体应用价值。
据南财合规科技研究院梳理发现,大模型技术比较热门的落地领域包括办公软件、社交文娱、商业营销、家庭助理和金融等。
这些领域内,少部分公司选择自主部署研发模型,更多的公司则选择接入较为成熟的大模型(类ChatGPT产品),以直接赋能其原有产品和服务。例如,在办公领域,微软Microsoft 365、字节飞书“My AI”、金山WPS等均宣布已接入大模型。社交文娱方向,出现了AI搜索引擎如微软必应、谷歌Magi,还有应用于游戏影视的英伟达AI智能游戏助手GeForceRTXR.O.N.、Adobe的Premiere Pro等。在家庭场景,AI也充当起家庭管家、私人家教、智能汽车助手,如阿里就率先将AI大模型接入了智能音箱天猫精灵。
在商业营销方向,多种类ChatGPT产品涵盖智能客服、推荐算法、虚拟人直播、广告策划等具体应用场景。类ChatGPT产品正在逐步渗透到生产和生活的各个环节。
可以看出,生成式AI的商业化应用第一类场景为提升生产工作效率的通用工具,通过生成式AI提升内容供给速度、降低内容创作门槛,从而使得人工资源能够更多地投入到高价值的工作及创作流程中,提升整体工作效率。第二类场景则是可能改变行业格局的场景应用,比如有场景的C端,有数据的B端,带来一个增量产业的崛起(如教育、医疗分诊,个性化生成,高频时效交互)等。
不过,商业落地是国内人工智能发展面临的困境之一,大模型发展只有做到商业化、工程化、应用场景化,才能真正赋能产业。
近期,创业者服务平台GoDaddy对全美1003家小型企业的调查数据显示,ChatGPT以70%的应用率成为美国小型企业应用最多的生成式AI产品;38%的受访者,在过去几个月里尝试过生成式AI;营销、内容创作、商业建议是企业应用生成式AI最多的3个用例;75%受访者非常满意生成式AI在业务中的表现。
对比之下,国内大模型远没有达到可商用化的程度,或是能深度切入具体应用场景。目前大模型落地主要以价值增强和效率提升为主,而商业模式层面的落地仍在探索中。
大模型能否和业务充分结合,从而真正解决业务问题,是决定AI能否实现经济价值的关键因素。只有紧贴业务的AI战略设计、完善的配套架构、充足的AI人才及健全的内部培养机制,才能使AI与业务发展需求充分融合,最大化实现经济收益。
各地的人工智能相关政策也聚焦到应用层。5月发布的《北京市加快建设具有全球影响力的人工智能创新策源地实施方案(2023-2025年)》提到,要发挥各区产业特色和资源优势,结合人工智能技术特点,围绕经济社会发展、科学研究发现、重大民生需求等,形成一批示范性强、影响力大、带动性广的重大应用场景。7月发布的《上海市推动人工智能大模型创新发展的若干措施》中提及示范应用推进计划,要加强大模型在智能制造、教育教学、科技金融、设计创意、科学智能等垂直领域的深度应用和标杆场景打造。
三、加强基础技术的自主创新
人工智能需要GPU算力、网络及存储等硬件基础设施的全方位支撑。《办法》指出,鼓励生成式AI算法、框架、芯片及配套软件平台等基础技术的自主创新,鼓励平等互利开展国际交流与合作,参与生成式AI相关国际规则制定。
《2023爱分析·AIGC厂商全景报告》指出,在中美博弈大背景下,A100、H100为代表的芯片被美国列入禁止出口商品名单,加之国内信创进展和适配需要时间,算力问题成为中国人工智能发展的掣肘因素。
国内过去在互联网及移动互联网时代所积累的云计算、数据中心、算力中心等领先全球的数字化基础设施,为生成式AI落地运行提供了坚实基础。4月,科技部启动国家超算互联网部署工作。根据部署,国家超算互联网通过算力网络将全国众多超算中心连接起来,用互联网思维运营超算中心,构建一体化算力服务平台,实现算力资源统筹调度,降低超算应用门槛,带动计算技术向更高水平发展。
生成式AI的训练和研发需要大量的基础设施和基础资源支持。《办法》提出,推动生成式AI基础设施和公共训练数据资源平台建设,促进算力资源协同共享,提升算力资源利用效能。
平台的建设有助于更好地协调和优化训练资源,更好地集中精力完成技术层面的攻关和突破。
推动公共数据有序开放,扩展高质量的训练数据资源也是必须要划出的重点。“大模型时代,得数据者得天下。”一方面,训练数据是大模型训练的基石和燃料,如果没有数据,大模型的训练就无法开展和持续;另一方面,当前技术领域的研究显示,各家大模型在算法层区别并不大,并且具有同质化的趋势。在此背景下,训练数据就成了真正区分且影响大模型性能的重要因素之一。
从各地实践也可以看出,加码训练高质量数据集建设已成为重要方向。
北京5月印发的《北京市加快建设具有全球影响力的人工智能创新策源地实施方案(2023-2025年)》中就提到,加强公共数据开放共享,包括动态更新公共数据开放计划,加快构建高质量人工智能训练数据集等。6月,深圳发布的《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023—2024年)》中也提出,要搭建全市公共数据开放运营平台,建立多模态公共数据集,打造高质量中文语料数据等。
目前各地出台了不少关于公共数据开放利用的条例,利用公共数据投喂人工智能,应按照有条件开放、无条件开放或禁止开放的不同方式进行。不过,公共数据开放存在较多阻力,开放的数据范围和质量不够。接下来需推动有序开放,亟待分类分级,发挥公共数据红利,探索契合公共数据价值利用规律的开放之道。
陆钇潼 王敏 朱敏婕对白皮书撰写亦有贡献。