观韬视点 | 生成式AI发展与监管白皮书(二):知产侵权、算法黑箱何解?
白皮书出品团队:观韬中茂律师事务所X南财合规科技研究院
白皮书撰写者:王渝伟 杨欣如 周丹 钱雨晴 王俊 冯恋阁 郑雪 温泳珊 林婉娜 罗洛
编者按:自1956年“人工智能”的概念首次被提出已过60余年,此间,人工智能从虚化的代码逐渐转化成实践应用,催生出一批批商业故事。不过,人工智能规模化商用并非坦途,概念的火热一直以来未能助推技术突破与商业应用。
时间来到2022年,生成式AI发展为人工智能发展再注入一针强心剂。ChatGPT横空出世,被视为通用人工智能的起点和强人工智能的拐点,引发新一轮人工智能革命。人工智能发展似乎找到了自己的主流叙事。
不过,技术创新的同时也带来了监管难题。如何平衡发展与安全,中国正在摸索自己的AI治理路径。南财合规科技研究院与观韬中茂律师事务所推出《中国AI治理的独立思考——生成式人工智能发展与监管白皮书》,通过分析生成式AI的发展现状、政策导向、实操中面临的风险,以及各国的监管路径,以期为未来的AI治理提供有益思路。
海量数据、庞大算力、巧妙算法,是生成式人工智能发展的三个核心要素。在“海量数据”这一暴力美学催生下,生成式人工智能突破了某种桎梏,变得无所不知,可以就任何问题侃侃而谈。
正如海面上的冰山,只是我们所能看见冰山的一部分,巨大的风险和未知隐藏在冰山之下。
海量数据作为燃料催动大模型,但因大模型厂商数据来源的不合规,现实生活中面临来自知识产权保护创意和创新的反击,不少企业面临侵权诉讼提告。
而作为人工智能“发动机”的算法,驱动人工智能继续发展,但考虑算法本身透明度和可知性的有限,人工智能能否如同最初所设想的走在正确道路之上、助力人类发展,同样面临来自现实的挑战和考验。
一、海量数据:或侵犯知识产权及商业秘密
大模型面临的数据侵权风险,是其发展过程中的先天不足。可以看到的是,当前中国,数据已经成为生产要素之一在发挥着自己作用。但同时,数据权利归属复杂,相关产业链多方主体间利益纠葛、应用场景的复杂多样,都给数据发展和利用蒙上了一层不确定性的面纱。
大模型亦无法解决因不确定性带来的知识产权法律挑战。如近日,一批匿名人士向OpenAI,以及其投资方之一的微软公司发起集体诉讼。因OpenAI 秘密从互联网上窃取了 3000 亿个单词,窃听了“书籍、文章、网站和帖子——包括未经同意获得的个人信息”。这并不是OpenAI第一次陷入数据安全、个人信息泄露相关的指控,同样也不会是最后一次。
具体来看,生成式人工智能的知识产权法律风险主要来自于著作权侵权、侵犯商业秘密等。
著作权侵权方面,基于大模型对语料丰富度的较高需求,无论是模型输入端,还是模型输出端,均存在较大的侵犯著作权的可能性与风险。
在输入端,大模型在构建过程中需要“学习”大量文本语料,而在获取文本语料时,可能会因未征得权利人许可复制、改变或者传播而涉嫌侵犯他人著作权。例如,某全球知名图片提供商起诉了某AI绘画工具的开发者,称其未经许可从自己的网站上窃取了数百万张图片。需要注意的是,将生成式AI模型应用于商业用途本身已经明显超出知识产权法律中界定的“合理使用”的范畴。
在输出端,判断著作权侵权的第一步是看生成内容能否被判定为著作权法中所定义的“作品”。根据以往判例,法院在对“作品”进行判断时,曾认定“作品的创作主体应限定为自然人”;同时,是否满足“独创性”也是判定是否构成作品的标准。
不过,就算生成内容无法达到作品的标准,与原作品构成实质性近似,仍可能构成知识产权侵权。此外,大模型训练的文本语料数量越是匮乏,生成内容的知识产权侵权风险就会越高。生成内容还将受到使用者提问方式的影响,如使用者的提示词极为限缩、精准,也将增大生成内容侵犯他人知识产权的风险。
商业秘密侵权方面,训练数据是修炼大模型的“原材料”,在大模型的静态与动态训练的过程中,可能会出现使用来源不明或者非法的数据信息的情况,如果前述信息中包含商业秘密,那么依据竞争法下的相关规定,将构成对他人商业秘密的侵害。
同时,随着大模型影响力的扩大,企业可能会将其纳入办公系统以提升工作效率。而企业员工在训练和使用模型的过程中,如不慎输入企业的商业秘密,不仅可能造成公司商业秘密的直接泄露, 甚至可能被模型存储于数据库中作为训练数据, 如遭受黑客攻击, 公司将进一步蒙受损失。
从企业防止商业秘密外泄的角度,如何约束员工在利用大模型提高工作效率的同时,又能避免对企业商业秘密的侵犯,也将成为相关法律合规部门需要思考的问题。
二、技术底座:或存不正当竞争和垄断风险
生成式人工智能的未来,不只是对话和沟通,甚至会成为新的基础设施,赋能行业和产业的发展。以目前趋势,大模型将成为上层应用的技术底座,会支撑智能终端、系统、平台等产品应用落地。
竞争角度来看,生成式人工智能或将面临不正当竞争和反垄断风险。
不正当竞争方面,大模型在协助编程、广告设计、文学创作等领域表现优异。用户在使用大模型生成广告文案时,其生成内容可能与他人广告文案、知名商品名称、知名企业名称等存在相似。考虑到这类文案、名称等通常篇幅简短,较难被视作著作权法上的“作品”,此时,如果用户直接将生成内容进行商业使用,可能构成竞争法下中的“混淆行为”。
此外,由于多数企业将公开爬取作为获取数据的渠道之一,如果使用非法爬取的数据进行生成式AI模型训练,形成的数据产品若达到足以实质性替代其他经营者提供的相关产品或者服务的程度,其仍可能构成不正当竞争。
同时,虽然互联网上存在大量可以自由访问的信息, 但如果从具有禁止第三方爬取数据条款的网站收集海量数据, 该等数据很有可能被认定为竞争性财产权益, 因此如何避免对该等数据的收集违反竞争法的相关规定,也将成为相关开发者和服务提供者所要面临的一大挑战。
另一方面,大模型也可能引发竞争法下反垄断相关风险。
一是基于技术的高尖性,由于目前生成式AI技术主要掌握在全球大型科技公司手中,如何防止生成式AI技术的研发与应用成为大公司新型的垄断手段?就该问题,欧美地区也正在筹划制定专门针对生成式AI的反垄断法。
二是部分企业之间试图通过人工智能达成“垄断协议”,也即价格算法合谋,例如,某公司通过某生成式人工智能模型对消费者数据进行消费习惯分析,从而对消费者采取有针对性的算法垄断定价。如何防止这种新型垄断现象对消费者权益可能带来的损害,也将成为需要思考的问题。
三、算法驱动:算法黑箱、信息失真何解?
算法,一组解决问题的步骤和规则,可以用来执行特定的计算或操作。通常用于设计和实现计算机程序,以解决各种问题。其作为人工智能“发动机”而存在。
需要注意的是,因“算法黑箱”而导致的人工智能系统的不透明与不可解释一直是人工智能信任与问责的一大困扰。
实践过程中,算法具有不可解释和不可知的黑箱特性,或将导致结果不可预知,造成决策风险。算法或将带来歧视,影响效率和公平。而其中最严重的,因算法所引起的信息失真风险或将成为贯穿人工智能发展史的最重要问题。
算法黑箱。由于大模型的算法内部机制和决策过程不可解释或难以理解,会导致算法的输出结果存在无法解释的“黑洞”。全球最大的生成式AI模型ChatGPT也因至今未曾公布算法规则而饱受诟病。
算法的输出结果不仅仅取决于输入数据,还会受到算法自身的运行过程、模型参数、超参数等多方面因素的影响。这种风险可能会导致企业难以理解模型的决策过程和预测结果,从而难以评估模型的可靠性和稳定性。另一方面,企业也难以响应用户关于解释算法结论的要求。
例如,某企业在使用生成式AI模型生成推荐内容时,发现该模型频繁生成与特定人群利益相关的内容,但无法确定这种情况是因为算法本身存在偏见还是数据集本身就存在偏见,此时企业可能难以发现问题的根源和解决方案。
算法歧视。大模型算法在应用、决策或预测时,如其本身的算法规则对某些特定的个体或群体存在偏见,将会导致企业的商业决策不公正,进而影响用户对其的信任和企业商誉与形象。对用户而言,其将遭受歧视和不公正的待遇。
例如,某企业使用生成式AI模型为客户提供智能客服服务,但由于该模型算法规则本身存在种族、性别等方面的偏见,导致部分群体的问题无法得到利于其立场或身份的解答,进而影响客户对该企业的认知与评价。
算法决策风险。在使用大模型进行决策时,由于模型的不确定性或数据量欠缺等原因,可能会导致错误的决策或不良后果。同时,由于算法决策形态本身的多元性,算法决策机制的隐蔽性,以及算法决策主体的模糊性,都有可能给算法决策带来风险。
例如,某医疗保险公司使用生成式AI模型来决定是否批准某个人的理赔申请。如果该模型的算法规则中没有纳入部分潜在的判定因素,例如此人的医疗病史、病情危重程度等,就可能会错误地拒绝该人的申请。这种错误决策可能会导致患者的疾病无法得到及时治疗,甚至危及生命,给公司和患者带来不良后果。
信息失真风险。信息失真风险并非算法的固有风险。当算法所处理的数据本身存在错误时,算法的处理结果就会出现信息失真;此外,如果企业或者用户出于某种目的故意规避对算法和数据的监管,也有概率导致训练出的模型生成违法、欺诈、诽谤、侵犯隐私等类型的内容。这种风险可能导致用户通过算法模型得到错误的结论,产生负面影响;企业可能因为错误的或违法的内容受到监管机构处罚,影响企业声誉和业务发展。
特别是对于拟自行部署生成式AI模型的开发者而言,如模型算法本身的语言推理能力有限,造成信息失真甚至“臆想”现象将愈发严重。
例如,某用户在使用某企业提供的生成式AI模型时,由于数据有误,导致其在商业决策中决策失误,并由此亏损,其认为该企业提供的模型应当承担相应责任。
大模型研发者、使用者应在算法设计、实现、应用等环节,不断提升透明性、可解释性、可靠性,逐步实现可审核、可监督、可追溯、可预测、可信赖;研发主体加强对数据采集和算法开发伦理审查,充分考虑差异化诉求,避免可能存在的数据采集与算法偏见,努力实现人工智能系统的普惠性、公平性和非歧视性。
陆钇潼 王敏 朱敏婕对白皮书撰写亦有贡献。