观韬视点 | 论“算法推荐”视阈下的互联网平台注意义务
作者:李洪江 乔昱达
在大数据时代下,头部互联网公司依托强大的算法技术能力,在重塑了信息传播方式的同时也重塑了我们与信息之间的关系,真正带领我们进入了“信息找人”的时代。从更为宏观的视角来看,互联网公司依靠流量经济的逻辑从客观上加速和扩大了侵权作品在平台中的传播。传统认定网络服务提供者帮助侵权责任的“避风港”规则和“红旗”规则在应对如此颠覆性的技术带来的挑战时显得捉襟见肘。近年来,学术界和司法实务界普遍呼吁对算法推荐技术带来的挑战作出回应。2021年12月21日,号称“算法推荐第一案”的“爱奇艺公司诉今日头条公司‘《延禧攻略》’案”正式宣判,打响了“提高网络平台版权注意义务”的“第一枪”。2022年3月1日正式生效的《互联网信息服务算法推荐管理规定》也是国家网信办在立法层面作出的回应。
自此,算法推荐平台是否构成著作权间接侵权的判断上由于相关争议问题未尘埃落定以及法官对于关键影响因素的自由裁量而存在较大不确定性。本文聚焦于上述判断的核心问题——对于“应知”以及“合理措施”的判断,也就是平台版权注意义务的尺度问题。试图从算法推荐的技术原理、算法推荐行为在著作权法上的界定、平台版权注意义务的尺度几个方面进行展开。
一、主流内容平台常见推荐算法的技术原理
在对算法推荐行为在著作权法上进行界定,分析其本质上与“人工推荐”究竟有无区别,其和信息网络传播权控制的“提供作品”行为的界限在哪之前,有必要先理解主流内容平台常见推荐算法的技术逻辑。这有助于我们将其各个环节的行为模式与效果和法律规定进行对照,以更好地在著作权法意义上理解算法推荐行为。《互联网信息服务算法推荐管理规定》第二条第二款规定:“……前款所称应用算法推荐技术,是指利用生成合成类、个性化推送类、排序精选类、检索过滤类、调度决策类等算法技术向用户提供信息。” 以上《算法规定》列举了应用算法推荐技术的五种典型类型,与本文所讨论的平台版权间接侵权注意义务认定直接相关的主要是两类,即:“个性化推送类”以及“排序精选类”。目前主流内容平台的常见推荐算法主要包括三种方式:协同过滤、基于内容的推荐、相似性推荐。
1.协同过滤(Collaborative Filtering)
协同过滤算法是推荐算法中的经典算法之一,也是“延禧攻略案”被告字节公司所采用的算法推荐技术。其基本逻辑是根据用户的历史行为数据挖掘用户的兴趣,找到趣味相投或有共同历史行为数据的用户群体,向用户推荐兴趣相同或相似的内容。实际上就是“猜你喜欢”和“选择了该物品的人也喜欢”。其主要步骤为:
第一步,找到用户A的兴趣爱好{item1,item2};
第二步,找到与用户A具有相同兴趣爱好的用户群{B,C};
第三步,群体{B,C}除了喜欢{item1,item2},还喜欢{item3,item4}(即“协同”之意义所在);
第四步,下一次将{item3,item4}推荐给用户A,完成推荐。
2.基于内容的推荐(Content-based Recommendation)
基于内容的推荐算法,基本逻辑是通过挖掘用户历史行为数据中感兴趣的内容,抽象此类内容的共性,向该用户推荐具有共性的其他内容。其步骤为:
第一步,找到用户A历史感兴趣的物品集合;
第二步,找到该物品集合的具化内容;
第三步,抽象具化内容的共性内容;
第四步,由这些共性内容查找其他物品实施推荐。
3.相似性推荐(Similarity Recommendation)
相似性推荐不是个性化推荐,其要解决问题的基本逻辑是,当系统面对新注册用户时,没有历史行为数据可挖掘,在用户点击了某一物品(user-item_X)时,将与该内容最相似(距离最近)的user-item集合推荐给他/她。对于新用户A,没有A的历史行为数据,在A点击了内容item X的情况下,将与item X最相似的item集合推荐给新用户A。问题转化为如何用一种方法计算内容之间的相似度。
经过对上述主要推荐算法技术原理的了解,如果推荐的内容是作品,可以得出以下结论:
第一,推荐算法不涉及将作品置于信息网络的上传环节,但确实将作品精准呈现到了用户面前;
第二,推荐算法对作品的处理并未触及作品实际内容,只针对作品数据的属性标签进行识别、匹配、推荐;
第三,推荐算法向用户推荐作品是经计算后自动完成的,无需人工干预(实务中是否存在人工干预推荐结果的情况在所不论);
第四,算法向用户推荐作品的效率远远高于人工推荐。[1]
二、在著作权法上如何界定算法推荐行为
(一)算法推荐作品与信网权意义上的“提供作品”
讨论算法推荐作品是否构成信网权意义上的“提供作品”直接决定了算法推荐行为是否构成直接侵权,若该行为构成直接侵权将排除其构成间接侵权的余地,因此,前置的对其进行考虑尤为必要。
主流意见认为算法推荐作品不属于信网权意义上的“提供作品”。信网权意义上的“提供行为”,其关键一步是将作品置于信息网络中的行为,但在平台进行算法推荐之前,侵权作品已经存在于平台网络中,或者说已经处于可供公众在其选定的时间或地点获得作品的状态之中,信网权意义上的“提供”行为已经圆满完成,将作品置于信息网络中的行为主体并非平台,而是上传侵权作品的用户;虽然平台利用算法将侵权作品精确匹配后推荐给了用户,但无论如何平台并未参与上传用户“提供”侵权作品的过程中。“延案”的审理法院也认为:“尽管涉案用户实施侵权行为均利用了字节公司提供的网络服务,涉案短视频亦均通过今日头条 App 实现了信息网络传播。但从客观方面,作为今日头条 App的运营者,字节公司并未参与到用户所实施的上传、发布侵权短视频的行为之中;从主观方面亦缺乏证据证明该公司与用户所直接实施的侵权行为之间存在相应的意思联络。用户对涉案侵权短视频的上传、发布,与字节公司对其进行的信息流推荐,尽管在客观上存在一定的关联,但二者属于各自独立进行决定和予以实施的行为,并不构成分工合作共同侵害延剧的信息网络传播权。”
那么,司法实践中,算法推荐的内容平台是否绝对不可能构成直接侵权?现实情况是复杂的,平台企业基于运营的考虑,可能会存在签约的PGC用户,当PGC用户将涉嫌侵权的作品上传平台后,平台算法自动匹配并实施作品推荐,在此情况下,平台与PGC因“签约”而被认定存在意思联络,进而认定构成分工合作共同实施直接侵权行为也是完全有可能的,但需要明确的是,这一直接侵权的认定是基于“分工合作”导致的,而与是否推荐无关。[2]
(二)算法推荐与人工推荐
最高院《信息网络传播权司法解释》第九条第(三)项规定了认定平台是否构成应知可以综合考虑的因素之一,即网络服务提供者是否主动对作品、表演、录音录像制品进行了推荐;针对热播影视等作品,该司法解释第十条规定了以设置榜单、目录、索引、描述性段落、内容简介等方式进行推荐,可以直接认定为平台应知。算法推荐是否属于上述司法解释规定的“推荐”呢?
有观点认为,从推荐算法的技术原理看,协同过滤推荐和基于内容的推荐,虽然推荐逻辑有差异,但都是基于用户的历史行为数据,向特定用户被动推荐;基于相似度计算的推荐,虽然没有老用户的历史行为数据,但仍然是基于新注册用户的选择,向该用户被动推荐向量距离最近的结果;由此来看,内容平台的推荐算法技术本身的共同特点包括:其一,算法推荐行为是被动的,是依赖于用户历史行为数据或基于新用户个人兴趣选择的;其二,算法推荐结果是用户“想看到”的,也是“千人千面”的,不是面向公众的,是面向特定用户的;其三,算法推荐结果随用户兴趣的变化,推荐结果是动态更新的。从司法解释的条款看,最高院《信息网络传播权司法解释》将是否“推荐”列入认定应知的考量因素最早是在2012年,虽然此前早已有了推荐算法,但彼时的推荐算法还只是互联网时代的新宠,尚未普及到主流平台,也没有在司法实践中崭露头角。不可否认,最高院《信息网络传播权司法解释》规定的“推荐”并未明确仅指“人工推荐”还是也包括“技术(算法)推荐”,但从其条款本意来看,可以归纳以下几点:其一,第九条第(三)项的“推荐”,明确强调的是网络服务提供者的“主动”推荐,第十条针对热播影视等作品列举的推荐方式包括设置榜单、设置目录、设置索引、设置描述性段落、设置内容简介等,也是平台主动而为的,是基于平台自己对内容的主观认知进行的推荐,并不依赖于用户,推荐之前用户也没有参与的可能性,均应理解为是平台的“人工推荐”;第二,此推荐的结果,不一定是用户“想看到”的,但一定是所有用户都能看到的,是面向公众的,其中对热播影视等作品的推荐,更是要求“公众可以在其网页上直接以下载、浏览或者其他方式获得”;第三,此推荐的结果,何时更新、如何更新,不取决于用户,完全由平台自主决定,相对于用户来讲是静态的。
有观点将“被视为应知的行为”类型化为“积极行为”和“消极行为”两种。[3]所谓“积极行为”,是指网络服务提供者对涉嫌侵权的内容存在整理、编辑或推荐等主动行为;所谓“消极行为”,则是指网络服务提供者未能达到“与信息管理能力相适应”的注意义务。其认为《信网权解释》第九、十条的规定属于“积极行为”,目的是帮助所有平台用户知晓相关内容的存在,并为其获取相关内容提供便利,属于网络服务提供者面向所有平台用户的公开行为。相比较而言,“算法推送”在实践中表现为一种信息流刷新推送,特殊之处在于完全由算法根据既定的客观标准来从不断变化的内容来源中选择。该技术其实是用机器代替了人工,内容的选择和推送的对象,都由预先设定好的程序来确定。从“算法推送”的技术原理看,算法向网络用户推荐内容的决定权在于用户自己。无论是基于内容的推荐还是基于协同的过滤,都是将用户自己或与该用户有类似兴趣的其他用户的关注或点击历史加以分析,总结出该用户对内容的偏好,然后根据这种偏好中蕴含关键词的关联性来筛选出推送的内容。从“算法推送”的用户体验看,算法推送技术在网络平台上的应用主要以信息流刷新推送的方式向用户呈现现今主流社交网络平台的算法推送模型,一般基于点击率、阅读时间、点赞、评论、转发等客观可量化的指标,一经事前设定后就自动运行,之后无须也不可能实现人为干预。基于上述原因,“算法推送”不能等同于“信网权解释 2012”中的“主动编辑”或“设置榜单”等针对所有平台用户的行为。
与上述观点相对,也有观点认为[4][5],算法推荐与人工推荐无本质差别。其认为算法推荐在运行时没有人工干预,但算法本身是人工设计的,是按照人的意志与选择在运行。算法并不当然是客观的、正义的,其背后有价值观的存在,这种价值观反映的是设计者,即人之意志。从某种程度上讲,算法推荐下的内容推送完全可以理解为产品设计,产品的设计者应当为产品设计中的缺陷负责,这并不会加重产品设计者的责任。在原理上,“算法推荐”要做到内容的“精准”推荐,首先要对用户上传的内容采取类型化(如区分影视剧、体育、新闻等)、标签化等干预手段。这都是平台对用户上传内容进行的主动选择和编辑的过程。
(三)算法推荐模式下平台的版权注意义务提升的尺度
1.事先普遍审查过滤义务的排除
北京市高级人民法院关于印发《关于审理涉及网络环境下著作权纠纷案件若干问题的指导意见(一)(试行)》的通知第十七条:提供信息存储空间、搜索、链接、P2P等服务的网络服务提供者对他人利用其服务传播作品、表演、录音录像制品是否侵权一般不负有事先进行主动审查、监控的义务。依照相关法律及其规定应当进行审查的,应当审查。
一般而言,学界通识和司法实践中也不要求网络平台提供者对海量的信息内容进行主动审查。
2.“技术不能”抗辩的失效
“技术不能”不再是网络服务者的抗辩理由。互联网发展早期,绝大多数平台无法做到事先审查用户内容预防侵权行为,或该审查成本过大以致阻碍相关产业的发展。如今,许多先进的过滤技术已被越来越多地运用于实践中,成为诸多服务商现实可行的技术。大型平台完全有能力通过特定算法、大数据、人工智能等技术履行必要的预防措施。
具体而言,服务商可以运用哈希值算法、文本相似度检测算法对音视频、文本等作品进行版权过滤与监测,及时制止侵权内容的产生与扩散。例如,美国的YouTube平台通过Content ID系统将用户内容与既有的内容指纹数据库进行对比,判断内容是否侵权。视频分享网站Vimeo也采用类似的Copyright Watch系统,事前过滤用户内容。我国也有类似的实践,百度文库在2011年已开始运用反盗版识别系统,进行文档内容的版权监测。
3.需承担有限制的过滤和审查义务——与“信息管理能力”相适应
学者吴汉东认为[6],网络平台需在一定限制条件下承担过滤和审查义务:第一,这种版权审查过滤的义务不是对所有网络平台施加的。不采取算法推荐的网络服务提供者无须承担,但是拥有算法技术条件的网络平台应该承担相应的责任。第二,版权所有人需提供版权作品的数据库,以便于拥有版权算法过滤技术的平台进行审核。
也有学者认为应该根据网络服务提供商的不同类型区分过滤审查义务的高低,使其承担与其“信息管理能力”相适应的注意义务,并就构建分层级的不同类型网络服务提供商的过滤审查义务提出了建议[7]。
(1)网络存储空间服务商:较高的注意义务
就信息管控力而言,在存储空间服务中,用户内容本就储存于服务商管控的服务器中,服务商对信息的管控能力更强,运用算法干预用户传播内容的能力更强,平台的影响力更大。此外,基于存储空间通常的服务形式,其对算法推荐的运用更为深入,在此模式下易获得更大收益。以今日头条、抖音、小红书等为代表的新闻聚合平台、视频播放平台及大众分享平台,得益于算法推荐的加成,吸引了大量流量,不断扩大与巩固用户群,成为互联网商业流量市场中的佼佼者。而此类平台内容多以短时长的视听形式呈现,数量多,范围广,更容易引发侵权,也加重了侵权的损害后果,有必要赋予高于其他平台的注意义务。具体而言,可以考虑将注意义务前置,赋予平台合理且必要的审查义务,规范算法推荐模式下的版权环境,做到事前过滤。目前,行政机关在相关的行政规范中已开始要求存储空间服务商主动采取审查机制。例如,国家版权局分别在2015年和2016年发布关于规范信息存储空间服务商版权秩序的文件《关于规范网盘服务版权秩序的通知》,强调服务商应建立必要的预防性管理机制,主动移除、屏蔽侵权作品。此外,我国版权标准化技术委员会已制定以数字版权唯一标识符为核心的系列标准,倡导运用区块链、大数据、云计算等技术,构建全国性的作品版权数据库,为平台版权过滤提供便利。一般情形下,当版权人提出过滤要求并提供过滤比对数据库时,服务商便有义务提前过滤相应内容。当然,该义务并非公法上的强制义务,而是私法中的义务,服务商若不履行,则可能承担实际侵权发生后的过错侵权责任。
(2)网络搜索、链接服务商:中间的注意义务
此类服务商可通过历史算法、点计算法、排名算法等算法设计,根据定位内容的权重、时间、数据情况、行业记录、用户点击行为等因素,优化用户推荐服务,一定程度上控制内容的推送。但较之于提供存储空间的服务商,此类服务平台并不存储用户侵权内容,本质为提供定位跳转式服务,通常对算法推送形成的信息流并不具有很强的干预与控制空间,对平台内容的管控力不及存储服务商。因此,其注意义务应低于应用算法推荐的存储空间服务商、高于一般的未使用算法推荐的同类服务商。具体而言,此类服务商的注意义务可扩张到在收到通知后对类似内容的审查。由于仅提供定位跳转服务,且平台内有海量的检索条目或链接,若要求服务商对潜在侵权内容进行大规模的主动审查,则侵权的预防成本与运营收益可能产生极大的不平衡。
(3)基础性网络服务商:一般的注意义务
提供自动接入、自动传输、自动缓存等技术的服务商,应用算法推送技术的空间有限,不应苛以严格的注意义务,可以通过对“通知-必要措施”规则进行合理管控,构建其具体的注意义务。此类服务商处于互联网信息服务的基础设施层,服务目的为信息的便捷传输,而非具体内容的管控。
4. 关于“必要措施”的解释及认定
在“必要措施”的判断上,主要涉及“及时性”和“有效性”的解释和认定。在“及时性”的考量上,不应苛求公式化的时间节点,而应当根据具体案件进行综合考量判断。其次,对于必要措施的“有效性”,一方面要考察平台采取措施后的客观效果,即是否起到防止损害扩大的效果。另一方面应结合新类型平台的特点、实际技术能力以及权利人通知的准确程度、侵权信息的明显程度等因素。例如,在“延案”中法院认为,在判断被诉网络平台是否采取必要措施时,需要从三方面进行判断,一是网络服务提供者是否根据用户侵权行为的方式以及自身服务性质、信息管理能力等,实际采取了删除、屏蔽、断开链接等必要措施;二是上述措施的采取是否产生了制止和预防明显侵权的实际效果,即采取措施对制止侵权具有必要性与有效性;三是结合网络服务提供者的技术水平和行业特点判断采取措施的可行性和合理性。
三、结语
首先,原则上平台不负有一般性的事先过滤义务。其次,平台的审查过滤义务应是有限制、有条件的。比如,在作品处于重点保护预警名单当中、权利人事先多次发送预警函、作品受关注程度极高或者其他法律法规有规定时,平台应至少就该作品进行审查过滤。同时,与平台的算法推荐技术能力相匹配,平台以往简单的“技术不能”抗辩难以得到法院支持和同情,容易沦为侵权“重灾区”的内容平台需进行一些技术努力,开发、引进版权过滤系统,但要仍要注意与用户言论自由、隐私权等权益相平衡。再次,各网络服务提供商根据其各自对内容的控制力不同、算法技术水平不同、服务的类型不同,在注意义务的高低上也应有所区别。
在“应知”的认定上,司法实践中“作品热度高”+“置于显著位置”即可认定平台构成“应知”。在具体影响因素上,(1)作品热度;(2)侵权作品在平台中传播的情况(播放量、侵权用户数量、上传数量等);(3)是否置于显著位置或被置于特定频道、榜单、话题之中;(4)作品是否在国家重点作品预警名单中或权利人是否事先发送了合格的预警函等因素可作为法院判定“应知”的重要影响因素。
在“合理措施”的认定上,关键在于对“及时性”和“有效性”的解释。对于“及时性”,需要根据权利人通知的形式、准确程度、采取措施的难易程度、网络平台所提供服务的性质以及涉案作品类型、知名度等因素,由人民法院在具体案件中进行综合判断。对于“有效性”,一方面要考察平台采取措施后的客观效果,即是否起到防止损害扩大的效果;另一方面应结合新类型平台的特点、实际技术能力以及权利人通知的准确程度、侵权信息的明显程度等因素,考虑必要措施的可行性与合理性,既要防止平台拒不履行“理所应当”的责任,也要避免让其承担“难以承受之重”。
[1] 曹广宇:《推荐算法技术原理与算法推荐的著作权法界定》,2022.8.29发于《知产力》微信公众号。
[2] 同上。
[3] 熊琦:《“算法推送”与网络服务提供者共同侵权认定规则》,载《中国应用法学》2020年第4期。
[4] 高艳东:《“算法推荐”不能免除服务平台之注意义务》,2020.5.19发于《知产力》微信公众号。
[5] 姚欢庆:《“通知-删除”规则的新挑战 ——算法推荐下的平台责任》,2020.7.29发于《知产力》微信公众号。
[6] 吴汉东:《算法推荐与版权治理:让平台承担过滤义务有条件限制》,2022.8.27发于《反垄断前沿》微信公众号。
[7] 张子玥:《算法推荐模式下网络服务商的版权注意义务:困境与突破》,载《上海法学研究》2022年第5卷。