在人工智能专门立法中,为进行机器学习、文本与数据挖掘等计算机信息处理,使用具有合法来源并已经发表的作品的,并且不影响该作品的正常使用,也没有不合理地损害著作权人的合法权益,则该使用行为属于合理使用。
以ChatGPT、Sora等为代表的生成式人工智能(GenAI)模型,拥有超强的语言理解和文本图像生成能力,是新质生产力的典型代表,能助力千行百业实现高质量发展。聚焦GenAI数据训练中的著作权侵权风险,分析合理使用规则具有的比较优势,探讨我国著作权合理使用规则的困境和出路,有助于实现技术创新和风险治理的平衡,促进我国GenAI产业的健康持续发展。
数据训练著作权侵权风险
GenAI具有强大的“阅读”和“创作”能力,离不开海量数据的“投喂”。而具有高质量和良好价值观的数据,往往是处在著作权?;て谀诘淖髌?。在GenAI“输入端”,无论是数据收集、数据预处理还是模型训练,均会涉及对作品的复制、汇编以及改编等,这有可能落入著作权人复制权、汇编权以及改编权等专有权利的控制范围。然而,使用作品进行数据训练的行为,既不符合《中华人民共和国著作权法》(以下简称《著作权法》)第二十四条规定的合理使用条款,也不符合现有的法定许可条款。所以,在当前的《著作权法》框架下,使用处于著作权?;て谀诘淖髌方惺菅盗?,应当取得著作权人的许可并支付报酬。
但是,训练数据集往往具有突出的规模化特征,比如,GPT4就包含超过1.8万亿参数和13万亿token的训练数据。在这种情形下,传统的授权许可的交易模式根本无法实施。同时,我国发布的《生成式人工智能服务管理暂行办法》(以下简称《办法》)第7条要求训练数据必须具有合法来源,且不得侵犯他人的知识产权。全国网络安全标准化技术委员会发布的《生成式人工智能服务安全基本要求》第5.2条规定的“语料内容安全要求”,也要求应当注意语料使用情况以及相关知识产权情况,不得使用存在侵权风险的语料。由此,GenAI开发者在获取和使用作品数据时,极易背负著作权侵权的“原罪”。
当前,在国外,因使用作品进行数据训练已经产生大量的纠纷,比如:Alter诉OpenAI、Andersen诉Stability AI、Huckabee诉Meta Platforms等案件。在国内,2023年6月,网络教培行业也发生过,学而思未经授权爬取笔神作文的作文素材,用以训练其智能产品“作文AI助手”,引起双方纷争。2024年6月,北京互联网法院也开庭审理了我国“首例AI绘画大模型训练著作权侵权案”,目前仍未作出一审判决。在这些案件中,原告几乎均主张,被告未经授权,使用其作品用于数据训练,侵犯了原告享有的著作权;而被告基本上援引著作权合理使用规则进行抗辩。
针对数据训练中的作品使用行为,不少国家或地区已经进行了著作权合理使用规则的探索和调适。欧盟《单一数字市场版权指令》就“文本与数据挖掘”规定了限制和例外;美国往往通过运用“四要素标准”和“转换性使用”,灵活解释合理使用规则,从而为AI技术的发展开辟空间;日本《著作权法》更是直接引入“非享受性使用”条款,将“计算机信息处理行为”纳入合理使用。在此背景下,我国也应及时作出立法回应,重塑人工智能时代的合理使用规则,以保障GenAI产业对数据获取和使用的现实需求。
合理使用方案的比较优势及其适用困境
1. 数据训练著作权侵权风险解决方案的梳理
我国《著作权法》第十条规定了4项人身权和13项财产权,即为著作权人享有的专有权利,每一项专有权利均控制着一类特定行为。比如,复制权控制着以印刷、复印、数字化等方式将作品制作一份或者多份的行为。通俗而言,专有权利划定了一个只有著作权人才能进入的“专属领地”。同时,著作权法
基于社会政策的考量,在赋予著作权人专有权利的同时,也要满足社会对知识和信息传播的需求。
所以,在一定条件下,著作权法又允许其他主体不经许可,有偿使用甚至无偿使用作品。为此,我国《著作权法》规定了对“著作权的限制”:法定许可和合理使用。因此,如果未经著作权人许可,又缺乏“著作权的限制”作为侵权抗辩事由,实施了受专有权利控制的行为,就是擅自“闯入”这一“专属领地”,构成著作权直接侵权。此时,不管行为人是否具有主观过错,至少应当承担停止侵害的民事责任。简言之,著作权侵权判定的法律逻辑为:未经许可实施受控行为——不存在“著作权的限制”——构成著作权侵权。
基于我国《著作权法》的侵权判定的法律逻辑,在理论和实践中,出现的数据训练著作权侵权风险的解决方案,大体上可以分为以下三类:著作权的限缩、事前授权许可、著作权的限制(法定许可和合理使用)。
“著作权的限缩”方案主张,对著作权人的专有权利的控制范围加以限缩,从而认定相关作品使用行为不是受控行为,也就无需再判断是否存在“著作权的限制”,即可化解数据训练面临的著作权风险。
“事前授权许可”方案主张,按照当前的《著作权法》的规定,使用处于著作权?;て谀诘淖髌?/span>进行数据训练,受专有权利控制,应当取得权利人的使用许可并支付报酬。
“著作权的限制”方案则在承认作品使用行为受著作权人专有权利的控制的前提下,判断作品使用行为能否适用“著作权的限制”,即法定许可或者合理使用,以实现责任豁免。
2. 合理使用方案的比较优势的分析
(1)著作权的限缩:重塑著作权法不具有现实性
“著作权的限缩”方案的提出,源于对“非表达性使用”理论运用的深化和批判。所谓“非表达性使用”指的是,不以阅读、欣赏作品的独创性表达为目的的作品使用行为。“非表达性使用”理论最先由萨格提出,他认为“非表达性使用”仍受专有权利控制,但可以被认定为合理使用。在我国理论界,起初只是运用“非表达性使用”理论,对机器学习进行类型化分析,认为“非表达型机器学习”属于“非表达性使用”,不落入专有权利的控制范围,不构成侵权;“大众表达型机器学习”属于“表达性使用”,可以构成合理使用;个人表达型机器学习由于会对作品市场产生替代效果,则排除在合理使用之外。后来,有观点进一步认为,所有的机器学习或者模型训练行为都属于“非表达性使用”。理由是,其没有对作品中的表达进行理解和欣赏,只是将其作为数据而不是作品进行使用。因此,不应受专有权利的控制,也就无需进行合理使用分析。更有甚者,再后来,有研究指出“非法表达性使用”理论依旧没有摆脱“实施复制即侵权”的立场,应当在解释论层面重构侵权判定规则,将使用作品进行数据训练的行为排除到“法定利用行为”之外,以实现GenAI数据训练的合法性,而无需诉诸合理使用判断。
但是,“著作权的限缩”方案的落地,需付出巨大的法律成本,不具有现实可行性。因为,要将数据训练中所涉及的复制、改编等作品使用行为均排除到著作权法调整范围之外,需要对著作权制度原理和分析框架进行重塑,这无法在短时间内形成多数意见,进而转化为法律规则或者裁判思路,用以指导司法实践。而且,法官也需要对此付出大量的认知资源,重构本应由著作权分析框架提供的结构化背景知识。
因此,不如依旧承认,数据训练涉及的非传统的作品使用行为,属于著作权法的调整范畴,受专有权利的控制,再通过合理使用规则豁免其责任,充分发挥著作权法分析框架的认知优势,以便为立法和司法提供明确的指导。
(2)事前授权许可和法定许可:交易成本过高导致市场失灵
著作权人大都强烈要求,GenAI开发者应当事先取得授权并支付报酬,方可使用作品进行数据训练。比如,中国电子商会发布的《生成式人工智能
数据应用合规指南》就明确规定,为防止数据用于模型训练引发著作权侵权风险,对处在著作权?;?/span>期内的作品,GenAI开发者应主动采取措施获取著作权人的授权。再如,中文在线等26家单位于2023年6月共同发布的有关GenAI训练数据著作权的倡议书也强调,GenAI开发者在抓取数据时,应获得著作权人许可。同时,也有不少学者主张,通过改良法定许可制度,来化解数据训练的
著作权风险。相较于事前授权许可,法定许可的制度优势在于节约了取得著作权人许可的交易成本,但著作权人仍享有法定的报酬请求权。
但是,由于许可和报酬机制存在障碍,无论是事前授权许可还是法定许可,都存在无法克服的实施困境,存在市场失灵现象。具体而言,如果要求事前获得授权许可,GenAI开发者就必须与不计其数且高度分散的著作权人挨个进行协商。在GenAI数据训练场景下,这种交易模式存在很大的弊端:一是交易流程的繁琐导致数据获取的效率低下,无法满足GenAI及时获取海量作品的需求,从而造成产业发展的迟滞;二是海量作品数据叠加形成的交易成本畸高,造成“反公地悲剧”。即便采取“法定许可”方案,也无法克服事前授权许可存在的交易障碍。理由在于:训练数据集往往兼有处于著作权?;て谀诘淖髌泛凸?/span>共领域的素材,GenAI开发者难以确定支付报酬的数额以及支付主体;GenAI数据训练使用的是海量作品,单个作品的价值很低,法定许可的运行成本可能远高于著作权人可以取得的报酬。
综上所述,基于授权许可和法定许可获取作品,均会使GenAI开发者负担高昂的交易成本,作品交易市场实际上处于失灵状态。而克服市场失灵是合理使用的目标。从经济分析的视角看,如果交易成本足够低,作品的使用人与著作权人通过市场机制即可实现双赢,合理使用就没必要存在。只有在出现市场失灵的情况下,才能将特定的受控行为认定为合理使用?;诒冉嫌攀品治?,适用合理使用规则,既无须取得许可,也无须支付报酬,授权许可和法定许可存在的许可难题和报酬支付难题被消灭了。因此,可以考虑运用著作权合理使用规则,消除数据训练面临的著作权法障碍。
3. 合理使用规则:存在适用困境但有调适空间
我国的著作权合理使用规则规定于现行《著作权法》第二十四条,经过2020年修订后,该条吸纳了“三步检验法”。因此,构成合理使用须具备三个要件:“在下列情况下使用作品”;“不得影响该作品的正常使用”;“不
得不合理地损害著作权人的合法权益”。同时,该条还列举了12种合理使用的“类型化条款”,并且非常谨慎地增设了“兜底条款”。由此,我国著作权合理使用规则形成了“一般条款+类型化条款+兜底条款”的立法构造。按照《著作权法》第二十四条的文字表述,“在下列情况下使用作品”指的是,法条所列举的十二项“类型化条款”和“兜底条款”。
但是,由于我国著作权合理使用规则并无关于GenAI数据训练的“类型化条款”,因此,只能先尝试通过解释论路径,将其解释进目前的“类型化条款”之中去。与GenAI数据训练相关联的“类型化条款”,可能包括“个人使用”“适当引用”“教学或研究使用”三类。其中,对于“个人使用”,其适用主体和适用目的均存在严格限制,而目前从事GenAI数据训练的主体,通常不仅限于“自然人”。数据训练的目的通常也不属于“个人学习、研究或者欣赏”的范畴;对于“适当引用”,其目的要件是“为介绍、评论说明某一作品”或者“说明某一问题”,而GenAI的数据训练显然不符合“适当引用”合理使用类型的目的要件;对于“教学或科学研究适用”,其将作品的使用限定在“学??翁媒萄Щ蛘呖蒲а芯?rdquo;领域,同时仅允许“少量复制”。但是,GenAI海量复制与使用作品的现状显然无法满足该项要求。因此,我国著作权合理使用规则的“类型化条款”无法囊括绝大部分的数据训练行为。
至于“兜底条款”的适用,从“兜底条款”的文字表述来看,合理使用的“其他情形”仅限于法律、行政法规规定。因此,我国合理使用规则的立法构造其实仍采取的是“封闭式”的立法模式,只是将合理使用的开放性留给了立法者,而将封闭性留给了法官。如此一来,何谓“特定的特殊情况”,法官一般只能“找法”,而不能“造法”,也就是法官无权根据《著作权法》第二十四条规定的“兜底条款”创设新的合理使用情形。但是,这也表明,合理使用规则对使用作品进行数据训练有适法空间,只不过必须通过立法予以明确。
数据训练构成合理使用的正当性
在立法论上,“三步检验法”是创设新的合理使用规则的标准和“过滤器”。也就是说,受专有权利控制的行为,是否具有构成合理使用的正当性,最终的判断标准,并不是它是否被列举在《著作权法》合理使用条款之中,而是能否通过“三步检验法”的检验。基于此,需分析和论证利用作品进行数据
训练能否通过“三步检验法”的检验。
1. 数据训练符合“特定的特殊情况”
“三步检验法”中的第一步是,应当将对合理使用规则的适用限定在“特定的特殊情况”。“特定的”是指,著作权法必须明确界定任何一种合理使用情形,也就是通过立法将合理使用规则的适用范围特定化,并为人所知悉。“特殊”则是指“适用范围或目的是有限的和个别性的”,不能变成“常态或
通常情况”。
我国《著作权法》第二十四条并未使用“特定的特殊情况”的表述,根据法条的用语,“特定”“特殊”应该指的是,法条所列举的12项“类型化条款”和“兜底条款”。此外,有学者指出,“特定的特殊情况”是对作品使用行为目的正当性的判断,即特定的作品使用行为须符合著作权法的规范目的。而化解GenAI数据训练的著作权困境,对于AI产业发展、更新内容生产模式以及促进社会整体的知识增值而言,均至关重要,符合著作权法的规范目的。因此,在我国,只要在相关法律和行政法规中,增设具体的数据训练合理使用规则,就可以符合第一步的要求。
2. 数据训练与作品的正常利用不相冲突
(1)数据训练具有非表达性
所谓“利用”,指的是著作权人从行使专有权利中获得经济利益的行为。并且,“利用”必须是著作权法规定的法定使用行为。但是,并不是说只要能够获得经济利益,并为专有权利所控制的使用行为,都必然与作品的正常利用相冲突。正确的理解应当是:只有当一种作品使用行为与著作权人通常从行
使专有权利中获取经济价值的行为相竞争,并且致使著作权人丧失大量的经济利益时,才达到了“与作品的正常利用相冲突”的程度。
一般而言,个性化的表达构成作品的形式和具体内容,是作品的主要价值所在。只有为了欣赏作品的表达而使用作品,才可能与作品的正常利用相冲突,才能从作品的独创性中直接获益。但是,与传统的作品使用行为截然不同,使用作品进行数据训练的行为具有典型的非表达性,其并不是为了欣赏和理解作品中的独创性表达,而是为了挖掘海量作品中的思想、事实、方法和原则等,从而理解和掌握人类进行表达的规律和方式,以获得生成审美价值的内容的能力。审判实践中,GenAI开发者也经常基于数据训练具有的典型的非表达性,提出合理使用抗辩。比如,Concord Music Group, Inc. v. Anthropic PBC案中,Anthropic公司就认为,数据训练并不是为了使用歌曲中的表达性要素,而是为了让GenAI识别和理解歌曲中的语言模式,因此其使用的目的具有高度的“转换性”。
(2)数据训练具有非传播性
传统著作权法赋予著作权人诸多专有权利,其目的并不是使作者绝对垄断对作品的使用,其原则上只限于垄断“与公众接触”的使用。正所谓“无
传播也就无权利”,通常,只有在作品被公开传播,才能构成对著作权人作品的市场替代和利益侵害。而GenAI整个数据训练流程对作品数据的使用,是内在的、隐含的、非感知的,原则上不与公众发生接触,GenAI开发者既无动机也没必要向公众传播和分享原作品的独创性表达。在此情况下,GenAI数据训练中的作品使用行为,不追求占据原作品的市场,不会与作品的正常利用相冲突。在UMG Recordings, Inc. et al v. Uncharted Labs, Inc. et al中,被告就提出抗辩,在公众不可见的技术流程中复制作品应当属于合理使用。与此类似,在Andersen v. Stability AI Ltd.中,被告DeviantArt也认为,其没有以任何方式向公众传播用于数据训练的作品的表达。
3. 数据训练不会不合理地损害著作权人的合法权益
(1)不会损害传统作品市场中的利益
所谓“不会不合理地损害著作权人的合法权益”,指的是对著作权人的经济利益影响,是否达到了“不合理”的程度。如今,作品的市场可区分为传统市场和数据市场。传统市场以阅读作品为核心,以作品所体现出来的文学和艺术等价值为基础。而数据市场则是把作品作为数据要素建立起的数据市场。传统的作品市场以阅读和欣赏作品为核心,而GenAI训练的过程具有非公开数据训练构成合理使用的正当性。在立法论上,“三步检验法”是创设新的合理使用规则的标准和“过滤器”。也就是说,受专有权利控制的行为,是否具有构成合理使用的正当性,最终的判断标准,并不是它是否被列举在《著作权法》合理使用条款之中,而是能否通过“三步检验法”的检验?;诖耍璺治龊吐壑だ米髌方惺?/span>训练能否通过“三步检验法”的检验。
1. 数据训练符合“特定的特殊情况”
“三步检验法”中的第一步是,应当将对合理使用规则的适用限定在“特定的特殊情况”。“特定的”是指,著作权法必须明确界定任何一种合理使用情形,也就是通过立法将合理使用规则的适用范围特定化,并为人所知悉。“特殊”则是指“适用范围或目的是有限的和个别性的”,不能变成“常态或
通常情况”。我国《著作权法》第二十四条并未使用“特定的特殊情况”的表述,根据法条的用语,“特定”“特殊”应该指的是,法条所列举的12项“类型化条款”和“兜底条款”。此外,有学者指出,“特定的特殊情况”是对作品使用行为目的正当性的判断,即特定的作品使用行为须符合著作权法的规范目的。而化解GenAI数据训练的著作权困境,对于AI产业发展、更新内容生产模式以及促进社会整体的知识增值而言,均至关重要,符合著作权法的规范目的。因此,在我国,只要在相关法律和行政法规中,增设具体的数据训练合理使用规则,就可以符合第一步的要求。
2. 数据训练与作品的正常利用不相冲突
(1)数据训练具有非表达性
所谓“利用”,指的是著作权人从行使专有权利中获得经济利益的行为。并且,“利用”必须是著作权法规定的法定使用行为。但是,并不是说只要能够获得经济利益,并为专有权利所控制的使用行为,都必然与作品的正常利用相冲突。正确的理解应当是:只有当一种作品使用行为与著作权人通常从行使专有权利中获取经济价值的行为相竞争,并且致使著作权人丧失大量的经济利益时,才达到了“与作品的正常利用相冲突”的程度。
一般而言,个性化的表达构成作品的形式和具体内容,是作品的主要价值所在。只有为了欣赏作品的表达而使用作品,才可能与作品的正常利用相冲突,才能从作品的独创性中直接获益。但是,与传统的作品使用行为截然不同,使用作品进行数据训练的行为具有典型的非表达性,其并不是为了欣赏和理解作品中的独创性表达,而是为了挖掘海量作品中的思想、事实、方法和原则等,从而理解和掌握人类进行表达的规律和方式,以获得生成审美价值的内容的能力。审判实践中,GenAI开发者也经常基于数据训练具有的典型的非表达性,提出合理使用抗辩。比如,Concord Music Group, Inc. v. Anthropic PBC案中,Anthropic公司就认为,数据训练并不是为了使用歌曲中的表达性要素,而是为了让GenAI识别和理解歌曲中的语言模式,因此其使用的目的具有高度的“转换性”。
(2)数据训练具有非传播性
传统著作权法赋予著作权人诸多专有权利,其目的并不是使作者绝对垄断对作品的使用,其原则上只限于垄断“与公众接触”的使用。正所谓“无
传播也就无权利”,通常,只有在作品被公开传播,才能构成对著作权人作品的市场替代和利益侵害。而GenAI整个数据训练流程对作品数据的使用,是内在的、隐含的、非感知的,原则上不与公众发生接触,GenAI开发者既无动机也没必要向公众传播和分享原作品的独创性表达。在此情况下,GenAI数据训练中的作品使用行为,不追求占据原作品的市场,不会与作品的正常利用相冲突。在UMG Recordings, Inc. et al v. Uncharted Labs, Inc. et al中,被告就提出抗辩,在公众不可见的技术流程中复制作品应当属于合理使用。与此类似,在Andersen v. Stability AI Ltd.中,被告DeviantArt也认为,其没有以任何方式向公众传播用于数据训练的作品的表达。
3. 数据训练不会不合理地损害著作权人的合法权益
(1)不会损害传统作品市场中的利益
所谓“不会不合理地损害著作权人的合法权益”,指的是对著作权人的经济利益影响,是否达到了“不合理”的程度。如今,作品的市场可区分为传统市场和数据市场。传统市场以阅读作品为核心,以作品所体现出来的文学和艺术等价值为基础。而数据市场则是把作品作为数据要素建立起的数据市场。传统的作品市场以阅读和欣赏作品为核心,而GenAI训练的过程具有非公开都主张放开对“三步检验法”的限制,采用开放式立法的模式,赋予法官在个案中创设新的合理使用情形的裁判权。但是,我国负有遵守“三步检验法”的国际义务,必须严格限制著作权合理使用规则的适用。并且,我国并非判例法国家,在过去封闭式立法模式之下,我国司法实践并未积累足够的依据个案认定“合理使用”的经验。
因此,为数据训练设置著作权合理使用规则,应当专门增设一个“类型化条款”,明确数据训练合理使用规则的构成要件,保证法官在认定数据训练构成合理使用时,有明确的法律依据。
(2)在AI专门立法中增设数据训练合理使用规则
关于如何增设合理使用规则,我国学者多主张,应以我国《著作权法》第二十四条规定的“兜底条款”为制度接口,通过修改《中华人民共和国著作权法实施条例》来进行。而本文认为,在AI相关立法中构建合理使用规则可能更为适宜。理由在于:
一是该合理使用规则本就是为因应人工智能产业发展而设置的,制度建构不应局限于传统部门法的固有理念和调整思路,而应当从个体权利保护思路转向数据要素利用思路。
二是诸如著作权、个人信息权益以及隐私权等诸多在先权利交织叠加在训练数据集上,规则的设计必须考虑到著作权、个人信息权益等各项权利内容数字化后的共性,进行统一建构,以避免部门法“各自为政”的缺陷。
2. 数据训练著作权合理使用规则的设计
(1)适用条件:可以适用于营利性行为
为了给AI产业创造宽松的制度环境,在建立数据训练合理使用规则时,不应将之限制在科学研究机构的非营利的科研活动中。因为,基于当前我国GenAI开发的产业实践,除了由国家财政扶持的科学研究机构有海量数据的需
求外,其他营利性机构也有使用海量数据的需求,它们也会承担服务国家需求的AI技术的研发和应用任务。比如,科技部主导下的“新一代AI开放创新平台”,依托的均为诸如百度、阿里云、商汤等商业性互联网公司,如果将其排除在合理使用之外,肯定不符合我国AI发展现状和布局。另外,如果将营利机构和企业排除在外,这些营利机构和企业就有可能将相关产业转移至法律制度宽松的国家和地区,例如被称为“机器学习和文本数据挖掘天堂”的日本,这势必会迟滞我国GenAI产业的发展。
(2)适用行为:合理界定应包括的作品使用行为
GenAI的“输入端”,可能涉及对作品的复制、改编等诸多著作权法意义上的行为,对“输入端”的作品使用行为应当进行整体考察,侧重一系列作品使用行为的整体效果。所以,针对数据训练的合理使用是涵盖多项权利的
一揽子侵权豁免,而不是仅指复制权等单项权利的侵权豁免。欧盟的《单一数字市场版权指令》仅将“文本与数据挖掘例外”的适用行为规定为“复制和提取”,显然无法囊括GenAI数据训练所涉及的所有作品使用行为。我国不应效仿欧盟对使用行为进行过度的限定,而应尽可能囊括GenAI数据训练过程中涉及的作品使用行为。
因此,建议应采取概括性的表述,仅强调,在机器学习、文本数据挖掘等计算机分析过程中,使用他人已经发表的作品的,构成合理使用。但是,应将传播行为排除在外。
(3)限制要件:强调数据来源的合法性
关于作品数据是否应当具有合法来源,境外立法均持肯定态度?!栋旆ā返谄咛跻惨?,应当“使用具有合法来源的数据”。但是,何谓“具有合法来源的数据”,《办法》并没有明确的规定。本文认为,数据来源的合法
性并不等同于必须获得权利人的明确授权,而是强调作品数据的“合法获取”,即需要合法购买作品复制件或者至少取得合法接触作品的权利。
引入“合法获取”概念,有助于实现著作权人对作品的控制,使非法的作品抓取和收集行为的责任不再被豁免。同时,也可以为著作权人与GenAI开发者保留一定的自由协商的制度空间,为AI时代著作权利益分配机制的构建留有余地,这对于平衡著作权人利益和GenAI产业的发展至关重要。
(4)不宜设置著作权人的声明退出机制
欧盟《单一数字市场版权指令》针对“非科研目的的使用”,规定了著作权人享有声明退出的权利。并且,欧盟《人工智能法案》又在“鉴于”部分的第105条、第106条、第107条以及第108条中,反复强调设置著作权人声明退出机制的重要性。为缓解著作权人对该合理使用规则的抵触情绪,我国也有学者主张借鉴欧盟的做法,为数据训练的合理使用规则设置一个“附加退出机
制”。但是,“声明退出机制”存在被著作权人滥用的风险,这相当于赋予了著作权人排除合理使用规则适用的权利,由此可能导致合理使用规则的实施效果大打折扣。并且,强调作品数据来源的合法性或者“合法获取”,足以让著作权人从作品的使用中获益。因此,我国的GenAI数据训练合理使用规则,不宜设置著作权人的声明退出机制。
综上所述,建议在AI专门立法中,为数据训练增设具体的合理使用规则,规则可表述为:“为进行机器学习、文本与数据挖掘等计算机信息处理,使用具有合法来源并已经发表的作品的,并且不影响该作品的正常使用,也没有不合理地损害著作权人的合法权益,则该使用行为属于合理使用。但不得以广播、信息网络传播等传播方式向公众提供该作品。”同时,应当认识到,单纯的合理使用规则仍不足以保障GenAI获得充分的作品数据。只有建立专门的数据流通和利用规则,推进高质量的中文数据库建设,让海量、类型多样和权利人分散的作品数据聚合起来、流动起来,方能充分实现作品数据要素的价值。