大模型时代非法获取计算机信息系统数据罪的限缩适用研究


云龙区法院 | 潘荣凯 邵其琪
中国矿业大学 | 蔡士林
引言
数据作为数字经济核心生产要素,在生成式人工智能快速发展中占据关键地位。人工智能大模型高度依赖海量数据完成训练迭代,数据采集、整合与利用已成为技术创新的核心环节。但当前司法实践中,非法获取计算机信息系统数据罪呈现扩张适用趋势,一定程度挤压人工智能产业合理数据使用空间,影响刑法规制与技术创新、数据流通之间的平衡。因此,有必要对该罪的对象界定、行为判断与结果评估进行分层限缩,从而实现实质违法性标准在数据刑法中的回归。
一非法获取计算机信息系统数据罪限缩适用的障碍
(一)不法对象的非理性扩张
根据《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全应用法律若干问题的解释》(以下简称《2011年解释》)规定,本罪应当仅限于“非法获取身份认证信息”的行为,[1]并将其具象化为“用于确认用户在计算机信息系统上操作权限的数据,包括账号、口令、密码等”,这也成为定罪量刑的核心要素。而数据具有明显层次属性,即外部身份属性和内部经济属性,外部身份属性与计算机信息系统紧密相连,故而纳入计算机犯罪或数据犯罪范畴;而内部经济属性可以转化为不同的实体利益,因此表现为不同的罪名形式。对此类非身份认证数据的扩张性适用,可能会弱化刑法规范的明确性与可预见性。
在一切皆可数字化的进程中,物理空间的物质实体正在以数据载体的形式呈现,进而出现了数字财产、数字政府、数字经济、数字生态以及数字人等数字时代的经济基础。[2]而这其中必然也存在诸多除涉个人信息、商业秘密、国家秘密等已受刑法保护数据之外的一般数据。一般数据是否为本罪的规制对象直接关系人工智能语料库的建设,也影响着人工智能模型的迭代速度。若将一般数据予以犯罪化处理,则将影响公民与企业在数据利用中的合理预期,可能导致合法经营者陷入数据困境,一些不法分子为获取数据利益铤而走险等,不利于数据经济环境的健康发展。[3]
(二)行为不法判定的认定偏差
实践中,行为人使用自动化工具、脚本程序或爬虫技术,即可能被简单归结为“未经授权”的技术侵入行为,甚至不论具体行为是否实际破坏或绕过了实质性保护措施,也不论数据本身的敏感性与保护强度,均可能直接纳入刑罚打击的范围之内。这种技术化认定模式的局限在于过度强调工具与手段,而未能准确回应刑法中对法益侵害实质性判断的核心要求。数据爬取工具本质上属于技术工具范畴,而非天然具有侵害性。如果脱离技术工具的具体运用场景、造成的实际侵害后果进行深入甄别,仅以是否采用技术规避手段作为判定标准,可能会导致合法与不法行为边界模糊,造成该罪适用范围的扩张与泛化。
(三)结果不法的判定思维受限
当前结果不法的实践判断日益向行为人视角滑移,表现为对违法所得与行为动机的高度敏感,而对法益是否具体、明确、可证地受到损害则缺乏严谨考察。若片面以“是否获利”判断社会危害性程度,而不审查被害人是否存在实际利益受损、数据完整性受破坏或使用能力受限等具体后果,则会导致行为的入罪逻辑错位。这一评价结构的错位,使得刑法责任认定从法益损害的客观后果转向行为结果的外观呈现,进而产生“获利即犯罪”的推定逻辑。此种推定路径使数据的使用目的、工具配置、技术路径等行为细节成为结果不法的评估替代项,会侵蚀刑法本应维系的行为—结果—法益之间的因果评判链条。
与传统财产相比,数据作为新型法益客体,其价值形态具有更为复杂的生命周期逻辑,表现为非排他性、可复制性与动态价值浮动。在这一前提下,若仍以传统财产犯罪的静态价值判断路径来评估数据所涉结果不法,不仅无法真实揭示行为是否造成实际损害,亦可能导致刑罚评价的事实基础失衡。将“被抓取数据”的市场标价或平台定价视为损失总额,实则忽略了数据本身作为资产类别的浮动性:其价值往往依赖于实时性、完整性、独占性和应用场景,在被获取后并不必然即告灭失。事实上,数据的经济意义并不在于单次存储,而在于围绕其构建的数据生态与利用模式。如人工智能大模型在获取公开网页数据后,是否使原数据控制人遭受价值剥夺,需结合数据类型、控制性、处理方式及是否导致实际竞争秩序破坏等维度加以分析。
二非法获取计算机信息系统数据罪限缩适用的法理基础
(一)法益保护的精准定位
本罪的限缩适用,首先应厘清刑法保护法益的内涵与边界。身份安全关系用户的财产、个人隐私,甚至是国家秘密,因此可以视为社会管理秩序的重要组成部分。数字时代,数据化的身份安全与不同场景、不同APP甚至不同地域紧密相连。数据犯罪只有在侵犯了可转化为具体法益的内容,而非抽象法益之际,才符合刑事不法的判断。因此,只有数据犯罪侵害法益内容与身份安全相关联,才能认定为本罪。例如,A公司网站公布了本年度的盈利和人事变动状况,人工智能大数据模型在数据训练过程中,将这些数据爬取后录入语料库之中。A公司的此类数据不属于《2011年解释》中的身份安全指向,因此不存在适用本罪的前提条件。当然,倘若人工智能大数据模型“超越授权”或“未经授权”抓取企业内部的商业数据进行训练,此时非法获取数据的行为侵害的是数据转化后的商业秘密,可依照侵犯商业秘密罪予以处罚。
(二)法秩序统一性的内在要求
主流观点缓和的违法一元论认为,由于不同法域的违法性存在阶段性差异,可罚性的“量”与“质”也明显不同,故而刑法的可罚性必须满足“质”和“量”的要求。[4]我国《数据安全法》《民法典》《知识产权法》对数据获取行为中的同意机制的规定,不仅是对民事权利主体自治的体现,更蕴含着刑法违法性认定的关键尺度。本罪不法性的判定须排除具备合法授权或同意的行为,这一阻却机制可以避免刑法的越位。例如,人工智能大数据模型通过严格的用户授权和同意机制实现数据采集,充分体现了前置法对数据主体意志的尊重与保护。此外,刑法介入须基于行为对核心法益的实质侵害,而我国前置法对科研及公共利益领域数据合理使用的认可,体现了法律对复杂法益关系的动态平衡与制度安排。这种平衡涵盖数据保护与社会公共利益、科学研究自由的冲突调和,是法律价值多元性的集中体现。刑法若忽视此种前置法的权衡,简单以未获同意认定为本罪,将破坏这一制度平衡,造成法益保护的功能失调。
三非法获取计算机信息系统数据罪限缩的适用路径建构
(一)犯罪对象限缩:排除“一般数据”和“已公开数据”
受秩序法益的影响,借助一般数据获利即入罪的做法并不能建立集体法益与个人利益的正向联系。人工智能大模型以牺牲数据持有者的利益为代价(“利己不损人”)的单纯获利行为不应成为本罪的规制对象。“获利即入罪”的思维将数额与社会危害性或社会秩序紧密绑定,忽略了利益无主化的命运。利益无主化是指在司法过程中不恰当地将刑法规制范围扩大,认为只要行为人获得了经济利益就应当构成犯罪,而未对实际法益侵害进行充分审查和评估。例如,生成式人工智能模型借助其出色的推理能力和算法优势,利用一般数据获利颇丰,如果认为侵害了秩序法益,那么此种法益的主体是谁?答案是不存在的。退一步而言,即便生成式人工智能模型在数据获取过程中存在违反《数据安全法》等行政法规的情形,其行为性质未必直接触及国家利益层面,更不应轻易动用刑罚手段进行规制。
国产大模型的应用和普及,是打破网络资源壁垒、推动传播权力下放以及促进移动互联网智能化发展的关键动力。[5]而互联网上的已公开数据已经成为国产大模型的主要语料来源,不宜将公开数据的获取行为定性为本罪。自愿公开的数据在技术防御环节要求的手动身份验证程序只是基于《数据安全法》《网络安全法》以及《个人信息保护法》而设定,故而其即便违反该规则,也不属于违反技术保护措施的数据犯罪情状。实践案例也印证了这一观点。例如在“酷米案”中,[6]尽管行为人获取了企业数据,但由于该数据已经公开,用户可以自由访问,故而不构成非法获取计算机信息系统数据罪。倘其获取自愿公开数据,应当基于实质违法性判断立场通过实质标准予以出罪。[7]
(二)行为不法的收缩:技术与刑法的嵌合治理
对爬虫技术进行法律归化,是数据犯罪治理的必然选择,也是大模型发展的关键。爬虫作为人工智能社会的鲜明特征,其不断迭代和更新的发展态势决定了网络社会的治理必须将技术的转化与驯服作为重点。[8]某种意义上而言,技术与刑法的良性嵌合程度越高,爬虫技术法律归化的程度和治理水准也同步增高。爬虫作为一种包括大模型在内广泛使用的自动化数据抓取工具,用于商业分析、公共信息服务和竞争情报研究,但由于信息来源的复杂性与敏感性,也易触及数据安全等问题。技术治理层面可以通过设置“数据匿名化”“隐私过滤器”等算法防控手段,使爬虫在数据抓取和分析过程中自觉规避敏感信息,降低刑法介入的必要性与频率。这种主动预防机制体现了技术治理自身的强大约束力和前置性治理效能,促使刑法规制在实现保护法益目标时,适度收缩干预边界。
爬虫的技术架构机理和刑法的底层逻辑,可以为非法获取计算机信息系统数据罪行为不法的判定提供依据。爬虫的技术架构可以分为三个层次:接入设施(底层)、控制程序(中间层)与数据内容(顶层)。首先,作为一种以大模型训练与生成能力为导向的人工智能系统,人工智能大模型在运行中需广泛依赖大规模、高频率的数据采集机制,其底层接入设施主要依托分布式服务器集群、动态IP代理池与API接入路径构建爬虫通道,实现对互联网开放数据的自动化抓取。[9]在实践中,大模型使用多线程并发访问技术、智能IP轮换与模拟用户行为机制,对多个数据源进行深度爬取,容易触碰平台设定的反爬策略与访问频控门槛。基于爬虫的技术架构,可将其转化为“未经授权”和“超越授权”判定的标准。一是以技术防护实效为轴心的底层接入限缩,确立刑法规制的门槛。在数据技术治理中,底层接入环节决定了数据获取行为的基础合法性。底层接入的“授权”界定必须回归到客观的技术防护效果。只有当数据系统采取了实质性技术防线(如加密验证、动态令牌、接口访问限制等),并能有效阻挡普通用户或自动化工具的常规访问时,相关数据的爬取行为在技术突破、规避措施成立时方可认定为“未经授权”或“超越授权”,亦是进入刑法评价的实质门槛。二是以程序规避程度和行为属性为主线的中层控制限缩,厘定技术措施与数据犯罪的边界。程序系统层的“超越授权”判定应聚焦于行为手段与系统防护之间的“实质突破”。只有在爬虫程序明确针对平台设定的实质性技术边界(如强认证、动态交互校验、行为分析型防护)采取主动规避、破解、绕过措施,致使平台对核心或敏感数据的原有控制失效,方可认定为刑法意义上的“超越授权”。相反,程序自动化、数据接口调用、频次提升等措施,仅为提升效率、满足大规模处理需要,并不触及实质性技术保护,不应成为刑事规制对象。[10]三是以数据类型与法益实害为归属的顶层内容限缩,明晰刑法评价的利益重心与损害阈值。爬虫行为的社会危害性本质上取决于所获取数据的属性、用途及其对权利主体的现实损害。只有在行为人绕过技术防护获取的数据属于受法律重点保护的核心数据、重要数据等,并造成受害方经济损失或重大安全隐患时,才符合法益侵害的刑法规制要求。对于普通公开数据、用户自愿分享数据、开放平台数据,即使爬虫技术突破访问常规,亦应通过行政、民事等手段规制,而非采用刑罚手段。
(三)结果不法的收紧:经济损失为主,将利己不损人的行为予以出罪
一是结果不法判定标准应以被害人经济损失为核心。经济损失标准的确立不仅客观、可衡量,且与传统的个人财产法益、商业利益法益保护原则高度契合。例如,大模型通过爬虫技术抓取数据,如果被害单位确实存在数据控制权,但未导致数据本身实质性受损或商业竞争优势直接受损,那么不应认定为犯罪,而应仅视为普通民事争议或不当竞争问题进行处理。相反,若因非法获取数据行为直接导致被害单位产生明确的、可量化的经济损失,例如因技术安全防护措施破坏而产生维修费用或因数据泄漏造成的直接经济损失,可构成刑事不法。
二是不宜简单地以数据的原始经济价值作为唯一标准,而应当考虑数据的折损率。数据作为一种特殊的资源,其价值不同于传统有形财产。数据转化后的经济价值高度依赖于数据的时效性、独占性及潜在的商业利用能力。大模型非法获取数据的行为虽然可能直接导致被害人失去对数据的独占控制权,但数据本身的经济价值并非随获取行为直接完全丧失,而是会在数据被非法获取后逐渐衰减。折损率即为数据因被非法获取后,在后续时间内商业价值逐渐递减的比率。若完全按数据原始经济价值定罪量刑,可能高估了非法获取行为的实际损害程度,进而过度扩大刑法适用范围,违反了刑法谦抑性原则。譬如,对于实时数据或时效性较强的数据,其最初获取时的经济价值固然高昂,但数据随着时间推移而快速贬值,一旦非法获取行为并未使被害人彻底丧失对数据的所有利用机会,而仅是短暂或部分性地影响了其商业用途,那么直接以原始经济价值计算损失就有失公允。
四结语
大模型时代的数据刑事规制,既要守住安全底线,也要保障其发展和创新空间。本文通过限缩犯罪对象、明确行为边界、收紧结果评价等,明确实质违法性判断标准,旨在回应数字经济时代的法治需求,平衡数据安全与技术发展的关系,助力人工智能产业健康发展。
注释(上下滑动阅览)
[1]《2011年解释》第一条规定:“获取支付结算、证券交易、期货交易等网络金融服务的身份认证信息10组以上。”
[2]参见包晓丽:《二阶序列式数据确权规则》,载《清华法学》2022年第3期。
[3]参见邰江丽:《数据流通:人工智能产业发展的关键》,载《数字法治》2024年第6期。
[4]参见王昭武:《法秩序统一性视野下违法判断的相对性》,载《中外法学》2015年第1期。
[5]参见张文杰:《提示词治理:DeepSeek等国产大模型内容生成的人机协同模式》,载《苏州大学学报(哲学社会科学版)》2025年第2期。
[6]深圳市谷某科技有限公司诉武汉元某科技有限公司等不正当竞争纠纷案,广东省深圳市中级人民法院(2017)粤03民初822号。
[7]参见刘艳红:《网络爬虫行为得刑事规制研究——以侵犯公民个人信息罪为视角》,载《政治与法律》2019年第11期。
[8]参见崔国斌:《网络反爬虫措施的法律定性》,载《中国法律评论》2023年第6期。
[9]参见韩贝等:《基于 Scrapy 框架的网络爬虫与反爬虫》,载《计算机技术与发展》2019年第2期。
[10]参见喻海松:《网络犯罪二十讲》,法律出版社2018年版,第30页。
*本文为作者个人观点,仅供理论研究和实践探索参考。
来源:徐州中院
编辑:Sharon



