12月21日,中国商务部公布了修订后的《中国禁止出口限制出口技术目录》,自公布之日起实施。这次目录修订对编号086501X的“信息处理技术”第18项“基于数据分析的个性化信息推送服务技术”进行了细化,用括号明确标明该项技术主要指五类:“基于海量数据持续训练优化的用户个性化偏好学习技术、用户个性化偏好实时感知技术、信息内容特征建模技术、用户偏好与信息内容匹配分析技术、用于支撑推荐算法的大规模分布式实时计算技术等”。
和美国控制技术出口统一适用出口管制规则不同,中国对技术出口的控制分成了两套体系:一套以《出口管制法》为依据,针对军用和军民两用技术,通过商务部和海关总署发布并保持更新的《两用物项和技术出口许可证管理目录》进行控制;一套以《对外贸易法》+《技术进出口管理条例》为依据,针对出口管制不覆盖的民用技术,通过商务部、科技部发布并保持更新的《中国禁止出口限制出口技术目录》实施控制,属于《目录》禁止出口的技术,不得出口。属于限制出口的,向地方商务厅申请和拿到许可证后才能出口。
如果说出口管制更多着眼于防扩散和保持军事优势、维护国家安全的考虑,禁限技术出口制度则主要考虑的是维持国家科技优势和竞争力。因为民用技术原则上不涉及国家安全,是国际贸易的重要标的。改革开放以来我国积极参与国际技术贸易,获得了全球的技术资源,提升了自己的科技实力,现在也开始把很多国产技术卖到国外。统计显示,仅2019年一年,中国对一带一路沿线国家的技术出口额就同比增长了41.8%,在信息通信技术、计算机服务技术等我国占据优势的领域,市场空间尤其广阔。
因此,我国要禁止限制出口的技术应该是自己在世界范围内领先、不太希望其他国家拿到的技术,同时要注意不影响正常的国际技术贸易。所以我们能看到这次修订把一些技术出口禁令和限制解除了,比如绿色植物生产调节剂制造技术、医用诊断器械及设备制造技术、目标特征提取及识别技术等。
如果从这个出发点去看更新后的目录对“基于数据分析的个性化信息推送服务技术”的出口限制,可能会发现一些很有意思、值得讨论的问题。
“基于数据分析的个性化信息推送服务技术”,说人话就是我们耳熟能详的“推荐算法”,目前可以说已经渗透到人们数字生活的方方面面。各类社交媒体平台的 “猜你喜欢”、“相关阅读”你一定不陌生,一些电商应用的“看了还看”、“买了还买”,想必你也很喜闻乐见。我们登录淘宝、京东app或者网页端,每个用户的首页展示都是个性化推荐算法根据用户行为偏好进行的推荐。它基于用户的兴趣爱好,把用户感兴趣的物品或者视频、资讯等主动推荐给用户,解决信息过载和长尾问题。我国一直没有把这种技术作为限制出口的技术进行管控,但2020年商务部、科技部调整并公布了《中国禁止出口限制出口技术目录》,第一次将“基于数据分析的个性化信息推送服务技术”列入限制出口的范围。
推荐算法的运行需要三个基本的元素:构成算法的源代码、训练算法模型要用的数据、数据训练后形成的算法模型参数。如果把算法训练比作小孩学习英语的过程,源代码就是小孩的大脑组织和神经元,数据就是英语课本等学习材料,整个过程中有家长和老师的引导(企业的管理和运营),最后形成的模型就好比小孩经过大量训练后形成的、能自如输出英语的聪明脑袋。
笔者一直觉得,推荐算法算不上特别高精尖的、需要限制出口的“技术”。这种东西最早是美国企业发明的。1998年的时候,亚马逊就开始利用协同过滤算法判断网站上数以百万级的商品中哪些是用户喜欢的。谷歌的算法在大规模机器学习领域领先其他公司很多。Facebook的算法基于前端和产品的结合以及广告系统效果在业内也优势明显。这类算法的代码很多都已经开源了,在Github这些网站上很容易找到。
中国的推荐算法源代码建立在美国同行这些早期研发的算法源代码基础上,没有多少独创性和显著优势,至于编译器、语言、人工智能等底层技术能力和美国的差距更是在大约10年左右。但我们的数据太丰富了、市场也足够大,世界上很难找出第二个,这些算法和中国的海量数据、丰富的应用场景结合,在应用层面、产品体验方面实现了质的提升,但这只能说算法和应用结合得好,不代表算法有多神。另外,算法源代码是随着算法训练不断更新迭代的,在一个时间点上的某套代码,可能过了几周就面目全非。所以,算法源代码本身不算特别需要限制出口的对象。
与源代码相比,算法模型参数决定着个性化推荐算法的精准度和匹配度,其实更像“技术”。但这种精准度和匹配度和特定的场景和用户群体的特征直接关联。如果换了场景(例如从内容资讯切换到电商)或换了用户群体(例如从中国用户切换到欧洲用户),同一套算法模型参数就不灵光了。道理很简单,裁缝量体裁衣裁剪出来的一套西装,突然换了一个体型完全不同的人穿,肯定不合身。
因此,我们假设一家公司的算法模型参数被另外一家外国公司偷走了,这家公司如果不向中国用户提供相同的服务的话,实际上没什么用。当然,如果算法模型参数是基于海量中国用户的数据训练出来的,即便无法反向倒推原始数据,被外国拿到可能也有国家安全方面的关切,控制出口有一定道理,但此种情况下,控制的对象似乎不应该是笼统的“个性化信息推送服务技术”或“推荐算法”,而应该精准框定为“算法模型参数”。
怎么才算“基于数据分析的个性化信息推送服务技术”的“出口”,似乎也颇值玩味。根据《技术进出口管理条例》,判断是不是出口以技术有没有跨越中国国境为标准。推荐算法的应用范围太广泛了,电子商务、音视频、社交网络、网络小说、外卖打车、个性化广告,没有不用到这种算法的。国家鼓励国际数字贸易,支持中国的数字企业走出去向全球提供数字服务,比如阿里和京东的跨境电商在海外有不少用户。那么这些业态丰富的跨境数字服务算技术服务还是算商品服务?它们用的推荐算法是不是也跟着服务一起出去了?如果这算出口的话,需要跟地方商务厅申请许可证吗?
再者,算法透明和可解释已经是世界范围内算法治理的潮流。例如欧盟的《数字市场法》多个条款允许监管部门为了执法和检查等需要访问企业的算法。企业如果不配合,最高可能被处以上一财年总营业额1%的巨额罚款。生成式人工智能也会用到推荐算法,通过分析用户的历史行为和偏好为他们推荐感兴趣的内容。可能很快通过的《欧盟人工智能法案》对“高风险人工智能系统”也提出了透明度要求,要求提供这类系统的企业在把产品投放市场或投入使用前编写技术文件,为监管部门提供所有必要的信息,其中一部分就是对所使用的算法的描述,包括算法如何提供人工智能系统的整体处理或逻辑、不同参数的相关性等。如果企业不遵守,将被处以最高75万欧元的行政罚款。如果中国面向欧盟提供服务的企业今后为了合规需要不得不向欧盟监管部门披露算法,那算不算“技术出口”,是否需要拿到中国商务部门的许可证才能履行合规义务?如果商务部门不许出口,欧盟监管部门又要求提供,那这些企业岂不是要“怎么做都是错”?
综上所述,涉及算法的技术出口管理相比传统技术是更复杂的,对这类技术的出口限制过严可能制约跨境数字贸易。此外,是否需要获得许可很重要,获得许可的难度及所需时间多久、有没有一些绿色快捷通道同样比较关键。虽然限制出口了,但如实践当中企业仍然能比较方便快捷地拿到出口许可,影响也是可控的。目前,《技术进出口管理条例》对限制技术出口的审查采取先由地方商务厅初审发放“技术出口许可意向书”,再由商务部二审发放“技术出口许可证”的“两审制”,对一些时效性很强的国际技术合作来说可能就有点慢。相比之下,美国的技术出口许可是一审制,且有“通用许可”“多次有效许可”等更简便灵活的安排,照顾到了技术合作的时效性,似乎值得参考。