数据、数据关系与数字时代的创新范式

2024-11-29 作者:江小涓 宫建霞 李秋甫 来源:《中国社会科学》2024年第9期P185—P203

微信公众号

分享
链接已复制

摘  要:科技创新在不同时代呈现不同特点。从数据生成、传递和获取,数据交互能力,数据共享能力以及数据数量、深度和广度等维度,观察分析数字时代的科技与产业创新,能够为回顾创新范式演进历程提供新的视角。在数据和数据关系驱动的创新范式中,数据洞察能力和理论逻辑能力交互耦合成为创新的关键源泉,规模涌现效应使大型平台在创新链条中的地位显著前移并全面提升,开源开放式创新则是提升数据汇聚交互能力和优化创新资源配置的重要组织形态。数据和数据关系的重要性生发出新的科技伦理问题,进而对人类社会的传统秩序带来挑战。深刻理解和把握新的创新范式,对于深化创新理论研究、构建国家创新体系以及强化创新政策导向等意义重大。

关键词:科技创新;创新范式;数据关系;数字时代;科技伦理

作者江小涓,中国社会科学院大学教授(北京102488);宫建霞,中国社会科学院财经战略研究院博士后(北京100006);李秋甫,清华大学马克思主义学院助理研究员(北京100084)。

  前言 

  进入21世纪,以互联网、大数据、人工智能为代表的数字技术带来数据生成、传递和处理能力的极大提升,数据关系重新定义创新链条上各方的交互方式和地位作用,创新要素、创新主体、创新过程和创新组织等方面发生重要改变,这些改变导致数字时代的创新范式呈现出数据和数据关系驱动的新形态。 

  科技界对于大数据带来的科学价值早有探讨,普遍认为海量数据和智能分析工具正在推动科学研究向数据驱动的科研范式转变,在高能物理、生物医学、地球科学、海洋科学等以信息科学为支撑的基础研究领域,源自高密度、高通量数据技术的科学发现变得愈加重要。本文研究“创新范式”问题,创新范式的内涵更广泛、链条更长。从创新内涵看,创新不仅包括科学发现,更是科学、技术、企业家精神、市场结构、产业组织和有关制度的复杂综合体;从创新链条看,创新不仅涉及科学研究,更要向技术开发、产业转化、市场应用和收益回报等产学研用全链条推进,形成完整的商业模式。迄今学术界较少关注海量数据出现带给创新过程的系统性影响及其对社会经济体系的整体影响。本文重点聚焦这一变化引致的创新范式变革,以期刻画数字时代创新的内在特征和基本规律。 

   创新在不同时代呈现出不同特点,这是创新理论研究的重要内容。范式是某一学科内被人们共同接受、使用、遵循的一整套概念体系和分析方法。20世纪50年代以来,一些研究者从不同视角对科技创新范式的演进脉络进行了梳理和分析。其中最具代表性的,是英国经济学家Rothwell总结提炼出的“五代创新范式”,清晰呈现了不同时期学者对创新理论的探索和体系构建过程。第一代:技术推动的线性范式(1950—1960),第二次世界大战后,社会需求远大于科技供给,创新是基础研究—应用研究—开发研究—产业化的线性过程。第二代:需求拉动的线性范式(1960—1970),此时社会供给和需求总体平衡,市场需求在创新过程中起到关键作用。第三代:技术与市场的耦合范式(1970—1980),世界经济进入高通胀率和需求饱和并存的时代,创新是技术和市场交互作用的结果。对此,Kamien和Schwartz提出市场结构论,提出技术变革论。第四代:技术创新的整合范式(1980—1990),社会供求进入动态平衡期,创新是研发、设计、生产和市场销售等同时展开的并行过程,强调不同职能间的联系和互动。同一时期,Kline和Rosenberg提出的链环回路模型(Chain-linked Model),Von Hippel提出的“领先用户创新”概念进入理论研究视野。进入20世纪90年代,Rothwell认为第五代创新范式即“系统集成与信息化范式”兴起,当时社会供求关系变化提速、市场竞争更加激烈,一些领先的企业运用信息技术实现更加整合、更加紧密的企业间纵向和横向联系。随着创新过程发生变化,创新的组织方式也在实践中不断调整。进入21世纪,诸多研究进展和理论逻辑都可以较好整合至上述范式演进脉络中。综上所述,以往科技创新范式主要循着科技供给推进和市场需求牵引两条轨迹及其交互关系这个主线演进,有效映射出彼时科技创新范式的时代特点。 

   现在,数字技术的迅速发展和海量数据的产生已经广泛渗透到社会经济、科学技术等各个领域,其对创新范式的影响得到学术界的关注和讨论。图灵奖得主、关系型数据库的鼻祖Gray认为,“数据密集型”的科学范式已经成为数字时代科学研究的主要范式。特别是在人工智能这类复杂信息系统领域,创新范式向以“信息生态演化方法论”和“全局模拟方法”为标志的信息学科范式变迁。虽然不同学者探索研究的角度不同、具体内容多样,但理论的推理和对实际问题的观察均表明,随着数字技术的深入发展,创新范式已经发生重要变化。以往创新范式与科学研究范式并不交叉,创新范式主要沿袭创新链条上各方关系这条主线,科研范式主要体现科学发现的普遍手段,进入数字时代,两个范式有相当程度的交叉融合,“数据密集型”范式不仅能够刻画科学研究范式,也能刻画创新过程的特征。本文将从数字时代带来的新变化出发,引入新的思路和分析框架,探讨这些变化带来的创新范式的深刻变革。 

  数据、数据关系及其对创新范式的影响 

  当前,数字技术的发展已经引起创新范式诸多重要变化,这种变化并非原来创新范式内部因素和结构的调整,而是“数据”这个新要素和数据复杂交互形成的“数据关系”这些新变量加入所引发的创新要素、创新主体、创新过程和创新组织的深刻变革。 

  在数字时代之前,信息在科技创新中的举足轻重作用广泛被学术文献和著作提及。信息论奠基人Shannon认为,信息是对不确定性的消除。控制论创始Wiene提出,世界由物质、能量和信息三大要素构成,信息是事物运动的一种外在表现和状态,代表熵的减少。这两个观点对理解信息的本质和价值具有奠基性的重要意义,也成为学者们从信息角度研究科技创新的出发点。Nonaka从知识管理的角度指出,企业创新是一种知识创造,信息的流动能够增加、重组和改变隐性知识和显性知识之间的相互转化,从而产生新知识。也有学者认为,创新是利用现有信息产生新信息的过程,创新主体通过对反映自然现象与规律的信息进行识别、加工和开发,产生特定的知识信息和社会信息。这些经典论述都强调了信息对科技创新的重要性。 

   进入数字时代,知识、智力、创意、资本等创新元素依然重要,而“数据”不仅成为科研活动的重要要素,并正从底层改变创新要素构成。对创新本身而言,数据的重要性取决于数据规模和数据关系两个维度,这里对数据关系的重要性作以专门说明。虽然大数据通常被理解为数量巨大的数据集合,但从本质上看,物质世界的诸多奥秘都可以从数据之间关系的维度来理解。算法的本质就是在寻找数据之间的关系,深度学习就是学习如何发现数据间存在的各种关联。例如,Transformer神经网络架构特别擅长捕捉长序列的上下文关系(Long-Range Dependency),其核心是一种被称为自注意力(Self-Attention)的机制,使模型能够在一段序列中识别各个元素与其他元素的相关程度,从而在语言情境下识别一句话中所有词汇之间的相关性。AlphaFold预测蛋白质结构的本质,是寻求氨基酸之间的相互关系。它的成功表明,只要是可以表示为序列的数据,不管是文字、语音、图像,还是蛋白质序列,都可以使用Transformer捕捉上下文关系。因此,大规模数据的意义在于可以通过算法找出更多的数据关系。从宏观角度看,数据在本质上体现为一种关系性。寻求相关关系或因果关系的定量分析,就是为了探求数据之间的关系。同时,数据具有可以无限次复用和融合的性质,数据之间产生交互、融合和分享的过程,就是数据关系的形成过程。同一组数据,分享愈多、交互和融合愈多,就会产生叠加和倍增效应,创造的价值也就愈大。为此,本文围绕数据及数据关系的相关特性,抽取四个重要维度,即数据生成、传递和获取,数据交互能力,数据共享能力以及数据数量、深度和广度,由此建构数字时代的创新范式演进框架,探析数字时代科技创新的内在逻辑和客观规律。 

   讨论创新范式演进可以有不同的逻辑,本文希望探求有跨代包容性的分析框架,用大致相同的一组维度来标识不同时代的创新范式。从这个角度看,“数据”和“数据关系”视角不仅能有效映射当下科学、技术和产业三者之间的关系,还为理解创新范式的演进提供了逻辑一致的新维度。这一视角下的创新范式演进可以大致描述为:较早时期,由于信息数量稀缺、信息传递不畅与信息交互的地理局限,科学、技术和产业发展不能相互知晓,科学侧重理论研究,技术侧重应用研究,创新活动主要局限在企业内部,对外部资源利用有限,创新组织形态是边界封闭型。20世纪中期以来,个人计算机等信息传递技术的发展和载体的丰富(如学术期刊),使科学技术化和技术科学化趋势日益明显,科学、技术与产业的关联度开始形成并不断加强,不同组织之间直接和间接的信息交互增多,不过此时合作往往限于一个具体产品链条产生的利益共同体,创新组织形态是闭环合作型。进入21世纪,互联网、大数据、物联网等信息技术快速发展,原始信息伴随科学技术与产业活动同步产生,信息数量、广度和深度极大提升,信息共享和交互能力极大增强,科学与技术融合成为趋势,科学研究更多直接导向应用,实验室与生产线连接在一起,企业创新资源连接和跨界重组聚合能力随之拓展,边界开放型创新形态应运而生(见图1)。 

  (一)数据生成、传递和获取 

  创新某种程度上是利用现有信息产生新信息的过程,信息生成、传递和获取速度是创新的决定因素之一。随着互联网技术的快速发展,信息传递速度越来越快,传递距离越来越远,传递方向也由单向传递发展到双向和多向传递,科学、技术与产业的互动更加密切。有研究表明,在2012—2016年间,自然指数期刊中85%的企业出版物是与学术科学家共同撰写的,这些联合出版物引用率高于平均水平。企业研究人员获得进入公共科学和学术网络的权利,同时科学研究在产业界激发了许多新的项目想法和根本性创新。另一项以2007—2016年490家中国上市公司为样本的研究显示,信息传递和获取对于创新有重要影响。 

   数字技术的广泛应用使数据成为信息的重要形态,其生成、传递和获取更加便利。原始数据伴随科学技术和生产生活行为同步产生并以数字化形态表达,无需专门生成、传递和获取。例如,消费平台上消费者的行为数据自动产生且时时更新;产业互联网平台上的人、机、物都在持续生成数据并被上传到平台;无人驾驶汽车上装载了各种数据获取、生成和传输的软硬件,实时采集和传输“人—车—路”数据到无人驾驶云平台,平台各参与方(芯片制造企业、车联网企业、人工智能企业、激光雷达企业等)依赖车辆提供的数据实现技术共创。数字技术在提升数据传递速度的同时,还突破了数据链接限制,让技术创新直接触达分布全球的百万甚至千万潜在使用者,推动了技术的快速反馈和迭代。随着生成式人工智能(AI)技术的发展,AI逐渐发展为重要的信息生成主体,凭借不断迭代的算法以及由强大算力生成的合成数据,不仅能够拓展训练数据的多样性,而且能和真实世界数据配合使用提高模型安全性、可靠性和合规性。例如,AI文生视频模型Sora就采用了大量由游戏引擎生成的合成数据作为训练集。 

  (二)数据交互能力 

  创新是一个交互过程,需要不同组织、不同环节之间的信息交互。具有异质性能力的个体和组织间进行多维信息交互,能够提高交流效率和协同解决问题的能力,也让彼此融合多元外界知识和经验,促进新知识的创造。数据交互形成的多元“数据关系”成为组织内部或跨越组织边界协作创新的内核,不仅带来知识、技能和资源的互动,而且带来基于数据关系的“组织关系”的不断建构与演进。 

  数字时代,人与人、人与物、物与物之间呈现出高联通和多链接状态。人与人之间可以经互联网实现互联,各类在线社交网络、在线工作群组成为重要的交互和协作媒介;物与物之间通过各类数据传感设备与互联网相连,实现数据的实时反馈和交互。德国“工业4.0”又被称为“信息物理融合系统”(Cyber-Physical System, CPS),其底层逻辑就是机器对机器(M2M)通信的融合,即终端设备之间的数据传输与交互;人与物之间的交互呈现虚拟化,虚拟现实(Virtual Reality)、增强现实(Augmented Reality)和混合现实(Mixed Reality)技术的发展,使人机交互更加沉浸式和智能化。近些年,智能化交互技术取得快速发展。HoloLens2混合现实技术被应用于各类外科手术,医生在手术过程中可以对身体部位的3D全息影像进行360度转动和观察,实现操作的精准定位。 

   场景下的数据交互有特殊重要性。数据交互不再是简单的输入输出,而是数据—场景、人—场景、人—数据之间的全景立体式交互。例如,海尔搭建了创新平台HOPE,全球的用户、设计师、生产企业、研发人员可以在平台上零距离双向交互,实现创新资源的直接匹配。新冠疫情期间,有用户在HOPE上提出洗衣机的衣物消毒需求,并全流程参与方案设计与交互,在确定微蒸汽方案后,模块商、材料商、软件商等加入创新链,工厂按需实现大规模定制,生产过程全流程可视,产品上市后即实现热销。算法交互是数字时代一种独特且重要的数据交互方式。算法作为数字技术的核心,是关于解决问题的一系列清晰指令,也是对数据进行处理的策略机制。以开源软件开发为例,在跨时间和跨空间的分布式环境下,开源工作通过并行开发和模块化实现。随着算法复杂度的增加,软件开发过程中可能产生代码冲突、算法缺陷、安全缺陷等问题,需要依靠算法—算法、人—算法之间的交互进行沟通和协调,保障软件开发顺利推进。此外,大模型的发展带来全新的人机交互关系,以往的人机交互需要具备编程能力或专业知识的人员完成,而现在普通用户与机器能够进行个性化双向互动信息觅食,个体在人机对话过程中不断精确自己的数据需求,大模型不断深化对用户需求的理解,提供更加个性化的数据反馈。脑机接口技术则进一步将外部机器符号系统深度嵌入人类认知系统,某种程度上实现了人机信息交互系统的融合。 

  (三)数据共享能力 

  某种意义上,数字技术创新是数据共享交互作用下的涌现现象。数据交互是数据共享的一种特殊形态,但数据共享是更普遍的表现。在数据共享汇聚过程中,一方面,共享面扩大激发出更多数据;另一方面,具有不同认知、情感、行为的个体或群体产生难以预测的数据处理机制,使得数据涌现出前所未有的价值,激发创新灵感和创造行为。数字时代,特别是公共数据开放共享对于创新意义重大,其广泛可及性与包容性降低了创新门槛,赋能更多主体进入创新者群体;其丰富性和多样性既提供了知识发现的数据基础,又让创新者全面洞察市场需求,发现创新机会。 

  数字时代,“创新公地”成为数据共享、资源共享、创新共享的一种新的形态,大量普通民众成为创新主体。利用全球联网的计算机共同搜寻地外文明的科学实验计划SETI@home,其中心平台设立在伯克利空间科学实验室,全球有意贡献算力的志愿者可以通过一个共享的免费程序,分析从射电望远镜传来的数据。Smart Patients则是一个以健康为主题的创新公地,患者在此平台上可以共享医疗知识,了解最先进的科学治疗方案,并结合自身实际寻找合适的康复方案。 

   数据共享可以让更多创新主体使用数据进行协同创新。以自动驾驶技术为例,涉及激光雷达、高精定位、云计算等多种硬件与软件技术,任何一项技术的缺失或整合不力都会影响创新的步伐。2017年,自动驾驶开放平台Apollo以开源形式对外开放其积累的开放环境感知、路径规划、车载操作系统等AI算法,为参与方提供测试平台,成为创新的试验场和承载地。各合作方共享场景测试数据,如高速路货运场景数据、园区无人驾驶巴士场景数据、封闭厂区固定运输路线运输数据等,加快无人驾驶相关技术的升级优化。以ChatGPT为代表的大模型,对数据共享的要求成为关键。大模型训练和迭代需要的数据量高达到几百GB甚至TB的级别,只有共享全社会产生的海量多模态数据,创新才能得以推进。大模型的发展促进了数据共享,有利于弥合知识差距,赋予创新者所需的专业知识,同时以更直观和易交互的特点,吸引更多人参与到数据生成、共享和使用中。 

  (四)数据数量、深度和广度 

  知识本质上是对信息的理解和应用,信息数量越多意味着能够获得更多知识积累,形成更多新的理念或解决方案。信息的广度可以消除认知偏误,应对创新风险带来的不确定性,提升创新成功可能性。信息的深度可以理解为信息“质”的部分,直接影响信息蕴含的隐性价值。人类学家Geertz将哲学家Ryle“厚”与“薄”的哲学思想进行扩展后引入人类学研究之中,指出“深描”不仅包括事实的描述,还包括对描述的进一步诠释,具有特定细节、概念结构和丰富含义。深度信息某种程度上可以认为是“深描”信息。 

   数字时代,数据数量和广度构造了数据价值的重要基础。据Statista统计,2020年全球数据生产量达47ZB(1ZB等于1万亿GB),预计到2035年,数据量将增长45倍,扩展至2142ZB。移动互联网、物联网等技术使数据来源更加广泛、数据类型更加多样,为科学发现提供更全面的数据支撑。以往气象学主要依赖局部的气象站点观测数据,随着卫星和气象传感技术的发展,科学家能够收集更广泛的大气层数据、海温数据、云覆盖数据等,运用计算机更准确模拟地球气候系统。值得一提的是,海量数据有助于实现物理世界和数字世界的融合,催生出车联网、智能制造、远程医疗等日益丰富的数据创新应用场景。在健康医疗领域,除传统的生理指标数据、影像诊断数据外,可穿戴设备采集的日常心率、步数、睡眠质量数据,移动互联网收集的社交媒体数据,物联网设备采集的生存环境数据等,提供了“生理—心理—社会”的健康全局视图,促进了医学知识发现。 

  数据广度和深度支撑着新的工具方法和思维方式,赋予我们通过数据洞察和理解世界的能力。关联分析、知识图谱等数据挖掘方法可以挖掘数据间的更多关联模式,辅助知识发现。例如,以药理文本相似性为依据进行医学文献的数据挖掘,发现疾病治疗药物;计算模型(基于相关系数、方差分析、正态分布等统计方法)可以扩展数据审视维度,发现数据的更多特征、规律与趋势,谷歌利用搜索数据准确预测流感疫情就是经典案例;深度学习等技术突破数据处理约束和局部搜索路径,展现和人脑类似的观察和推演能力,2021年DeepMind团队让AI与数学家进行合作,在拓扑学和表象理论方面证明了两个数学新猜想;感知技术(如脑电、眼动技术等)可以数据化表达视觉、听觉、触觉等感官信息,揭示深层次的人类艺术审美、情感认知过程。 

   数据和数据关系驱动的创新是一种新的创新范式,目前尚缺乏有共识的理论体系或分析框架。“复杂性科学”是一个关联度相对较高、可以启发理解这个新范式的重要概念。“复杂性科学”发源于20世纪中期,科研人员发现传统的研究方法无法解释许多复杂现象,特别是那些包含海量相互作用个体、非线性、不处于同一个“科学范畴”内的复杂自然现象和经济社会现象。随后,作为复杂性科学理论深化的一个重要维度,复杂网络理论更注重网络内容分布、节点聚焦系数和网络无标度等特性。例如,大尺度生态系统和气候系统中多种因素及其相互作用、大脑功能及运行、生命体系的复杂交互、城市增长的复杂过程、社交网络中的多重关系、金融风险生成和控制等。然而,“复杂性科学”虽能正确观察到现象,并提出问题,但半个多世纪以来并没有得到长足发展,也没有形成较多重大标志性成果。这是由于缺乏解决复杂问题的科学工具和手段,如缺乏建模并进行计算的足够信息和计算能力,难以应对复杂性非常高的组合爆炸问题。 

   数据和数据关系驱动的创新,使人类不仅能观察到复杂科学问题,而且能够解决复杂科学问题。一是解决已知复杂问题。以海量数据和超级计算能力,延展人类知识生产视野,揭示以往人们已知方向却难以及时证实的复杂关联,极大提高科研效率。如AlphaFold2精确预测超过100万个物种的2.14亿个蛋白质三维结构。二是揭示未知复杂关系。在生物、制药、物理等诸多领域,海量数据和高效计算能力可以在不依靠假设的情况下发现数据间隐藏的复杂关联,重塑知识发现过程。中美合作的深度势能团队基于机器学习和大规模并行方法,将分子动力学模拟规模拓展到1亿个原子,效率提升1000倍以上。三是实时校正科研方向。面向非确定性、计算复杂性高的问题,科研人员可以将数据驱动和理论模型驱动方法相结合,更好地提出科学假设,优化实验设计,开展大规模并行模拟实验,实现过程性微调而无需失败后调整,加速科研探索的迭代演进。谷歌的GNoME通过强化学习模型和高通量第一性原理计算,寻找到38万个热力学稳定的晶体材料,极大提升了新材料按需研发速度。四是洞察颗粒化场景并赋能。数字技术的广泛深度应用快速提升了“现实世界像素”,数据对于场景刻画的颗粒度更加细微、覆盖面更加广阔,有助于为更精确的场景洞察赋能。个性化信息推送服务利用智能技术对大规模、细粒度的用户数据(浏览历史、点击记录、购买行为、地点等)进行分析,实现场景化的信息投放;数字医疗中,AI技术通过对遗传信息、生物标志物、生活习惯、社会环境等多维度的复杂颗粒数据分析,为不同患者群体提供个性化的治疗方案。 

   创新范式本质上是一个经济学问题,当代经济学的一个重要研究类型是实证研究,即以数据为基础推断变量之间的因果关系。与创新相关的经济金融活动是一个动态复杂系统,但受限于数据数量和质量、因果关系可解释性要求和计算能力等因素影响,过往创新相关实证研究的数据量较小,并且采用确认因果关系或某种因素影响程度的处理方法如主因素法、双重差分、断点回归等。然而,创新过程是科学、技术、企业、产业和制度的动态复杂系统,小样本数据量和少数测量维度难以真实描述创新的本质,在大尺度一般规律和微尺度具体创新场景处理上都显得“数不从心”。进入数据驱动创新时代,数据规模和实时性、数据深度和广度、数据交互和数据共享能力等有极大提升,算法和算力也极大改进,有可能揭示高度复杂的创新关系,发现数据间隐藏的复杂关联,更好地理解创新范式的一般规律。近些年来,我国经济政策特别强调解决“信心和预期”问题,这涉及心理、意识、情绪等因素的感知和互动关系判断。在以往经济社会问题研究中,上述因素是一类重要但难以定量研究的问题,创新的本质是一种长期风险投资,预期和心理等因素的影响更加明显。如今,对多模态数据特别是文本数据的处理能力,提供了许多与创新投资相关的情绪和预期等实时信息,支持对数字时代创新范式进行更接近“真实过程”的分析研究。 

  数字时代科技创新的几个显著特征 

  当前,科技创新进入新的时期,一个显著特征是数据数量和关系重新定义创新链条上各方的交互方式和地位作用,各种创新力量的地位作用重新分化组合。 

  (一)创新源泉:数据洞察能力与理论逻辑能力交互耦合的双驱型创新 

  因果关系作为演绎法和归纳法的基础假设,是理论逻辑推理的重要机制。数学理论模型作为一种抽象思维工具,特别适用于对变量进行形式逻辑处理,识别和揭示变量之间的因果关系,成为物理学、化学、生物学、医学等学科的重要研究进路。但受限于理论认知边界、模型结构形式、计算复杂性等因素,过往数学理论模型能够处理的数据量小、数据维度少、数据关系相对简单。进入数字时代,宏观社会运行和微观主体活动都以数字化形式呈现,数据关系的复杂性急剧增加,变量之间更易表现出非线性、时变性和非平稳性特征,以因果律为基础的理论模型方法在刻画和理解复杂现象的结构特性、交互关系以及演化行为等方面遇到前所未有的挑战。 

   相对于因果逻辑分析,数据驱动的研究更加强调对各要素复杂相关关系的探求。从广义角度看,大数据相关关系呈现的是一个无限蔓延的分布,具有深层因果关系意蕴:因果关系是对因素相互作用方向、过程及其效应之间的描述;相关关系则是因果派生关系的描述。这一具有极强渗透力、洞察力的创新方式在以往小数据无法解决的问题领域显示出极强能力——尤其在未知复杂关系洞察方面取得显著成绩,甚至在更高层次推进了复杂因果概念的整体刻画,赋予创新崭新的动能。2020年,DeepMind提出的AlphaFold2在蛋白质结构预测方面的准确性已经能与冷冻电子显微镜等实验技术媲美。微软和美国太平洋西北国家实验室合作,利用大数据分析和高性能计算,从3200万种无机材料中筛选出一种全固态电解质材料,完成从预测到实验的闭环。近几年,大型数字企业凭借数据洞察力占据前沿科技新创企业投资的半壁江山。 

   从创新源泉角度看,超过60年的人工智能发展历史可大致以2010年为界分为两个阶段。2010年以前,人工智能的前沿研究成果主要由理论逻辑能力驱动,而在此后,数据洞察能力成为人工智能创新发展的核心推动力。在1956年“达特茅斯会议”为人工智能奠定理论基础并引发短暂繁荣后,人工智能发展的第一个低谷出现在20世纪70年代中后期,当时的算力和理论根本不足以实现那些“不切实际”的期望,人们开始探索新的理论模型和框架。1980年,卡耐基梅隆大学开发出名为XCON的专家系统,该系统依据知识库推演出的逻辑规则解决特定领域问题,成为人工智能研究走向实际应用的重要进展。此后,Pearl提出贝叶斯网络,模拟人类关于不确定性因果关系的推理过程,能够对多源信息进行表达与融合。然而,早期人工智能理论模型在产业化方面遇到了巨大困难,一个重要的原因是面临人类知识机器表征及复杂关系搜索局限。 

   20世纪末,互联网为人工智能发展构建了更好的基础,研究重心从基于知识系统转向机器学习方向,也带来了人工智能发展的数据驱动范式。2006年,多伦多大学的Hinton和Salakhutdinov提出深度学习概念,通过构建多层神经网络模型,模仿人脑神经元之间的连接和信息传递方式,实现对大规模数据的高效处理和复杂任务的学习。2010年后,数据、算力等资源的可获性大幅加强,对于海量数据复杂关系的洞察力极大提升,才有了以ChatGPT为代表的大模型爆发。2020年,OpenAI推出大模型GPT-3,参数量达1750亿,训练语料库达45TB。2023年3月发布的GPT-4参数量达1.8万亿,带动模型语义理解能力和抽象学习能力的跃迁式发展。与此同时,算力需求激增、模型架构和参数量提升带来的边际收益逐渐减少,高质量数据资源和数据交互能力成为提升模型性能的关键之一。从GPT-3到ChatGPT,最重要的进展是在训练方式上采用来自人类反馈的强化学习方案(RLHF),通过多阶段交互学习,大幅提高模型参数效率(压缩上百倍),将模型与人类偏好进行对齐,并在交互中提升模型的知识利用和复杂关系推理能力。 

  新一代人工智能的发展,在更深层展示了理论逻辑能力和数据洞察能力是一个迭代累进过程。深度神经网络、机器学习等理论模型的发展带来多模态数据处理能力的极大提升,数据驱动力的增强使得大模型出现“智能涌现”,衍生出通用人工智能的部分能力。然而,人工智能基础大模型逐渐面临复杂度急剧攀升、算力需求激增、摩尔定律逐步失效等“瓶颈”,并不足以支撑从感知人工智能到认知人工智能的跨越,包括数学、物理、心理学、脑科学在内的理论研究对人工智能发展非常关键。在可预测的未来,数据洞察能力和理论逻辑能力交互耦合的双轮驱动依然重要,但每个阶段前期理论积累带来的突破点不同,当前正是需要加快利用数据带来创新突破的关键时期。 

  (二)创新主体:规模涌现规则(Scaling Law)与大平台创新优势 

  规模报酬(Returns to Scale)是经济学的一个基础概念,指在其他条件不变的情况下,企业内部各种生产要素按相同比例变化时所带来的产出变化。以往实体产品为主的时期,企业达到一定规模后,规模报酬呈现出报酬递减的规律,即随着生产规模加大,产出增长比例低于投入增长比例。进入网络时代,软件和各种数字产品呈现出规模报酬递增的特点,产出增加比例大于投入增加比例。这是网络空间数字产品可以复制复用的特性带来的,更多销售并无需更多产出。 

  海量数据和AI时代,规模报酬出现了本质变化。规模报酬递增的特点由“边际增量”改变为“新能力涌现”。为了描述分析这种新类型的收益递增,本文借用深度学习领域的一个重要概念——Scaling Law(即规模涌现规则),这个概念描述了模型性能与模型规模(如参数数量、数据规模和计算资源)之间的关系。其基本原理是,随着模型规模的增加,模型的性能也会提高。这一发现激励着研究者投入更多资源构建更大规模的模型,以期获得更好的性能响应。研究者对这个规则的未来适用边界有不同看法,但对其在当前阶段的适用性大都赞同。从现实情况来看,头部企业拥有数据和算力方面的优势,当规模越过一个阈值后,就会涌现出后来者无法企及的全新能力,包括深度泛在的感知能力、对多元变量关系的洞察能力、对高度复杂问题的预测能力等,为企业带来强大市场竞争力。 

   从创新角度看,由于存在规模涌现规则,先行大企业在创新链条中的地位大幅提升,位势不断增强。大型数字平台连接上亿消费者和百万级、千万级生产者,实时生产和汇聚海量数据,在强大的算力和算法支持下,具备自动提取经验数据特征和规律并进行推理决策的能力,能够准确感知并捕捉创新资源维度和交易资源维度下的市场需求及变化趋势。同时,研发结果可以直接应用于海量用户,用户使用反馈也能快速传递给研发团队,持续的数据交互使研发方向能够根据环境变化进行灵活调整,更好优化相关服务。大型平台的优势还来自数据交互形成研发簇群,平台大场景运作、跨产业运营、多领域并进,能够汇聚各创新主体之间的场景化数据,并基于大规模的算法能力打造创新知识生态,增强具象场域中研发成果和终端产品的良性交互,极大促进创新。百度的Apollo对外开源核心软件架构与算法,形成包含芯片、传感器、人工智能、设备制造、教育、平台服务等的自动驾驶创新网络,形成覆盖大场景的技术体系。平台这种依托数据、算力和算法的合成优势,必然成为数智应用技术主要的创新者和使用者。 

   平台的上述创新优势对高端人才和投资者形成强吸引力,因而成为数字前沿技术和基础研究的重要创新力量。2020年,图灵奖授予皮克斯动画工作室联合创始人Hanrahan和Catmull,以表彰他们对3D计算机图形学的贡献。其中,Hanrahan是一位基础科学家,在担任计算机教授期间创办企业,显示出数字时代基础研究成果与产业应用之间的无隙对接。在自动驾驶、渲染引擎、虚拟现实等前沿技术领域,从国内发明专利看,数字平台已经是我国数字技术创新的核心力量,平均占比超80%。再以自然语言处理这种基础研究领域为例,2020—2021年我国专利排名前五的均为大型企业。2015年腾讯成立智能计算与搜索实验室,主要面向机器学习、视觉技术、语音、自然语言处理四大方向前沿技术。总之,依托强大的数据、算力、算法和人才优势,走在领域前沿的大型数字企业积极探索“从0到1”的原始创新,已经展现出强大的基础研究能力。上述种种优势和能力使得产业界大型平台成为数据驱动创新的主力军。2018年之后,产业界主导AI大模型创新,和学术界、非营利组织以及各类联合研究差距逐步拉大。2022年,44个重要的机器学习模型都诞生在产业界,学术界仅有13个,2023年延续了这个差距。中国的大模型同样主要出自大型数字企业,如百度的文心一言、阿里的通义千问、华为的盘古3.0等。 

  (三)创新组织:数据能力与边界开放型创新组织形态 

  随着数据成为重要创新要素,任何一个创新组织链接数据愈多、更新愈快、交互愈强,其创新能力就愈强。因此,能够最大程度获得数据、挖掘数据深度和广度、增强数据交互和共享的开放式产业组织成为重要的创新组织形态。 

   在数字时代之前,开源开放已经成为重要的创新模式。开源技术源于软件,指源代码向社会大众开放的软件技术。在开源运动的早期,如Unix项目时代,开发团体相对集中于技术精英。随着互联网的发展,开源社区不仅能够获得海量数据、软件资源以及透明高效的项目开发轨迹,而且能够实现开发数据的实时交互和场景反馈。同时,开源代码公开、规则公开、过程公开以及公平公正的交互共享社区等特性,加速了分布式协作创新模式的构建,实现了世界范围内智慧资源的并行和接力式开发,促进了社会共创共享文化的繁荣。全球97%的软件开发者和99%的企业使用开源软件,全球70%以上的新立项软件项目采用开源模式。虽然目前的人工智能大模型的领先者还是采用闭源模式,如微软的Turing-NLG、OpenAI的GPT-4等,但由于大模型的训练和调整需要极其巨大的数据、算力和算法的投入以及海量场景的支撑,后继者很可能采用开源模式与之竞争。 

  开放科学以“自由、开放、合作、共享”为理念,以海量数据汇聚和处理为手段,推动大规模科学项目研究。数据生成、传递和交互方式的不断演进,使开放科学逐渐成为创新范式变革的一类趋向性目标。在天文学、高能物理、生命科学、空间科学等领域,国际大科学项目成为推动重大科学发现的主流模式,各国或国际组织均致力于大科学数据的开放共享,并将各国科学家联合起来开展分布式协作研究。例如,平方公里阵列射电望远镜(SKA)项目,接收面积达1平方公里,比当前同类设备灵敏度提高100倍,搜寻速度提高1万倍,共有来自20多个国家的约100个组织成员。 

   数字时代,数据汇聚和交互能力成为驱动创新的重要引擎,任何主体具备的数据资源、专业知识都可能成为创新起点,也可能链接到创新链条中,与其他主体的数据交互还可能带来新增的知识或发展,因而边界开放对于创新的意义比以往任何时期都重要。以平台企业为代表的开放型创新组织能够广泛连接其他众多创新主体,构建以其为网络枢纽的创新生态系统。从数据角度看,开放型组织能够获取多样化的互补数据资源,包括市场需求数据、技术开发数据、行业发展数据等,提升创新能力。例如,海尔卡奥斯工业互联网平台(COSMOPlat)旨在打造多边交互共享开放平台,支撑产业链供应链广泛链接协同联动,让头部企业发挥创新引领作用的同时,中小企业可以获得更多关联数据和技术资源进行融通创新。从主体角度看,开放型组织可以广泛连接用户、供应商、技术服务商等,提供了创新汇聚的枢纽,双边或多边主体利用开放相互加持,通过数据交互提出创新性方案,激发组织创新活力,形成多元主体驱动的创新模式。例如,小米发布的四足仿生机器人Cyberdog2开放了图形化编程界面,给开发者提供丰富的接口和资源,在增强自定义能力的同时,极大降低编程技术门槛,实现更加丰富的交互功能,加快产品创新迭代。未来可能会有多种形态的开放组织出现,但有竞争力的组织形态必然与其数据汇聚和交互能力匹配。 

  数据驱动的创新不仅能够揭示海量数据间的复杂关系,洞察颗粒化场景并赋能,而且能够推进和深化理论机制的多样化探索路径,甚至带来新能力的动态涌现。可以预期,这种新型创新范式将成为科学发现最重要的范式和路径。 

  (四)创新伦理:普遍参与、负责任创新与维护竞争的公共价值 

  数字时代的创新范式演进已经对政治、经济、文化等领域产生全面影响。区别于以往传统技术革新带来的伦理问题,数字时代的科技伦理生发于创新过程本身,数据、数据关系成为科技发展方向的重要引导,以介入社会基础运行的方式彻底重塑人的主体性与独特性,导致自然秩序和社会关系的多元改变,进而对人类社会的整体结构与运行、社会交往与互动等传统秩序带来冲击。在数字时代,数据驱动下的社会发展趋向、数字平台成为新型社会基础设施带来的变革,以及创新效率提升中的垄断等都成为新的难题与挑战,理解和应对这些挑战是促使创新方向符合人类生存发展和社会团结进步诉求的基本要义。 

  1.科技发展方向:公众知情与参与的重要性 

   数字时代,科技进步在经济社会中的角色发生显著转变,关注焦点从解决已知问题转向探索未知领域,特别是科学技术的应用正试图改变人类的“自然状态”和“社会状态”:深度改变生理结构、认知能力和繁衍方式,重塑信息传播、权力结构、自主化运行带来的灭绝性风险等。因此,当下科技创新产生的一些影响一旦发生则不可逆转,这就使得传统的社会适应机制——试错并纠正——变得不再适用。为避免少数专业修养深厚但全局知识和责任感不足的科技专家仓促作出影响长远的科研决策,公民对相关科技发展趋向应具有平等的知情权和发言权,开源开放的创新特征也正与这一挑战形成呼应。“普遍参与”是开源开放的显著特点,数据开放不仅能增强公民对科技发展的感知和共情,也内在包含了算法透明度与可解释性的要求。数据利用主体应在实践中更加注重透明性,将算法目的、数据来源、处理和分析方法、决策影响等尽可能地让更多受众知情,进一步消解技术门槛所带来的社会信任困境。与民众重要权益相关的数据,应秉持以开放为原则的价值理念,最大限度保障公众利益和社会福利。目前,在基础研究领域以及公共卫生领域,数据开源、组织开放已成为普遍的创新范式。新冠疫情期间,各国科学家能够在共建共享的病毒数据平台上就基因序列数据进行充分交流。2022年11月,分别来自南非和博茨瓦纳的科学家在同一天内将存在变异情况的基因测序数据上传至GISAID数据库中,引起科学界的迅速关注。从发现序列异常到世界卫生组织将这一变异宣告为第五个关注变体即“奥密克戎”(Omicron)用时不到3天。在这类国际公共卫生紧急事件中,数据开放共享事关全人类福祉。总之,在数据与数据关系驱动的科技创新范式中,透明公开是首要的伦理遵循,以保障科技发展促进人类文明进步与福祉增加。 

  2.负责任创新:数据、算法黑箱与风险治理 

   随着AI技术的快速发展,数据作为核心驱动力,持续不断地为算法模型提供支撑。然而,由于数据量大、复杂度高,算法决策往往具有内部机制不透明的“黑箱”特点,且随着数据交互能力与共享能力不断提升,给用户和社会带来未知风险的概率也越大。近些年来,创新范式越来越强调“负责任”的维度以应对这些风险,国内外提出的诸多新兴科技治理理念,如“建构性技术评估”“实时性技术评估”“预期性治理”“敏捷治理”等,更多标志着伦理维度的深度嵌入。“负责任研究与创新”(Responsible Research and Innovation)的理念更是将伦理考量直接纳入创新过程本身,确保科技进步不仅仅追求经济效益,更重要的是要在尊重人类价值观、社会规范和环境保护的前提下开展创新,旨在预见和解决科技发展可能带来的风险和负面影响,促进科技与社会和谐共生,使科技成果公平公正地提升全人类福祉。 

  在新一轮生成式AI爆发的浪潮中,大模型的加速迭代与能力扩张更是对“价值对齐”产生了巨大的挑战,“负责任”的大模型应用与实践愈发前置和突出,大模型的伦理风险成为模型本身进一步演化升级首要回答的问题。《时代周刊》将“原则型AI”评为2023年三大AI创新之一,此项AI系统不再依赖人类反馈进行回溯评估,而是在设计、研发、部署、应用等整个AI生命周期中,始终具有一套完整的价值观念发挥引领作用。国内领先的大模型企业智谱AI也在利用一种自身生成否定词的新型对齐方法指导模型升级。由3位图灵奖获得者领衔,25位专家学者于2024年共同在《科学》杂志上撰文呼吁,各方行动者都应以负责任的态度和行为推进新的技术路线与治理措施。 

  3.制约大企业垄断:为开源开放赋予新的伦理价值 

   数字时代的创新范式演进更多依赖数据、数据关系交互共享产生的正向循环,也因此更容易导致垄断的产生。当前的垄断形式正在从传统的价格垄断转变为平台垄断,大型平台企业通过提供免费服务的方式掌握数据流量,规模经济和范围经济效应十分显著,规模效应递增的特点也由“边际”转变为“质变”甚至“涌现”,有可能导致市场结构和竞争关系的根本改变。同时,市场内生的制约因素也在不断涌现,开源开放这类创新组织有可能削弱先行者的市场支配地位。在过往操作系统产业发展中,微软于1983年开发的Windows系统(闭源)曾于2009年占据93.79%的市场份额,同时期来自谷歌的安卓系统(开源)只占2%。而到了2017年,安卓系统以38.97%的市场份额首次超越Windows系统37.07%的市场份额,成为全球第一大操作系统。在数字时代,由于对数据和应用场景的巨大需求,开源开放有可能成为非头部企业发展的内在诉求。但由于先行者的优势更加突出,需要加大对开源开放的鼓励和引导,使之成为企业社会责任的标识和追求,成为社会认同的创新文化,以约束头部大型平台企业的垄断风险,提升创新效率,促进创新收益的公平分享。 

  小结 

  与以往的创新范式相比,数字时代的创新在创新源泉、创新主体、创新组织和创新伦理各个层面都发生显著变化并相互作用,通过源泉激发、主体重塑和组织再造,构成数字时代创新范式的新特征。数据洞察能力和理论逻辑能力交互耦合,开辟了新的创新源泉,而且是高能量、多形态和短路径的创新之源。大型平台既是生发数据的源泉,更是汇聚多重能力的主体,在规模涌现规则的加持下地位显赫,在相当程度上决定着整个社会的创新进程。开放型创新组织有利于汇聚异质性、多样化的数据和各种资源,成为重要性日益提升的主流创新组织形态。上述特征在提升创新效率的同时生发出新的科技伦理问题,负责任的创新理念必须全链全域嵌入创新过程,对大平台的监管尤其重要,确保创新方向有益于人类福祉和社会进步。 

   图2是对创新范式和创新组织演进特点的概要总结。工业化以来创新范式的演进大体分为工业时代、信息时代和数字时代三个阶段,同时可以从数据及数据关系的角度回顾各个阶段的主要特点。第一阶段是技术供需关系定义的创新范式。工业时代,科学发现和技术创新信息的分享主要依靠学术期刊、科技会议、同行评议、产品博览会、大学和科研机构成果转化等渠道,信息传播速度和效率较低,科学、技术与产业三者表现为分离状态,创新往往是某个研发机构或企业的孤立行为,创新组织形态以封闭为主。第二阶段是信息交互关系定义的创新范式。信息时代,创新不再是科学发现到产业化的线性过程,而是一个由研发和市场多向交互的复杂非线性过程。信息日益密集和分享渠道愈加丰富带来科学、技术与产业三者的快速交互和实时反馈,产业链、供应链和创新链互动增强,创新主体能够更快速识别创新机会和更高效配置创新资源,闭环合作成为主要创新组织形态。第三阶段是数据和数据关系驱动的创新范式。数字时代,多元化创新主体能够实现任意数据节点间交互、复杂关系挖掘以及颗粒化场景洞察,极大提高创新效率。数据、算力和算法成为数字创新的核心要素,数据洞察能力和理论逻辑能力交互耦合成为创新的关键源泉,大型数字企业成为创新汇聚的枢纽,在创新链条中的地位显著加强,“科技创新+产业发展+应用场景”呈现一体化发展趋势,边界开放日益成为提升创新能力的主流组织形态之一。 

   随着数据和数据关系全量、全程、全域嵌入科技创新活动,推动形成数据和数据关系驱动的创新范式,本文的研究结论有着清晰的实践指引和政策导向。一是以往只有国家能够在产学研主体间建立协调关系,现在大型科技平台以数据和数据关系形成长链条、宽领域的创新生态圈,进而在科技资源配置中发挥重要作用。二是高校和研究机构要更加专注于原始创新和基础理论构建,在新的创新范式中发挥不可替代的重要作用。三是随着开源开放成为数据交互支撑的创新组织形态,提升数据汇聚能力意义重大,我国当前在可供AI训练使用的公开数据方面存在短板,需要尽快开放更多公共数据,这有利于发挥我国制度优势,是政府可以“有为”的重要创新条件。四是数字时代科技伦理问题的影响更加泛在而重要,需要将其内置于新的创新范式之中,在全链条中高度关注,而并非仅在成果应用环节加强“治理”。未来,期待有更多研究者从不同层面和更广视角开展更为系统的分析,更加深入理解和把握数字时代的科技创新形态及其演进规律,更好地为推动我国创新发展实践提供坚实理论支撑。 

  〔本文注释内容略〕

  原文责任编辑:张天悦

转载请注明来源:中国社会科学网【编辑:苏威豪】