推荐序一
全球数字化进程方兴未艾,数字化转型深入各行各业。全球数据体量呈现指数级增长态势,数据成为企业发展和政府管理的重要基石。不断扩大的数据规模促使各国各方将注意力投向数据安全领域。作为世界重要经济体的中国,近年来在互联网、云计算和人工智能等行业都取得了高速发展,随之面临的数据协作和数据保护的诉求也日趋增多。特别是疫情爆发以来,一方面,人工智能系统高度依赖数据做出决策;另一方面,解决隐私保护问题迫在眉睫。目前,数据安全在政府、金融和电信等基础民生领域的应用已经较为深入,业务占比将近50%。随着数据安全技术的持续突破,其在医疗、制造等领域的应用也逐渐深入。为了有效地应对信息技术创新和数字经济产业高速发展所带来的数据安全和隐私保护等诸多问题,中国网络安全和数据治理方面的政策不断出台,立法体系不断完善,对数据安全的监管力度不断提升。2021年,《中华人民共和国数据安全法》正式颁布,数据安全上升到了国家安全范畴,企业数据安全义务和法律合规要求也达到了新的高度。中国数据安全产业前景广阔,预计到2023年,中国数据安全产业市场规模有望达到97亿元。
数据安全技术不断发展,不断升级的安全隐私保护需求也对技术的创新、实践和应用提出了更高的要求。随着网络攻击向系统堆栈的层级下移,已不能仅依靠软件的安全保护。要维持更安全的计算环境,需要从硬件到软件进行全方位的守护。企业、机构的安全应建立在最基础的系统层(芯片)上的可信根之上。内置于芯片的安全技术有助于保护潜在的攻击面,保护客户依赖的计算免遭已受损软件的干扰。芯片支持的安全技术能够为加密服务提供商、独立软件供应商、操作系统供应商和原始设备制造商打造可以利用的可信基础,从而为客户提供经过安全优化的,覆盖边缘、端点、数据中心、云和网络的全方位解决方案。
作为全球计算和通信产业的领先企业,英特尔公司已经将“安全性”作为六大技术支柱之一,通过不断创新,为计算构建值得信赖的硬件基础。例如,提供安全基础和自动恢复追溯功能的vPro平台技术,提供内存加密的可信执行环境SGX技术,防止恶意代码植入侵害支持的威胁检测技术,增强静态数据和动态数据安全性和压缩性的通信加速技术,以及物联网安全设备载入技术等。
中国信息技术企业一直站在技术创新和应用创新的前沿,他们与英特尔的中国团队紧密合作,不断探索基于芯片和硬件平台的数据安全解决方案,并在生产环境中部署实践。英特尔中国团队在为企业解决实际问题的过程中,充分见证了可信执行环境技术的工程实践优势,并且总结和优化出了很多应用原型方案及其工程实践经验。鉴于目前在国内还没有相关的工程实践类参考书籍,为了使更多的企业和客户了解并获益于这些先进的技术和工程实践方案,英特尔中国团队发起了本书的编写工作。本书的作者来自英特尔中国公司和蚂蚁集团,他们是这些技术方案实施落地的技术负责人和工程师。
很高兴看到本书的出版。本书是第一本深度解析可信执行环境技术的图书,其内容不但涵盖软硬件架构、关键技术实现和应用开发等,而且汇总了近一年来英特尔中国团队与其合作伙伴合作的真实案例和实践经验。本书有效地解答了一线研发人员和业务团队关注的实际问题和挑战,是极具前沿性和参考性的技术资料。希望本书的出版能帮助中国的读者更有效地运用数据安全技术,解决自己场景中面临的需求和挑战,为客户、行业和社会创造出更大的价值。
梁雅莉
英特尔市场营销集团副总裁、中国区云兼行业解决方案部总经理
推荐序二
随着大数据计算技术多年的蓬勃发展,社会各界已经普遍认识到数据的价值,但对数据全生命周期的保护没有足够的重视。近年来,强依赖数据的人工智能技术已经普遍深入各个行业,特别是互联网服务行业规模化应用,使得业界对于加强消费者隐私保护的需求日益强烈。
机密计算正是伴随这种趋势应运而生的。与联邦学习、安全多方计算等从人工智能领域出发产生的技术不同,机密计算主要是从系统领域出发,围绕数据处理中必须经历的计算、存储、传输等关键过程而提出的隐私保护技术。其中,与存储和传输相比,数据在计算过程中是最难保证安全的。而机密计算的核心在于利用可信执行环境(TEE)工具,更好地将隐私数据的处理与其他无关程序逻辑隔离开,达到极小的攻击面,从而让数据在计算过程中得到有效的保护。
机密计算在云原生技术领域得到了更广泛的推广。在企业上云的过程中,不可避免地希望一些重要数据资产能够在上云时得到更佳的保护,如密钥等。机密计算较好地解决了此类问题。
目前,市面上还没有着重介绍机密计算的原理及工程实践的图书。本书通过8章内容,由浅入深地向读者解释了机密计算兴起的原因、核心技术原理及已经得到验证的工程实践。作为专业类图书,本书既阐述了机密计算擅长解决的问题,又严谨地提供了与其他技术对比的优缺点,具有非常强的实用价值。
本书既适合高等院校计算机专业学生,对人工智能、操作系统与微架构领域感兴趣的从业者,以及大数据计算引擎或应用开发者阅读,又适合数据保护行业相关的管理人员或研究人员阅读。
何征宇
蚂蚁集团基础设施技术委员会主席,可信原生、计算智能技术部负责人
推荐序三
在当今万物互联的世界,我们通过使用人工智能(AI)和机器学习(ML)获取了海量的数据,拥有这些数据对发展未来技术至关重要。
在 AI和ML工作流中,通常会经过大量多样化的数据集进行训练来得到一个模型,将该模型部署以推导新的未知数据源,从而做出分类图像、疾病预测、天气预报、用户购物模式等决策。这些数据对用户来说很多都是私有的,在对这些数据进行分析使用时,用户对数据隐私存在很多担忧。隐私保护机器学习(PPML)正在成为一种主要的技术解决方案,用于保护敏感用户数据及经过训练的模型,即模型所有者的知识产权(IP)。与此同时,这些模型被部署运行在不受信的云环境中,使用者希望这些模型的完整性能够得到保证,经过AI或ML训练出来的结果数据是可信的。虽然有许多技术,如同态加密、安全多方计算等来为敏感的私有用户数据提供机密性,但仍然需要额外的算法技术来保证隐私(如差分隐私),以确保敏感数据不会因为模型受到攻击而泄露。
目前,使用提供机密计算能力的可信执行环境(TEE),正在逐渐成为一种主流的安全解决方案。TEE不仅可以保证数据的机密性,还可以提供应用执行的完整性。机密计算是一种新的计算形式,它通过在基于硬件的TEE中执行计算来保护使用中的数据。TEE 是一种保护数据机密性、代码和数据完整性的可信环境,依赖硬件将TEE映射到一块安全加密的内存中,进而将TEE与系统软件进行隔离,这块加密内存会拒绝一切来自TEE外部的访问。
此外,CPU 提供了用于向第三方证明 TEE 身份的接口,这使得TEE身份在被验证成功后,第三方验证者可以放心地将密钥发送给TEE。目前大多数主要的芯片提供商都提供了TEE技术支持,包括英特尔提供的SGX 和 TDX技术、AMD 提供的SEV 技术及ARM提供的Trust Zone技术。
在TEE技术被广泛应用的同时,讲解其理论知识与实践案例的图书却非常稀缺。由英特尔中国公司和蚂蚁集团的研发人员共同撰写的这本书,很好地介绍了当前各种机密计算技术,帮助读者了解各种技术使用场景,并从实际使用的场景出发,举例并详述了如何使用SGX技术搭建AI和ML隐私安全解决方案。相信读者阅读后,一定会有所收获!
Mona Vij
英特尔实验室首席工程师、云安全研发经理
推荐序四
信息技术的快速发展降低了信息传递的成本,提升了社会参与主体之间的连接效率,提高了整个社会的生产效率。随着移动设备、车联网、物联网、传感器、卫星遥测等技术的发展和应用,数据采集的深度和广度达到了前所未有的程度。数据量随之呈现爆发式增长,并且会不可逆转地持续增长。数据的定义和数据价值的挖掘成为数字时代的核心命题。以算力为核心的模式逐渐转变为以数据为核心的模式。从农业时代到工业时代,再到数字时代,核心的生产要素也在发生变化。2019年,中共十九届四中全会提出“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制。”数据作为新的生产要素,既是对社会发展规律的洞察,又是未来几十年甚至几百年的历史机遇。然而,数据成为生产要素,依然面临诸多难点。
数据是各个领域创新发展的新动能。人工智能技术在向着以数据为核心的方向转变和发展。人工智能中的数据安全和隐私保护成为研究的热点和难点。隐私计算技术可以实现“数据可用不可见”“数据不动模型动”,解决数据价值挖掘和安全隐私之间的平衡问题。隐私计算的技术路线包括安全多方计算、联邦学习、机密计算、同态加密和差分隐私等。
根据机密计算联盟的定义,机密计算是指通过将计算放在基于硬件的可信执行环境中执行,从而保护数据使用时的安全和隐私。基于硬件的安全和隔离环境,防止了使用数据时,对应用和数据的非授权访问和修改。可信执行环境是指提供一定级别的数据完整性、数据机密性和代码完整性保证的环境。机密计算作为隐私计算中的核心技术之一,特点是计算性能的损失相对较小、学习曲线平缓、落地场景多,在性价比、易用性、工程落地等方面具有优势。机密计算可以比较好地支持大数据量和复杂模型,在云计算、机器学习等场景中已经广泛落地。
本书聚焦机密计算在人工智能数据安全和隐私保护方面的问题和应用,从基本原理、技术框架、工程落地、场景案例等方面,详细阐述了可信执行环境技术,系统地绘制了机密计算的全景视图。其中介绍的概念、框架和产品,对工程师从事项目实践具有巨大的指导意义。
本书不仅可以供高等院校计算机科学、网络安全和人工智能专业的学生参考,还可以供从事数据安全和隐私保护方面的研发工程师、架构师、产品经理、解决方案工程师参考。
相信读者朋友们在阅读本书后,都能有所收获!
李延凯
北京原语科技CEO
前言
人工智能引领的新一轮科技革命和产业变革方兴未艾。人工智能在对经济发展、社会进步和国家治理等方面产生深远影响的同时,其广泛的应用性和技术的局限性之间的矛盾,为数据安全和隐私保护带来了更严峻的挑战。以海量优质数据资源为基础的人工智能,要求打破数据孤岛,聚合碎片化数据,因而在数据管理和数据挖掘方面更容易导致数据泄露、数据滥用及数据违规流动的风险。如何做到“数据可用不可见”,如何在充分应用人工智能的同时,确保用户隐私、企业部门和行业数据的安全,已经成为进一步推动人工智能与各行业深度融合的关键。隐私保护计算作为涵盖众多学科的交叉融合技术,正在人工智能领域中不断实践和快速迭代。其中的技术包括以安全多方计算和同态加密为代表的基于密码学的技术、以可信执行环境为代表的基于硬件的技术,以及基于数据科学的其他技术。不同的技术通常组合使用,并且与人工智能技术融合衍生,在保证数据隐私安全的同时,实现数据价值的流动和共享。
为什么写作本书
近 10 年来,我们的团队持续致力于为互联网行业研发部署用于超大规模数据中心的云计算和人工智能服务器解决方案。从CPU定制、平台设计,到性能调优及线上集群优化,在推动隐私保护计算技术的应用中,我们充分见证了各种技术在人工智能实践场景中对计算过程的安全性、性能、精度及适用范围的影响。其中,可信执行环境技术较好地兼顾了安全性、高效性和通用性,具有明显的工程实践优势。然而,目前在国内还没有关于可信执行环境技术的工程实践类图书,可信执行环境技术在人工智能场景中的实践总结更是少之又少。与此相对的是,中国的云计算和人工智能服务厂商及用户对该技术具有非常浓厚的兴趣,而我们的团队在实践中产生了较多的应用原型方案,其中一些更是处于世界的前列。鉴于此,我们决定利用工作之余,系统性地总结可信执行环境技术及其在人工智能领域中的应用实践,以推动该技术在中国更快更广泛的传播和更多的创新。
本书主要内容
本书共包括8章,分为3个部分。
第1部分:基本概念框架。第1章介绍了数据安全和隐私保护面临的挑战和核心需求、隐私保护计算概念,以及人工智能领域中的攻击模型和典型安全问题。第2章纵览和比较了各种隐私保护计算技术和解决方案。第3章将各种技术方案与实际场景联系起来,介绍其在人工智能场景中常见的应用。
第2部分:深度技术解析。第4章详细阐述目前比较具备工程实践优势的可信执行环境技术,包括软硬件架构、关键技术和安全机制。第5章全面介绍以可信执行环境技术为基础的软件开发,包括开发环境及其组件、应用程序开发、库操作系统及其在云环境中的应用。
第3部分:工程应用实践。第6~8章深入地介绍可信执行环境技术在主流人工智能场景中的工程实践和参考案例,涉及纵向联邦学习和横向联邦学习模型训练场景、云原生在线推理服务场景,以及大数据AI应用场景等。各章中的案例均由本书作者开发或经合作伙伴授权发布。
致谢
感谢在本书编写过程中给予大力支持和指导的各位行业专家和同仁。感谢英特尔数据平台事业部首席工程师、云平台架构师李志明,英特尔实验室首席工程师、云安全研发经理Mona Vij,英特尔安全软件服务部首席工程师王立刚,火山引擎机器学习高级研发工程师段兵,火山引擎机器学习高级研发工程师解浚源,英特尔系统软件部云计算架构师杜凡,英特尔机密技术软件工程师张丽丽,英特尔软件架构师史栋杰,英特尔软件架构师杜炜,英特尔AI框架工程师邱鑫,英特尔AI框架工程师宋佳明,英特尔软件与先进技术事业部AI与分析部门技术专家姚伟峰等专家在百忙之中抽出时间提出很多的宝贵意见。感谢英特尔数据平台事业部高级总监周翔先生不断推动隐私保护计算技术在中国的应用创新,他的激励促成了本书的写作。
感谢英特尔市场营销集团副总裁、 中国区云兼行业解决方案部总经理梁雅莉女士,蚂蚁集团基础设施技术委员会主席,可信原生、计算智能技术部负责人何征宇,英特尔实验室首席工程师、云安全研发经理 Mona Vij女士,北京原语科技CEO李廷凯,英特尔院士、大数据技术全球 CTO戴金权,火山引擎机器学习负责人项亮,英特尔数据平台事业部副总裁 Niveditha Sundaram女士等为本书作序或推荐语。
感谢电子工业出版社博文视点的宋亚东编辑在本书策划、写作过程中给予我们的持续帮助,他专业负责的态度让我们获益匪浅。
感谢本书作者小组的成员:吴源、朱运阁、龚奇源、黄晓军、惠思远、步建林和蚂蚁集团的闫守孟。大家齐心协力、相互支持,在繁忙的工作之余完成了本书的写作。
由于作者水平有限,书中不足及错误之处在所难免,敬请专家和读者给予批评指正。
胡寅玮
2023年2月