SevenX Ventures:一文读懂ZKML,零知识证明和区块链如何在人工智能和机器学习领域发挥作用?
原文作者:Grace & Hill
感谢 Brian Retford, SunYi, Jason Morton, , Feng Boyuan, Daniel, Aaron Greenblatt, Nick Matthew, Baz, Marcin, 和 Brent 对本文提供的宝贵见解、反馈和审阅。
对于我们这些加密爱好者来说,人工智能已经火了好一阵子。有趣的是,没人愿意看到人工智能失控的情况。区块链发明的初衷是防止美元失控,所以我们可能会尝试一下防止人工智能的失控。此外,我们现在有了一种叫做零知识证明的新技术,用于确保事情不会出错。然而,要驾驭人工智能这个野兽,我们必须了解它的工作原理。
注:如今,大多数机器学习模型都是神经网络,因为它们在许多任务中具有优异的性能。我们主要将机器学习称为神经网络机器学习。
首先,让我们快速了解一下机器学习的内部运作:
如果上述解释看起来太晦涩,可以参考以下使用 CNN 模型识别苹果图片的例子。
我们可以将上述内容总结为一个机器学习信任框架,包括四个机器学习的基本层,整个机器学习过程需要这些层是可信的才能可靠:
-
隐私性质:如上所述,模型参数通常是私密的,而在某些情况下,模型输入也需要保密,这自然会在模型所有者和模型用户之间带来一些信任问题。
-
算法黑盒:机器学习模型有时被称为“黑盒”,因为它们在计算过程中涉及许多难以理解或解释的自动化步骤。这些步骤涉及复杂的算法和大量的数据,带来不确定性和有时随机的输出,使得算法容易受到偏见甚至歧视的指责。
在更深入之前,本文的一个更大的假设是模型已经“准备好使用”,意味着它经过良好的训练并符合目的。模型可能不适用于所有情况,而且模型以惊人的速度改进,机器学习模型的正常使用寿命在 2 到 18 个月之间,具体取决于应用场景。
一个 zkSNARK 证明是证明我知道一些秘密输入 w,使得这个计算 f 的结果为 OUT 是真实的,而不告诉你 w 是什么。证明生成过程可以总结为以下几个步骤:
因此,我们可以证明将零知识技术应用于机器学习模型可以解决很多信任问题。使用交互式验证的类似技术可以达到类似的效果,但会在验证者方面需要更多资源,并可能面临更多的隐私问题。值得注意的是,根据具体的模型,为它们生成证明可能需要时间和资源,因此在将此技术最终应用于现实世界的用例时,各方面将存在折衷。
许多 Web3 应用为了安全性和去中心化而牺牲了用户体验,因为这显然是它们的优先事项,而基础设施的局限性也存在。AI/ML 有潜力丰富用户体验,这无疑是有帮助的,但以前在不妥协的情况下似乎是不可能的。现在,多亏了 ZK,我们可以舒适地看到 AI/ML 与 Web3 应用的结合,而不会在安全性和去中心化方面做太多牺牲。
从本质上讲,这将是一个 Web3 应用程序(在撰写本文时可能存在或不存在),以无需信任的方式实现 ML/AI。在无需信任的方式下,我们指的是它是否在无需信任的环境 / 平台上运行,或者其操作是否可以被证明是可验证的。请注意,并非所有 ML/AI 用例(即使在 Web3 中)都需要或更喜欢以无需信任的方式运行。我们将分析在各种 Web3 领域中使用的 ML 功能的每个部分。然后,我们将确定需要 ZKML 的部分,通常是人们愿意为证明支付额外费用的高价值部分。下面提到的大多数用例 / 应用仍处于实验研究阶段。因此,它们距离实际采用还很遥远。我们稍后会讨论原因。
Defi
Defi 是区块链协议和 Web3 应用中为数不多的产品市场契合度证明之一。以无需许可的方式创建、存储和管理财富和资本在人类历史上是前所未有的。我们已经确定了许多需要 AI/ML 模型无需许可地运行以确保安全性和去中心化的用例。
游戏
游戏与机器学习有很多交集:
图中的灰色区域代表了我们对游戏部分中的机器学习功能是否需要与相应的 ZKML 证明配对的初步评估。Leela Chess Zero 是将 ZKML 应用于游戏的一个非常有趣的例子:
DID 和社交
在 DID 和社交领域,Web3 和 ML 的交叉点目前主要体现在人类证明和凭据证明领域;其他部分可能会发展,但需要更长的时间。
ZKML 服务提供商主要关注 ML 信任框架的“模型”和“参数”部分。尽管我们现在看到的大部分与“参数”相关的更多是“模型”相关。需要注意的是,“输入”和“输出”部分更多地由基于区块链的解决方案解决,无论是作为数据来源还是数据目的地。单独使用 ZK 或区块链可能无法实现完全的可信度,但它们联合起来可能会实现。
Modulus Labs 的论文通过测试 Worldcoin(具有严格的精度和内存要求)和 AI Arena(具有成本效益和时间要求)为我们提供了一些关于 ZKML 应用可行性的数据和见解:
如果 Worldcon 使用 ZKML,证明者的内存消耗将超过任何商用移动硬件的承受能力。如果 AI Arena 的比赛使用 ZKML,使用 ZKCNNs 将使时间和成本增加 100 倍(0.6 s 对比原来的 0.008 s)。所以遗憾的是,这两者都不适合直接应用 ZKML 技术来证明时间和证明者内存使用。
那么证明大小和验证时间呢?我们可以参考 Daniel Kang、Tatsunori Hashimoto、Ion Stoica 和 Yi Sun 的论文。如下所示,他们的 DNN 推理解决方案在 ImageNet(模型类型:DCNN, 16 层, 3.4 百万参数)上的准确率可以达到 79% ,同时验证时间仅需 10 秒,证明大小为 5952 字节。此外,zkSNARKs 可以缩小到 59% 准确率时验证时间仅需 0.7 秒。这些结果表明,在证明大小和验证时间方面,对 ImageNet 规模的模型进行 zkSNARKing 是可行的。
目前主要的技术瓶颈在于证明时间和内存消耗。在 web3 案例中应用 ZKML 在技术上尚不可行。ZKML 是否有潜力赶上 AI 的发展呢?我们可以比较几个经验数据:
从这些数据来看,尽管机器学习模型的发展速度非常快,但零知识证明系统的优化速度也在稳步提升。在未来一段时间内,ZKML 可能仍有机会逐步赶上 AI 的发展,但它需要不断地进行技术创新和优化以缩小差距。这意味着,尽管目前 ZKML 在 web3 应用中存在技术瓶颈,但随着零知识证明技术的不断发展,我们仍有理由期待 ZKML 在未来能够在 web3 场景中发挥更大的作用。对比前沿的 ML 与 ZK 的改进率,前景并不十分乐观。不过,随着卷积性能、ZK 硬件的不断完善,以及基于高度结构化的神经网络操作而量身定做的 ZK 证明系统,希望 ZKML 的发展能够满足 web3 的需求,先从提供一些老式的机器学习功能开始。
虽然我们可能很难用区块链 ZK 来验证 ChatGPT 反馈给我的信息是否可信,但我们也许可以在 ZK 电路中安装一些较小和较老的 ML 模型。
我们期待在 ZKML 领域看到更多的产品创新,ZK 和区块链为 AI/ML 的运行提供了一个安全和值得信赖的环境。我们也期待这些产品创新产生全新的商业模式,因为在无许可的加密货币世界里,我们不受这里的去 SaaS 商业化模式的限制。我们期待着支持更多的建设者,在这个 "西部荒野无政府状态 "和 "象牙塔精英 "的迷人重叠中,来建立他们令人兴奋的想法。我们仍处于早期阶段,但我们可能已经在拯救世界的路上。
本文为 SevenX 研究团队原创,仅供交流学习,不构成任何投资参考。如需引用,请注明来源。