首页 资讯 正文

Foresight Ventures:理性看待去中心化算力网络

odaily 2023年06月01日 19:01

原文作者: Yihan Xu,Foresight Ventures

  • 目前?AI Crypto?结合的点主要有?2?个比较大的方向:分布式算力和?ZKML;关于?ZKML?可以参考我之前的一篇文章。本文将围绕去中心化的分布式算力网络做出分析和反思。?

  • 在?AI?大模型的发展趋势下,算力资源会是下一个十年的大战场,也是未来人类社会最重要的东西,并且不只是停留在商业竞争,也会成为大国博弈的战略资源。未来对于高性能计算基础设施、算力储备的投资将会指数级上升。

  • 去中心化的分布式算力网络在?AI?大模型训练上的需求是最大的,但是也面临最大的挑战和技术瓶颈。包括需要复杂的数据同步和网络优化问题等。此外,数据隐私和安全也是重要的制约因素。虽然有一些现有的技术能提供初步解决方案,但在大规模分布式训练任务中,由于计算和通信开销巨大,这些技术仍无法应用。

  • 去中心化的分布式算力网络在模型推理上更有机会落地,可以预测未来的增量空间也足够大。但也面临通信延迟、数据隐私、模型安全等挑战。和模型训练相比,推理时的计算复杂度和数据交互性较低,更适合在分布式环境中进行。

  • 通过?Together?和?Gensyn.ai?两个初创公司的案例,分别从技术优化和激励层设计的角度说明了去中心化的分布式算力网络整体的研究方向和具体思路。

  • 我们在讨论分布式算力在训练时的应用,一般聚焦在大语言模型的训练,主要原因是小模型的训练对算力的需求并不大,为了做分布式去搞数据隐私和一堆工程问题不划算,不如直接中心化解决。而大语言模型对算力的需求巨大,并且现在在爆发的最初阶段,?2012-2018?,AI?的计算需求大约每?4?个月就翻一倍,现在更是对算力需求的集中点,可以预判未来?5-8?年仍然会是巨大的增量需求。

    在巨大机遇的同时,也需要清晰的看到问题。大家都知道场景很大,但是具体的挑战在哪里?谁能?target?这些问题而不是盲目入局,才是判断这个赛道优秀项目的核心。

    Foresight Ventures:理性看待去中心化算力网络

    Together?是一家专注于大模型的开源,致力于去中心化的?AI?算力方案的公司,希望任何人在任何地方都能接触和使用?AI。Together?刚完成了?Lux Capital?领投的?20?m USD?的种子轮融资。

    Together?由?Chris、Percy、Ce?联合创立,初衷是由于大模型训练需要大量高端的?GPU?集群和昂贵的支出,并且这些资源和模型训练的能力也集中在少数大公司。

    从我的角度看,一个比较合理的分布式算力的创业规划是:

    Step?1. 开源模型

    要在去中心化的分布式算力网络中实现模型推理,先决条件是节点必须能低成本地获取模型,也就是说使用去中心化算力网络的模型需要开源(如果模型需要在相应的许可下使用,就会增加实现的复杂性和成本)。比如?chatgpt?作为一个非开源的模型,就不适合在去中心化算力网络上执行。

    因此,可以推测出一个提供去中心化算力网络的公司的隐形壁垒是需要具备强大的大模型开发和维护能力。自研并开源一个强大的?base model?能够一定程度上摆脱对第三方模型开源的依赖,解决去中心化算力网络最基本的问题。同时也更有利于证明算力网络能够有效地进行大模型的训练和推理。

    而?Together?也是这么做的。最近发布的基于?LLaMA?的?RedPajama?是由?Together, Ontocord.ai, ETH DS?3?Lab, Stanford CRFM?和?Hazy Research?等团队联合启动的,目标是研发一系列完全开源的大语言模型。

    Step?2. 分布式算力在模型推理上落地

    就像上面两节提到的,和模型训练相比,模型推理的计算复杂度和数据交互性较低,更适合在去中心化的分布式环境中进行。

    在开源模型的基础上,Together?的研发团队针对?RedPajama-INCITE-3?B?模型现做了一系列更新,比如利用?LoRA?实现低成本的微调,使模型在?CPU(特别是使用?M?2 Pro?处理器的?MacBook Pro)上运行模型更加丝滑。同时,尽管这个模型的规模较小,但它的能力却超过了相同规模的其他模型,并且在法律、社交等场景得到了实际应用。

    Step?3. 分布式算力在模型训练上落地

    Foresight Ventures:理性看待去中心化算力网络

    从中长期来看,虽然面临很大的挑战和技术瓶颈,承接?AI?大模型训练上的算力需求一定是最诱人的。Together?在建立之初就开始布局如何克服去中心化训练中的通信瓶颈方面的工作。他们也在?NeurIPS 2022?上发布了相关的论文:Overcoming Communication Bottlenecks for Decentralized Training。我们可以主要归纳出以下方向:

    调度优化

    在去中心化环境中进行训练时,由于各节点之间的连接具有不同的延迟和带宽,因此,将需要重度通信的任务分配给拥有较快连接的设备是很重要的。Together?通过建立模型来描述特定调度策略的成本,更好地优化调度策略,以最小化通信成本,最大化训练吞吐量。Together?团队还发现,即使网络慢?100?倍,端到端的训练吞吐量也只慢了?1.7?至?2.3?倍。因此,通过调度优化来追赶分布式网络和中心化集群之间的差距很有戏。

    通信压缩优化

    Together?提出了对于前向激活和反向梯度进行通信压缩,引入了?AQ-SGD?算法,该算法提供了对随机梯度下降收敛的严格保证。AQ-SGD?能够在慢速网络(比如?500 Mbps)上微调大型基础模型,与在中心化算力网络(比如?10 Gbps)无压缩情况下的端到端训练性能相比,只慢了?31%?。此外,AQ-SGD?还可以与最先进的梯度压缩技术(比如?QuantizedAdam)结合使用,实现?10%?的端到端速度提升。

    项目总结

    Together?团队配置非常全面,成员都有非常强的学术背景,从大模型开发、云计算到硬件优化都有行业专家支撑。并且?Together?在路径规划上确实展现出了一种长期有耐心的架势,从研发开源大模型到测试闲置算力(比如?mac)在分布式算力网络用语模型推理,再到分布式算力在大模型训练上的布局。— 有那种厚积薄发的感觉了:)?

    但是目前并没有看到?Together?在激励层过多的研究成果,我认为这和技术研发具有相同的重要性,是确保去中心化算力网络发展的关键因素。

    从?Together?的技术路径我们可以大致理解去中心化算力网络在模型训练和推理上的落地过程以及相应的研发重点。

    另一个不能忽视的重点是算力网络激励层/共识算法的设计,比如一个优秀的网络需要具备:

    1. 确保收益足够有吸引力;

    2. 确保每个矿工获得了应有的收益,包括防作弊和多劳多得;

    3. 确保任务在不同节点直接合理调度和分配,不会有大量闲置节点或者部分节点过度拥挤;

    4. 激励算法简洁高效,不会造成过多的系统负担和延迟;

    ……

    看看?Gensyn.ai?是怎么做的:

    首先,算力网络中的?solver?通过?bid?的方式竞争处理?user?提交的任务的权利,并且根据任务的规模和被发现作弊的风险,solver?需要抵押一定的金额。

    Solver?在更新?parameters?的同时生成多个?checkpoints(保证工作的透明性和可追溯性),并且会定期生成关于任务的密码学加密推理?proofs(工作进度的证明);

    Solver?完成工作并产生了一部分计算结果时,协议会选择一个?verifier,verifier?也会质押一定金额(确保?verifier?诚实地执行验证),并且根据上述提供的?proofs?来决定需要验证哪一部分的计算结果。

    通过基于?Merkle tree?的数据结构,定位到计算结果存在分歧的确切位置。整个验证的操作都会上链,作弊者会被扣除质押的金额。

    项目总结

    激励和验证算法的设计使得?Gensyn.ai?不需要在验证过程中去重放整个计算任务的所有结果,而只需要根据提供的证明对一部分结果进行复制和验证,这极大地提高了验证的效率。同时,节点只需要存储部分计算结果,这也降低了存储空间和计算资源的消耗。另外,潜在的作弊节点无法预测哪些部分会被选中进行验证,所以这也降低了作弊风险;

    这种验证分歧并发现作弊者的方式也可以在不需要比较整个计算结果的情况下(从?Merkle tree?的根节点开始,逐步向下遍历),可以快速找到计算过程中出错的地方,这在处理大规模计算任务时非常有效。

    总之?Gensyn.ai?的激励/验证层设计目标就是:简洁高效。但目前仅限于理论层面,具体实现可能还会面临以下挑战:

    谁需要去中心化算力网络这个问题其实一直没有得到验证。闲置算力应用在对算力资源需求巨大的大模型训练上显然是最?make sense,也是想象空间最大的。但事实上通信、隐私等瓶颈不得不让我们重新思考:

    去中心化地训练大模型是不是真的能看到希望?

    如果跳出这种大家共识的,“最合理的落地场景”,是不是把去中心化算力应用在小型?AI?模型的训练也是一个很大的场景。从技术角度看,目前的限制因素都由于模型的规模和架构得到了解决,同时,从市场上看,我们一直觉得大模型的训练从当下到未来都会是巨大的,但小型?AI?模型的市场就没有吸引力了吗?

    我觉得未必。相比大模型小型?AI?模型更便于部署和管理,而且在处理速度和内存使用方面更有效率,在大量的应用场景中,用户或者公司并不需要大语言模型更通用的推理能力,而是只关注在一个非常细化的预测目标。因此,在大多数场景中,小型?AI?模型仍然是更可行的选择,不应该在?fomo?大模型的潮水中被过早地忽视。

    https://www.together.xyz/blog/neurips-2022-overcoming-communication-bottlenecks-for-decentralized-training-12?

    https://www.together.xyz/blog/redpajama

    https://docs.gensyn.ai/litepaper/

    https://www.nvidia.com/en-in/deep-learning-ai/solutions/large-language-models/

    https://indiaai.gov.in/article/training-data-used-to-train-llm-models

    Foresight Ventures 押注加密货币未来几十年的创新历程,旗下管理多支基金:VC?基金、二级主动管理基金、多策略?FOF、特殊目的?S?基金「Foresight Secondary Fund l」, 总资产管理规模超过?4?亿美元。Foresight Ventures 坚持“Unique, Independent, Aggressive, Long-term”的理念,通过强大的生态力量为项目提供广泛的支持。其团队来自包括红杉中国,中金公司,谷歌,比特大陆等顶级金融和技术公司的资深人士。

    Website:?https://www.foresightventures.com

    免责声明:Foresight Ventures?所有文章均不作为投资建议。投资有风险,请评估个人风险承受能力,审慎做出投资决策。