作者:?IgorMandrigin
翻译:?阿剑
来源:以太坊爱好者
什么是“无状态以太坊”?
如果您已经了解什么是“无状态以太坊”以及“区块见证数据”,可以跳过这一段。
为执行交易及验证区块,以太坊网络的节点需要了解整条区块链的当前状态——也就是所有账户和合约的余额和存储数据。这些数据一般来说是存储在DB里面的,在需要用于验证时才会加载到一棵默克尔树中。
无状态以太坊客户端的工作思路则稍有区别。顾名思义,无状态客户端就是不使用硬盘DB来执行区块。相反,无状态客户端依赖于“区块见证数据”——就是一段特殊的数据,它会跟相应的区块一起传播;拥有了这段数据,客户端就可以重建出一个默克尔子树,该分支足可用于执行该区块中的所有交易。
你可以在这篇文章中读到关于无状态客户端的更深入的描述:https://blog.ethereum.org/2019/12/30/eth1x-files-state-of-stateless-ethereum/
当然咯,需要传播区块见证数据就意味着无状态客户端的网络要求要比普通节点更高。
-见证数据大小折线图-
现在人们已经提出了很多降低见证数据规模的思路:使用有效性/计算完整性证明、加入更多的压缩手段,等等。其中一种办法是将以太坊的默克尔树从十六进制转为二进制。
这就是本文想要探讨的问题。
为什么要使用二进制树
默克尔树的一大优良特性是,验证树根值正确与否并不要求你具有整棵树所有的数据。只需把所有省略的非空路径替代为相应的哈希值就可以可。
观点:Cardano是GitHub活跃度最高的加密项目:金色财经消息,加密分析公司Santiment发推称,根据其对代码推送、问题交互等因素的分析,Cardano是加密行业GitHub开发活跃度最高的资产,超越FLOW、DOT、KSM、ETH。[2022/7/28 2:43:56]
那么使用十六进制默克尔树有什么不好呢?
设想整棵树都已填满数据。要验证一个区块,我们只需要一小部分默克尔树节点的数据。那么,我们只需把其他路径的数据替代为哈希值就可以了。
但是,每多加入一条哈希值,区块见证数据就会大一些。
如果我们转变为二进制默克尔树,这个问题就可以得到缓解——因为默克尔树上的每个节点都只有两个子节点,所以至多只有一个字节点需要被替换为哈希值。
这样做也许能大幅降低见证数据的规模。
我们再举例说明一下。
假设执行某个区块只会影响一个账户:3B路径下的Acc1。整棵树是全满的。
-二进制状态树与十六进制状态树的比较-
如果说二进制状态树看起来有点吓人,那只是因为二进制树我画全了,但没有把十六进制树的所有代之以哈希值的节点都画出来。
观点:美联储加息推动美元走强令大宗商品承压:4月4日消息,道明证券称,美联储加息推动美元走强令大宗商品承压,但黄金仍是投资者关注重点。美联储鹰派立场对现货黄金构成拖累,另一方面避险需求和大量ETF资金流入支撑金价。即便美元走强,只要俄乌停火谈判和局势缓和未能取得实质性进展,避险资金流入就能够继续支撑金价。(金十)[2022/4/4 14:02:29]
来数个数:
为创建出一棵二进制状态树,见证数据需要包含8个哈希值,7个分支节点和1个账户节点。也就是见证数据中有16个元素。
为创建出一棵十六进制状态树,我们只需1个分支节点,1个账户节点,但需要30个哈希值。也就是有32个元素。
所以,假设哈希值和分支节点在区块见证数据中的所占的空间是一样大的,在我们的例子中,使用二进制树所需的见证数据大小只有十六进制下的一半。看起来不错。
那么,理论上就是这样。
我们来看看实际情况是如何。我们直接拿以太坊主网的数据来看看吧。
开始实验
先说最紧要的:我们怎么知道自己构建出来的区块见证数据是有用的呢?
测试方法如下:我们使用区块见证数据来生成一棵默克尔子树,在这棵树上运行相应区块中的所有交易,然后校验结果是否与我们所知的一致。只要交易都能成功执行,等等),我们就可以断定这个见证是足够充分的。
-测试方法:1.执行区块;2.从状态树中抽取出见证数据;3.使用见证数据构造出一棵子树;4.禁用DB访问、使用子树来执行区块(具体可见
观点:若标普500跌破某一关口 投资者可考虑购买BTC:总部位于美国康涅狄格州的投资公司Albright Investment Group联合创始人Victor Dergunov表示,对于希望避免下次股市崩盘的投资者而言,比特币是一个有吸引力的目的地。他认为,尽管比特币试图突破接近10000美元关键阻力位的尝试未能成功,但它仍具有足够的上涨潜力。指出,比特币可能已经在8,700美元附近见底,这一水平限制了比特币在2020年5月期间的下行修正。Victor Dergunov还表示,如果标准普尔500指数跌破某一关口,投资者应该考虑购买比特币。而在标准普尔500指数下跌的情况下,现货黄金也是一个有吸引力的投资选择。(Bitcoinist)[2020/5/28]
github)-
其次,我们需要一些基准数据。因此,我们也使用500万到850万高度的区块、在十六进制默克尔树模式下生成了见证数据,并将见证数据大小的统计数据存在一个超级大的csv文件中。
我们尝试的第一步是执行完一个区块后就组装出一棵十六进制树,然后将它转为二进制树,再从这棵二进制树中提取出见证数据。
这种方法有几个好处:易于实现,而且验证十六进制-二进制的转换也很简单。
不过,我们遇到了两个问题,而且其中一个还不小。
第一个,正如我们上面证明的那样,比起二进制树,十六进制树包含更多的账户节点,如果我们先生成十六进制树再转换,得到的结果就跟在二进制树模式下直接生成所得到的见证数据不一样。
为什么呢?
因为十六进制树数据总是以1/2字节的速度增长,而二进制树总是以1比特的速度增长,因此键的长度可以是奇数位。
实际上,见证数据中还包含一些额外的扩展节点,它们还要稍微大一点。不过即便对内容较多的区块,体现在见证数据大小上的差别也非常之小。
关键的是性能。随着树的规模增长,转换的速度会越来越慢。
声音 | 观点:从以往的经验来看定于5月份的分叉也可能会对比特币的价格产生重要影响:截至北京时间周一09:48,比特币(Bitfinex)报10158.8美元,过去24小时涨幅为2.20%,市值逼近1844亿美元;年初迄今,比特币已经累计上涨了41.2%。对于比特币的上涨逻辑,Oanda高级市场分析师埃德·莫亚(EdMoya)表示:“市场认为公共卫生事件的影响可能仅限于第一季度,加上对于第二阶段经贸谈判的乐观情绪,促使风险资产得以广泛上涨。”GrayscaleInvestments董事总经理迈克尔·索南辛(MichaelSonnenshein)预计,从以往的经验来看,定于5月份的分叉也可能会对比特币的价格产生重要影响。FundstratGlobalAdvisors分析师罗布·斯莱默(RobSluymer)预计,二季度之前,比特币将在10,000美元至11,000美元的区间内交投。其他市值居前的加密货币近期同样走高,以太坊过去5日上涨20%,年初迄今涨近78%;瑞波币年内涨49%,比特币现金涨121%,莱特币涨88%。[2020/2/10]
用更具体的数字来说明一下:在我们的GoogleComputeEngine虚拟机上,处理速度约为每秒0.16个区块,也就是每分钟处理小于10个区块,处理100万个区块要超过3个月!
所以,我们决定采取更复杂的办法,开发出一个原生使用二进制默克尔树的实验性分支。也就是说,我们要把turbo-geth代码库例地所有十六进制状态树全部替换为二进制树,然后区块就是基于二进制树来执行的了。
这种办法的不利之处在于,部分哈希值的校验只能被忽略掉。
但主要的验证机制还是一样的:我们需要能够使用二进制树来执行区块、从见证数据中创建出默克尔子树。
再来谈谈key。
为简化起见,我们对key的编码方式是非常低效的:1bytepernibble;一个key的每一比特就要占用1字节。这样做大大简化了代码层面的改变,但区块见证数据中的”key“部分会是我们使用bitset时候的8倍大。
金色财经现场报道 圆桌环节嘉宾关于让权力逐步下放与超级节点会不会存在冲突的观点:金色财经现场报道,今日在纽约举行的2018区块链无国界峰会上, 星云链联合创始人钟馥百表示,长远来看超级节点的模式权利会下放,更多的人知道区块链是一件好事。没有完全的去中心化,目前超级节点有很好的公关效果。IOST联合创始人及CEO钟家鸣 同意超级节点有着很好的公关效果。长远来看超级节点不是好的选择,他们希望能真正的做出简单的方案。Hydro Protocol联合创始人王博闻表示,超级节点是个动态均衡的。三年之后,90%的当前节点可能会不复存在,可以看到真正对社区友谊的团队会留存到最后。[2018/5/13]
因此,在进一步分析中,我会假设key的编码方式是最优的。
Hexvs.Bin:结果
我的分析分为两段,总共分析了以太坊主网上的200万个区块。
区块高度500万到650万
我在这个github库里面提供了使用python脚本来重复这一实验的命令行:
https://github.com/mandrigin/ethereum-mainnet-bin-tries-data
首先我们来分析一下数据集。
pythonpercentile.pyhex-witness-raw.csvbin-stats-5m-6.5m.csv50000006500000adjust
-
一个箱型图,箱体显示上四分位到下四分位之间的数据,左右延伸出去的线条显示上1%到下1%之间的数据
-百分比分析-
现在我们可以生成一些很酷的图表了!
pythonxy-scatter-plot.pyhex-witness-raw.csvbin-stats-5m-6.5m.csv50000006500000adjust
-XY散点图(横轴为Hex下见证数据大小,纵轴为Bin下见证数据大小)-
可以看出,二进制见证数据的大小总是优于十六进制树下的见证数据。
我们再加入另一个参数,用二进制见证数据大小除以十六进制见证数据大小,看看我们得到了怎样的提升。
pythonsize-improvements-plot.pyhex-witness-raw.csvbin-stats-5m-6.5m.csv50000006500000adjust
-二进制见证数据的大小/十六进制见证数据的大小-
为更好地理解这张图标,我们也输出了平均值和百分位值。
平均值=0.51
P95=0.58
P99=0.61
在实际场景中这意味着什么?
对于99%的区块,见证数据的大小可以降低至少39%。
对于95%的区块,见证数据的大小可以降低至少42%。
平均来说,见证数据可节省49%。
我们也要考虑见证数据大小的绝对值。为使数据变得可读,我们每1024个区块取滑动平均值。
pythonabsolute-values-plot.pyhex-witness-raw.csvbin-stats-5m-6.5m.csv50000006500000adjust
-依时间顺序绘制的见证数据大小折线图,纵轴单位为MB-
再来看看最新区块的情况。
区块高度800万到850万
pythonpercentile.pyhex-witness-raw.csvbin-stats-8m-9m.csv80000008500000adjust
-箱型图,箱表示上下四分位以内的数据,线表示上下1%以内的数据-
-800万号到850万号区块的百分位分析-
还有XY散点图。
pythonxy-scatter-plot.pyhex-witness-raw.csvbin-stats-8m-9m.csv80000008500000adjust
还有规模上的节约。
pythonsize-improvements-plot.pyhex-witness-raw.csvbin-stats-8m-9m.csv80000008500000adjust
-XY散点图(横轴为Hex下见证数据大小,纵轴为Bin下见证数据大小)-
平均值=0.53
P95=0.61
P99=0.66
最后,再来看看见证数据的绝对大小。
pythonabsolute-values-plot.pyhex-witness-raw.csvbin-stats-8m-9m.csv80000008500000adjust
-依时间顺序绘制的见证数据大小折线图,纵轴单位为MB-
结论
在使用以太坊主网数据做过测试以后,我们可以看到,切换为二进制树模式可以大幅提升生成见证数据的效率。
另一个结论是,这种提升并没有理论上那么显著。原因可能在于主网区块的实际数据。
也许,通过分析一些例外情况,我们可以知道更多优化见证数据规模的办法。
试着使用别的原始数据来跑跑GitHub中的脚本吧:https://github.com/mandrigin/ethereum-mainnet-bin-tries-data
比特币已经显示出一项可以参考的增长指标,该指标表明人们对采用率以及潜在的新用户持积极态度。自2017年以来,活动地址和新地址都在增长.
1900/1/1 0:00:00在刚刚过去的2019年中,尽管对大多数加密资产来说总体上看跌,但去中心化金融却在不断壮大。最近的研究发现,在过去的一年中,对DeFi的一小笔投资可能比比特币产生更多的收益.
1900/1/1 0:00:00来源:深圳商报深圳商报讯“粤港澳大湾区银行金融业活跃,在金融创新方面具有更多灵活性,具备试点数字货币运营得天独厚的优势.
1900/1/1 0:00:00来源:52CBDC区块链风险投资基金摩根溪联合创始人AnthonyPompliano在推特上发文表示,有传言称美联储计划宣布一项将美元数字化的计划,类似中国的数字人民币.
1900/1/1 0:00:00记者:杨天姚天坤来源:天下泉城1月15日,济南市局举行“区块链+失效居民身份证核验及有效居民身份证信息应用服务”上线发布会.
1900/1/1 0:00:00美国国会再次提出一项法案,要求免除个人加密货币交易的资本利得税。华盛顿特区周四公布的《2020年虚拟货币税收公平法案》由来自华盛顿的议员SuzanDelbene和来自亚利桑那州的议员DavidS.
1900/1/1 0:00:00