2022年6月3日 端午节安康。
今天主要分享如何利用爬虫爬取区块链浏览器上的交易列表数据。
dune上没有bsc链上的转账明细数据表。Footprint Analytics上现有的bsc_transactions表transfer_type粒度不够。
python 3.7
数据存储:mysql 5.7
缓存:redis 6.2.6
开发工具:pycharm
(1)所有协议、合约、swap地址转账信息全爬不太实际,对存储要求比较高。所以针对需要分析的协议,专门去爬取对应智能合约转账是个不错的选择。
(2)区块链浏览器肯定是有反爬机制的。所以在代理选择上,要选择国外的代理。国内的代理都访问不到,具体原因你懂的。本文中不涉及代理部分,因为国外的代理厂家之前没有了解过。不过即使是上代理,对代码层面改动也比较小
Python软件包中的“Kekw”恶意软件可以窃取数据和加密货币:5月5日消息,根据Cyble Research and Intelligence Labs ( CRIL ) 的数据,Python软件包中的“Kekw”恶意软件可以从受感染的系统中窃取敏感信息,并执行可以劫持加密货币交易的活动。目前,Python安全团队已经删除了该恶意包,无法确定有多少人下载了它们。[2023/5/6 14:45:53]
(3)采用了urllib同步请求 + 范围内随机时长程序休眠。减少了被风控的概率。但是也降低了爬虫的效率。
后面再研究用scrapy或异步请求
同步:请求发送后,需要接受到返回的消息后,才进行下一次发送。异步:不需要等接收到返回的消息。
ZkSync发布Java、Go和Python编程语言的新SDK:金色财经报道,zkSync宣布,为了让开发者更容易使用zkSync 2.0的功能,ZkSync新发布了Java、Go和Python编程语言的SDK。[2022/11/2 12:06:49]
找到需要爬取合约的具体地址:
第一页
http://bscscan.com/txs?a=0xbd3bd95529e0784ad973fd14928eedf3678cfad8第二页
https://bscscan.com/txs?a=0xbd3bd95529e0784ad973fd14928eedf3678cfad8&p=2第三页
Solana生态预言机Pyth Network新增支持NEAR喂价:3月31日消息,Solana生态预言机Pyth Network新增支持NEAR Protocol代币NEAR喂价。[2022/3/31 14:28:15]
https://bscscan.com/txs?a=0xbd3bd95529e0784ad973fd14928eedf3678cfad8&p=3....
可以知道 p = ?就代表页数。
然后F12 点击“网络”,刷新界面,查看网络请求信息。
主要查看,网页上显示的数据,是哪个文件响应的。以什么方式响应的,请求方法是什么
英国喜剧天团Monty Python成员John Cleese发布NFT:英国喜剧天团 Monty Python 的成员 John Cleese 正在拍卖一件自己的 NFT 画作,这幅名为「布鲁克林大桥」的作品为 John Cleese 本人在 iPad 上绘制的布鲁克林大桥写生,目前正在 NFT 市场 OpenSea 上进行拍卖,该作品起拍价为 100 美元,目前最高出价为 50000USDC。John Cleese「布鲁克林大桥」的作品受到本周早些时候另一件名为「待售桥」的 NFT 作品的启发,这是一件布鲁克林大桥的 Google 在地图视图,目前在 OpenSea 上价值 27 美元,意欲讽刺美国历史上臭名昭著的犯 George C. Parker,从 1900 年至 1928 年,George C. Parker 使用不同的假名,出售了很多美国地标建筑,包括自由女神像,麦迪逊广场花园,大都会博物馆,格兰特将军国家纪念堂,和布鲁克林桥。[2021/3/21 19:04:17]
如何验证呢,就是找一个txn_hash在响应的数据里面按ctrl + f去搜索,搜索到了说明肯定是这个文件返回的。
查看响应的数据,是html的格式。在python里面,处理html数据,个人常用的是xpath(当然,如果更擅长BeautifulSoup也可以)
在python里面安装相关的依赖
pip install lxml ‐i https://pypi.douban.com/simple同时在浏览器上安装xpath插件,它能更好的帮助我们获到网页中元素的位置
XPath Helper - Chrome 网上应用店 (google.com)
然后就可以通过插件去定位了,返回的结果是list
**注:**浏览器看到的网页都是浏览器帮我们渲染好的。存在在浏览器中能定位到数据,但是代码中取不到值的情况,这时候可以通过鼠标右键-查看网页源码,然后搜索实现
然后就是利用redis,对txn_hash去重,去重的原因是防止一条数据被爬到了多次
最后一个需要考虑的问题:交易是在增量了,也就是说,当前第二页的数据,很可能过会就到第三页去了。对此我的策略是不管页数的变动。一直往下爬。全量爬完了,再从第一页爬新增加的交易。直到遇到第一次全量爬取的txn_hash
最后就是存入到数据库了。这个没啥好说的。
以上就可以拿到转账列表中的txn_hash,后面还要写一个爬虫深入列表里面,通过txn_hash去爬取详情页面的信息。这个就下个文章再说,代码还没写完。
今天就写到这里。拜拜ヾ(?ω?`)o
来源:Bress
作者:撒酒狂歌
市场普遍认知上最有价值、最有潜力的蓝筹NFT在过去一周迅速下跌。近期,美联储接连加息,LUNA和Celsius相继发生闪崩,监管与股市、证券市场关联性等事件,导致了市场上各种资产的大幅波动.
1900/1/1 0:00:006月7日,OFRTalk #8 围绕着Optimism的治理代币 $OP 与到会嘉宾进行了一系列。活动中精彩发言不断,此文为活动的文字盘复盘总结.
1900/1/1 0:00:00比特币在24小时内下跌了12%,新一轮的山寨币崩溃加上宏观压力,持有者正在经历阵痛。比特币(BTC)以一种完全不同的感觉开始了新的一周,BTC/USD创下了自2020年12月以来的最低周收盘价.
1900/1/1 0:00:00ICO即Initial Coin Offering,在94公告中将其定义为“首次代币发行”,本文题目中提及的项目方ICO可以做扩大理解,包括代币发行、代币融资等行为.
1900/1/1 0:00:00自上周五美国公布的5月CPI数据超出预期以来,全球投资者因担心通胀将持续更长时间而抛售风险资产。比特币首当其冲,急转直下.
1900/1/1 0:00:00建立加密网络很难。一份协议要想获得成功,它需要验证器运行节点以保护网络;代币持有者要感受到有权参与治理;需要激励 DAO 成员为协议的发展做出贡献;开发人员需要工具在协议之上构建;还可以列举更多.
1900/1/1 0:00:00