月亮链 月亮链
Ctrl+D收藏月亮链
首页 > Pol币 > 正文

Graph:躁动图计算:蚂蚁和字节们想找到“幻视”额头上那颗宝石_人工智能

作者:

时间:1900/1/1 0:00:00

在美剧《国土安全》里常出现这样的桥段:警员在自己家里理出一面墙,把手上案件里的所有关联人物和事件都贴在墙上,然后就是一个填肉的过程......照片、箭头和关键词组成一幅复杂的事件全貌。

——找到那个罪犯。

这几乎是所有悬疑电影的经典场景。整个案件唯一的破绽就藏在这张关系网络里,推理者的视线在这面墙上流转,观众的肾上腺素也被极速调动起来。

图源:《国土安全》剧照

我们会觉得这是合理的,设想中人类最敏锐的大脑可以穿破墙上的迷雾——如果墙上只有5个家庭,10个嫌疑人,和关于他们的100件事的话。

但如果把这面墙无限扩大,比如1亿个嫌疑人,100亿件事呢?

看起来这已远超人脑的负载极限,但我们可能已经见过这样的事了——或许你我的手机里就正在经历这些——比如各式各样的知识图谱,以及在它底层,一个抽象出来叫做图计算的技术概念。

图计算缘起

“Things,notstrings.”

Google在2012年5月提出了这句话,以及知识图谱的概念。

知识图谱,由知识和图谱两个词构成,前者是信息的内容要素,后者是信息最终的表现形态。这种信息间全新的连接方式,其基本组成单位是“实体—关系—实体”三元组,以及实体及其相关属性—值对,实体之间通过关系相互联结,构成网状的知识结构。

知识图谱能够成立的核心是计算机的知识推理机制,图计算为其提供了重要的底层技术支持。

图计算中的“图”即Graph,这是一种基于图论而非数论的计算逻辑。

图论的基本要素是“节点”和“边”,“节点”可以理解为人或者网络账号这些相对静态的实体,而“边”则代表着不同实体之间的关系或者行为。

Coinbase将于8月15日暂停个别小市值币种USDT交易对:8月14日消息,据官方消息,Coinbase将于太平洋时间 2023 年 8 月 15 日上午 9 点左右暂停以下交易对:ALCX-EUR、API3-USDT、COVAL-USDT、FOX-USDT 和 POLY-USDT。[2023/8/15 21:22:57]

比如A在抖音上关注了B,这个动作就成为A和B之间这条“边”上可包含的信息。“边”在记录内容的时候可以表示方向,这被称为有向图,而如果“边”没有标注方向则称为无向图。这种信息数据甚至可以是多模态的,比如在脑科学领域涉及光或电信号的时候。

相比于链表或者线性表的二维结构,“图”相当于在结构上做了一次升维,这也让其对于“关系”有更优越的描述能力,也更接近人类对于事物联系的原生表达。

图源:源于网络

简单来讲,我们从来不是以Excel的样子来理解外部世界的,图的相互连接更接近正常人的思考方式。从遥远的阿兰?图灵时代开始,人类就在思考如何让机器像人类一样思考,图计算是目前为止最有潜力的路径。

一开始只是试图找到从鹿特丹到格罗宁根的最短路径,荷兰计算机科学家Dijkstra为了解决这个问题在1956年发明了寻求图最短路径的Dijkstra算法,这是最早与图计算连接起来的概念之一。到Google创始人LarryPage在20世纪末发明了开创性的PageRank算法,以及随着社交网络时代降临而繁荣起来的如Girvan-Newman算法等社区发现算法。

这其中也能看出来,图计算的定义本身也在经历一个从狭义到广义的延展过程。

狭义的图计算更多指在确定不变的图上做的计算,比如基于地图信息的路网图——在变化频率和幅度很低的鹿特丹到格罗宁根之间寻找一条最短路径——这是图计算可以解决的典型问题。

Watcher.Guru:Coinbase出现宕机问题:金色财经报道,Watcher.Guru在社交媒体上称,Coinbase的几种代币服务已经关闭。[2022/11/9 12:35:15]

广义的图计算指一切基于图数据进行的分析计算,其中的数据概念进而扩充到海量规模并且富于动态变化,比如社交媒体的关系网络,不断发生新事件的历史知识图谱,或者将道路拥堵变化也考虑在内的路径规划。

于是图数据库的概念被引入进来。

图数据库是用来处理图这种数据结构的工具,传统的使用二维表格存储数据的数据库被称为关系性数据库——或者可以被理解成无数以横竖轴结构展开的表数据的集合,图数据库则是另一种非关系性数据库,它把所有表格打散了,然后织成一张网。

图数据库与关系型数据库最大的不同是免索引邻接。即图数据模型中的每个节点都会维护与它相邻的节点关系,这就意味着查询时间与图的整体规模无关,只与每个节点的邻点数量有关,这使得图数据库在处理数据之间关系方面比关系性数据库更加灵活之外,也具备处理大量复杂关系时比后者更优越的性能。

Google创始人LarryPage图源:LearnBiography

图计算与图数据库的发展是互联网时代的一条暗线,在其中一些关键技术背后,可以看到谷歌、Meta、推特甚至高盛的身影——如果你还记得2007年开始爆发的那场金融危机的话——莱曼兄弟公司破产,高盛却因为提前预见到了次级抵押贷款市场的熊市而活了下来,背后是图数据库系统——SecDB对危险的察觉能力。

不遑说,今天许多伟大公司都是基于图计算领域的尖端技术而诞生或持续繁荣的。

而在经历了几十年的发展之后,图计算现在站到了更广泛的应用场景入口。

V神揭示2023年以太坊四个关键目标,其中解决可扩展性为首要任务:10月27日消息,据外媒报道,以太坊创始人V神(Vitalik Buterin)在接受Bankless采访时表示,以太坊开发人员希望明年实现四个关键目标,包括可扩展性、隐私、基础层抗审查性和帐户抽象,其中解决可扩展性是他们的“第一”要务。V神指出,以太坊开发人员正在“抓紧时间”解决可扩展性问题。(The Daily Hodl)[2022/10/27 11:48:12]

咨询公司Gartner在《2021年十大数据和分析技术趋势》的报告中预测,2025年全球将有80%的数据和分析创新会与图技术有关。

在这届世界人工智能大会上,与图计算或图数据有关的论坛数量也多达五场,是本次大会上被最高频的概念之一。如蚂蚁集团、亚马逊云等瞩目的图数据库框架,也在本届WAIC上首次开源。

图计算作为一种技术在国内开始成熟的标志是,小范围的数据已无法探索技术上限,它比以往任何时候都需要更大的试验场,比如6亿用户的抖音,或者12亿用户的支付宝。越来越多大型科技公司出现在关于图计算的讨论中。开源是产业化的隐喻,产业化的加速使图计算开始获得更丰富的能力纵深,甚至早已不局限在知识图谱的领域。

抖音与支付宝,两条路径

2018年8月,字节跳动内部开始自研图数据库ByteGraph的开发。

ByteGraph项目的发起是为了抖音核心的社交关系问题。个性化推荐系统逐渐成为互联网各大社交媒体和电商网站的基础能力。与此并行的,知识图谱的场景也正在丰富,大量研究工作逐渐指向两者的交汇处,图计算与知识图谱可以用来完善基于内容的推荐系统,从而提升推荐效果。

这是图计算在字节跳动内的起点,并由此开始进入业务的底层开发场景。从抖音开始,ByteGraph逐渐演变为支持有向属性图数据模型、支持写入原子性、部分Gremlin图查询语言的通用图数据库系统,随后逐渐渗入今日头条、TikTok、西瓜、等几乎字节跳动全部产品线。

安全团队:Doge Capital项目Discord服务器遭到攻击:8月5日消息,据CertiK监测,Doge Capital项目官方表示其Discord服务器遭到攻击,请社区用户不要点击、铸造或批准任何交易。[2022/8/5 12:03:53]

图源:知乎

“字节跳动整个业务开发团队,已经都在用图建模的方式来表达和处理业务逻辑”,ByteGraph团队负责人张帅表示。

开发团队围聚在一起探索业务时,往往会拽过来一块白板,把初步的开发逻辑和任何灵感写在一起。这某种程度上即是一种知识图谱,并且天然与人类大脑思维接近。但此前这样一张思维导图需要被重新整理——可以理解为把图文并茂的图降维成一张Excel——再进入开发步骤。

但现在基于图计算和图数据库,这张白板上的草图可以直接被代码化了。

在电商、到店业务甚至音乐等更复杂的场景嵌进信息流与社交属性后,“图”作为一种关系逻辑的重要性在字节跳动内完全显示出来了。张帅透露ByteGraph已经在火山引擎上开始构建,这意味着字节跳动的图数据库开源已经开始提上日程。

在图数据库的进展方面,蚂蚁集团走在字节跳动前面。在本届WAIC上,蚂蚁集团宣布开源图数据库TuGraph的单机版本。

蚂蚁集团的图数据库研发从2015年开始,隔年第一次发布自研分布式图数据库并用于支付宝。2021年,蚂蚁集团联合清华大学自主研发的“大规模图计算系统GeaGraph”完成了产品3.0版本的迭代。迭代后的版本查询效率提升10倍,兼容性更强,并且正式升级为TuGraph。

相比抖音,支付宝背后有一张更庞大的用户关系网络,而其围绕支付展开的科技金融业务,也让两者在进入图计算领域的侧重上分出差异。

俄罗斯财政部:支持稳定币在商业领域流通的想法:7月9日消息,CoinHub发推称,俄罗斯财政部支持稳定币在商业领域流通的想法。[2022/7/9 2:02:06]

图源:MobileWorldLive

蚂蚁集团看中的是图计算中增强“薄”数据的表征,从而增强支付安全性的能力。

比如在支付宝的场景中,判断一个用户的消费偏好,或者这个人还款的信用,当用户数据信息很丰富的时候,人工智能算法往往会得到很好的结果。但如果用户背后没有太丰富的信息——比如他只是偶尔的用支付宝转过几笔钱——如何得知这个人的特点呢?

图数据比起以关系数据网为代表的表数据最鲜明的优越性在于,很多时候人、地点和事件的关联性并不完全能以表的形式呈现,却能用“节点”和“边”这种更松散的形式记录下来,这些隐形的关联信息单独来看并不能解释某个关联用户的行为,但这张网聚集起来却能形成一些社区发现。也因此,当这张关系网络中纳入的用户越多,这种四两拨千斤的能力也愈强。

“图是一种最为灵活的连接方式,让实体之间可以不受限制地连接”,蚂蚁技术研究院院长陈文光表示,这同时也赋予了算法更多的“可解释性”。

人跟随着算法生活的蜜月正在过去,算法对人的过度入侵开始被提到高位审视。在这个过程中,算法已经不可逆的搭建起一套社会需要依附其上的运转方式,于是当代码替人做了决定——比如你的转账额度,或者为什么一直收到某一类的广告——这个决定是如何做出的,需要可以被清晰追溯。

陈文光以社区发现举了个例子:

“比如在某个社区里已知有一些“坏人’,然后我们发现某个人和这些邻居的链接比较紧密,那这个人是”坏人”的概率也会更大。”

这是最基本的思路。一个人的节点特征是由他邻居的节点特征通过某种运算,结合和他过去的特征合在一起型成的。能够影响我们对一个人的判断,形成他新的特征,这与之前纯粹将数据放进神经网络,通过统计学得到一个完全没法解释的分类答案不一样。”

相比于表数据来说,图计算带有一个更清晰的逐层推导结构,这个结构本身就意味着一定的可解释性。

这种把薄数据“变厚”的能力以及推理过程的可解释性,已经开始和蚂蚁集团开源的可信隐私计算框架“隐语”一起,在支付宝反诈风控的系统中形成合力。目前支付宝可在0.01秒内完成对一笔交易的风险判定,并且在2021年的全年统计中资损率低于亿分之0.98——即平台上1亿人民币的资金流转中,出于欺诈行为的不到1元。

开始跨入现实之门

在这位从学界跨入产界的蚂蚁智库首席看来,图计算是一个处在数据和人工智能发展交汇处的概念。技术沉淀多时,亟需的是场景。

陈文光是以费马科技创始人的身份加入蚂蚁集团的,再那之前的十几年一直在清华大学计算机系担任教授,这番从学界投身产界,最终进入大公司的姿态本身也像是图计算作为一个前沿领域发展的某种映射。

费马科技在2016年5月创立,站在台前的是包括洪春涛和朱晓伟在内的几位清华计算机系博士,陈文光则落于幕后担任首席科学家。公司的业务方向是立足于高性能的分布式图计算以进行大规模关系网络分析,为银行等客户提供反欺诈能力和社交分析能力,以及整体的金融大数据解决方案。

2016年之前,陈文光在清华大学主导的图计算研究已经有了成果,团队自研的图计算系统比当时开源软件中常用的图计算框架GraphX要快100倍左右,而所需的内存只是后者的10%。把自己培养的博士生聚拢起来,继续优化自研的图计算系统,并为它找到使用场景,这是费马科技成立的初衷。

费马的畅想卡在规模化这最后一步。

“图计算要想真正成长起来,第一步要解决:做出来;第二步:有人用;第三步:大规模使用。而当时困扰我的问题,怎么实现从有人用到大规模使用。”

几年时间里费马科技确实拿到了一些标杆客户,比如京东金融和国家电网,但整体的商业化路径并不清晰,这也不是技术出身的团队所擅长的事。

在本届WAIC的一场论坛上,洪春涛与陈文光同席出现在最后的圆桌环节。洪春涛曾是费马科技的CEO,现在他的身份是蚂蚁集团图数据库负责人。2020年,洪春涛曾经表示图计算未来的市场规模会达到千亿,并且“已到爆发前夜”,但2021年初的多项工商变更则表明,费马科技决定在这黎明前的最后一夜拥抱蚂蚁集团。

原费马科技高管,左三为陈文光,右二为洪春涛图源:搜狐

“到2020年的时候,我们发现了自身的局限性。费马团队总体上技术上是很强,但是管理和市场销售,特别是后者我们相对比较弱的”,陈文光在今年6月的一次采访中对极客公园表示。

2020年,蚂蚁集团宣布了陈文光的加入。两年之后,后者开始担任蚂蚁技术研究院院长。

蚂蚁集团对于图计算的布局很早,从2015年开始就自主研发分布式图数据库、流式图计算等图相关技术,2016年发布自研分布式图数据库。而手握支付宝,意味着蚂蚁天然有了全球领先的图计算的场景需求,这是纯粹从技术出发的图计算团队都不具备的。

从陈文光的表述中,费马科技并入蚂蚁集团并不是商业场上那种千篇一律的无奈收购,而是一个技术找到场景的积极故事。蚂蚁集团,或者字节跳动这些掌握大量数据的科技公司正拥有这片土壤。只有在最大限度的接触到真实数据之后,图计算的成长才会开始加速,直到最终从象牙塔中走出,找到现实世界中的位置。

除了蚂蚁和字节跳动,国内的互联网巨头几乎无一例外的都已经开始图计算和图数据库的相关布局。

华为云的图引擎服务GES是国内首个商用的、拥有自主知识产权的国产分布式原生图引擎。早在2019年华为云推出一站式AI开发平台ModelArts,联合了GES图引擎打造的“图神经网络”,自此图深度学习开始落地。

2020年6月1日,腾讯云正式发布分布式图数据库产品腾讯云数图TGDB,能够实现万亿级关联关系数据实时查询,高效治理异构数据,支持实时图计算。

而早在2018年,百度已宣布开源大规模图数据库HugeGraph,这也是国内第一家开源的图数据库。今年5月百度将HugeGraph捐赠给了世界上最大的开源软件基金会Apache,成为后者的孵化项目之一。孵化成功的HugeGraph有望成为全球首个Apache软件基金会的图数据库顶级项目。

这一切迹象都在表明,图计算正在被积极的潮水推动着。人类苦寻“幻视”一样理想的人工智能,或许我们已经找到额头上的那颗宝石了。

参考资料:

《图论及相关历史》

《人人都在谈的图数据库到底是个啥?》

《图计算,下一个科技前沿?》

标签:Graph人工智能AICGraph币是什么币人工智能技术应用学人工智能后悔死了人工智能考研考哪些科目AIC价格AIC币

Pol币热门资讯
数字货币:第181篇:勿忘创始之初,货币属于劳动者_数字货币十大数字货币交易所排名

本节摘自原创书籍《初心部落,找回失落的家园!》第四部分:文明4.0--重返家园 四、货币属于劳动者 1、货币演化途中的文明陷阱.

1900/1/1 0:00:00
马斯克:最近行情一句话可概括,高低起伏,多空均有一定空间,上行承压_比特币

最近行情一句话可概括,高低起伏,多空均有一定空间,上行承压,下行筑底icon,波动空间维持在一定范围内,那么这种走势结构下,时机显得比较重要.

1900/1/1 0:00:00
元宇宙:透过元宇宙七大产业链解析,究竟哪些公司需要元宇宙人才?_Holo币是什么币

元宇宙作为下一代革命性的交互形式,是近年来各大厂商争相进入的“焦点”。元宇宙相关技术的应用也随着技术的发展越来越普遍涉及到教育、医疗、农业、工业、生态、历史等方方面面,在未来究竟都有哪些公司需要.

1900/1/1 0:00:00
马斯克:保时捷卖菜刀、法拉利卖风衣,细数大牌们的“不务正业”_马斯克什么星座

图片来源@视觉中国 文|锌财经,作者|陈妍,编辑|大风高端品牌们又开始“不务正业”了。近日,保时捷在官网上架一款一体式中国菜刀,名为P22中国刀,售价240美元,约合人民币1700元.

1900/1/1 0:00:00
稳定币:有哪些不同类型的稳定币以及它们如何工作?_加密货币

稳定币是与某种法定货币或贵金属或稀有金属挂钩的加密代币。法定货币通常是全球货币,例如美元或欧元。稳定币在法定货币和加密货币之间架起了一座桥梁.

1900/1/1 0:00:00
比特币:以太坊ETH交易成本正在下降——发生了什么?下一个比特币BTC运动_40亿比特币能提现吗

据报道,自2021年夏季以来,以太坊($ETH)交易变得便宜很多,当时人们对DeFi和NFT的兴趣迅速增长。根据TheBlock的数据,截至9月22日,以太坊的交易成本处于过去两年的最低点.

1900/1/1 0:00:00