写在前面
2月13日,《2022年北京人工智能产业发展白皮书》正式发布,其中提到全面夯实人工智能产业发展底座,支持头部企业打造对标ChatGPT的大模型,着力构建开源框架和通用大模型的应用生态。
很巧的是,飒姐团队成员在今年10月份的时候测评过:百度文心、源1.0、某道,三款国内现有的大模型,当时对测评结果甚是遗憾。于是又将当时的测试内容让ChatGPT做了一遍,试图摸清国内外大语言模型在问答这一领域的实际差距,旨在希望国内产学研戒骄戒躁,稳扎稳打地发展。
测试方案
国内首家区块链+WEB3创投联盟成立:金色财经报道,上海金融信息行业协会、上海金融数据港、清华大学全球私募股权研究院、InnoSpace、泰和泰律师事务所等机构宣布共同发起成立了国内首家区块链+WEB3创投联盟,将在行业指导、孵化与创投服务、科创风险股权投资、行业咨询、创业空间、法律等方面,为投资者和创业者提供一个一站式、全方位区块链+WEB3创业服务、合作共赢的平台,打造一个安全高效的区块链+WEB3生态圈,促进形成完整的区块链与WEB3产业链和成熟健康的市场。该联盟发起方之一上海金融数据港还宣布将启动金融数据港科技创新中心,中心将设有展示中心、培训中心、孵化加速器和大企业创新中心。(新浪香港)[2023/7/8 22:25:28]
本次测试仅仅考虑非连续性的单次问答,且皆为常识性问题,答案唯一,但题目会有一定的挑战性。具体的,涉及到What,When,Where,Who,Which五类问题。
周小川:中国推进数字人民币币的初衷是服务国内:4月18日晚间,在博鳌亚洲论坛“数字支付与数字货币”分论坛上,博鳌亚洲论坛副理事长、中国人民银行前行长周小川在被问到“央行做数字人民币最初的考虑是什么”时表示,中国做数字人民币并不是为了跨境,而是为了借助科技发展,特别是移动互联网普及后,可以更方便地为大众提供支付。“中国有一个14亿人的非常大的零售市场,大家希望有更方便、更有效,成本更低的支付体系。央行在最开始的时候,没想过是不是需要做批发系统,或者是人民币国际化,而是从零售系统开始。”[2021/4/19 20:34:02]
问题样例如下:
1.“是什么”型问题,如“爸爸的爸爸叫什么?”
2.“什么时候”型问题,如“人们一般什么时候过元旦?”
3.“什么地点”型问题,如“孙中山安葬在哪里?”
4.“是谁型问题”,如“中国历史上第一个皇帝是谁?”
动态 | 国内首次出现要求微信支付赎金的勒索病:来自“火绒安全实验室”的消息显示,接到若干用户求助,遭遇勒索病攻击。火绒安全团队分析确认,该病为新型勒索病,入侵电脑运行后,会加密用户文件,但不收取比特币,而是要求受害者扫描弹出的微信二维码支付110元赎金,获得解密钥匙,这也是国内首次出现要求微信支付赎金的勒索病。[2018/12/2]
5.“哪?个型问题”,如“哪个洲是倒数第二小的洲?”
问答样例对比
问题:“孙中山安葬在哪里?”
ChatGPT:孙中山的遗体最初安葬在南京中山陵内,后因战乱多次迁移。最终于1929年安葬在南京中山陵北麓的紫金山下,此地现为孙中山陵园。
百度文心:孙中山墓地
某道:"孙文(1866年-1925年10月12日),名文,字载之,号仲立,又名帝光,广东省香山县(今中山市)南朗镇翠亨村人,1883年(光绪九年)随父移居澳门。1904年参加孙中山领导的同盟会,任同盟会南方支部书记。曾两次赴日,组织策划惠州起义。后回澳门发展组织,被选为中国同盟会南方总支部庶务部长。1905年春,与陈少白、朱执信等在香港成立兴中会,被举为评议部评议员,旋被派往南洋联络同志,协助筹办革命刊物《中兴日报》。1906年冬,孙中山在日本东京成立中国同盟会中部总会,被委为秘书。1907年奉命回国,在广东发动民军起义。事败后潜赴南洋,继续组织发动华侨、华工和留学生进行革命活动。1911年武昌起义爆发后,被派往广州协助筹划起义,不幸事泄被捕,不久在广州黄花岗就义。
动态 | 国内真正的区块链自主设计、开发、创新团队少之又少:据上海金融报消息,平安金融壹账通区块链团队高级总监、区块链研发部负责人陆一帆表示:我国区块链技术与欧美相比还较为落后,因为这一技术本身存在着很深的瓶颈。目前在中国,碰到过和实施过其中个别算法的人不超过20位。这一行业,做基础研究的人很少,跟风炒作的人比较多。很多区块链企业做的项目都是在国外开源库的基础上加以应用,真正能够自主设计、自主开发、自主创新的团队少之又少。[2018/10/19]
源1.0:孙中山安葬在南京紫金山中山陵
问题:哪个洲是倒数第二小的洲?
ChatGPT:开始回答了错误的答案,与其对话后成功纠正
政协委员范九伦:瞄准区块链等领域建设国内一流数字经济示范基地:政协委员范九伦在地方两会建议:科学编制陕西及各地数字经济发展规划方案,各相关部门要根据规划要求,建立促进数字经济发展的工作协调机制,各地结合产业状况和实际条件,制定推动数字经济发展的具体方案和工作措施。瞄准区块链、人工智能、智能制造、数字文化等领域,建设特色鲜明、国内一流的数字经济示范基地,为其他区域发展数字经济提供可借鉴、可复制的标准和方案。[2018/3/3]
百度文心:南极洲
某道:南美洲,南美洲面积最大,但人口最多,人口占全球人口的1/5,因此南美洲是仅次于亚洲的世界第二大洲。南美洲位于东半球的南部,包括巴拿马运河以南的整个南美洲大陆。南美洲大陆东至圣赫勒拿岛(西经34°40'),西至马尔维纳斯群岛(西经61°10'),南至德雷克海峡,北至亚马孙河下游平原,南北相距约5100千米。南美洲大陆最南端是厄瓜多尔首都基多城。南美洲北部以安第斯山脉为界与北美洲相分,东部以乌拉尔山脉和太平洋为界与亚洲相邻,东南部经德雷克海峡与非洲相分,西部则与南极洲隔德雷克海峡相望。(摘自百度百科)“
源1.0:大洋洲
总体分析
四个系统对于基本问题的问答可谓是手到擒来。五类问题中,when问题和who问题整体回答的情况最好。三个国产系统中整体文心系统的表现最好。ChatGPT也会犯错,但是往往只要略微引导,便能改正错误。
错误回答分析
错误语句生成:语句本身并不通顺,前后主题不一致或者内容不一致,给人错乱的感觉。
例如问:爸爸的爸爸称谓是什么?
答:??爸爸的父亲,也就是爸爸的爷爷,是妈妈的爸爸。爸爸的爷爷的爸爸叫太爷爷。爸爸的爷爷的爷爷叫太奶爷(奶奶的爸爸)
或问:我们党二大在哪里召开?
答:1921年7月23日至31日,中国第二次全国代表大会在浙江省嘉兴市南湖的一艘游船上召开。出席大会的正式代表共13人,候补代表5人,代表全国121名员。共产国际代表马林、尼科尔斯基和鲍罗廷等参加了会议。
事实性错误:产生了事实性的错误。
例如问:?孙文去世的日子?
答:孙文去世的日子是1918年3月13日
偏见性素材:回答取自的素材较少,体现比较强的笔者的主观性。
例如问:大家什么时候过元旦?
答:谢邀。我是在大学过的,所以元旦是在宿舍过的。我们宿舍六个人,有四个人都回家了,剩下我一个在宿舍,所以元旦那天我过得比较孤独,不过还好啦,因为宿舍就我自己了,所以我可以一个人吃饭,一个人看电影,一个人逛超市,一个人睡觉,一个人......
含有逻辑性的问题无法识别:问题中存在复合问题或者逻辑判断,一般难以处理。
例如问:哪个洲是倒数第二小的洲?
答:"南美洲,南美洲面积最大,但人口最多,人口占全球人口的1/5,因此南美洲是仅次于亚洲的世界第二大洲。南美洲位于东半球的南部,包括巴拿马运河以南的整个南美洲大陆。南美洲大陆东至圣赫勒拿岛(西经34°40'),西至马尔维纳斯群岛(西经61°10'),南至德雷克海峡,北至亚马孙河下游平原,南北相距约5100千米。南美洲大陆最南端是厄瓜多尔首都基多城。南美洲北部以安第斯山脉为界与北美洲相分,东部以乌拉尔山脉和太平洋为界与亚洲相邻,东南部经德雷克海峡与非洲相分,西部则与南极洲隔德雷克海峡相望。(摘自百度百科)
写在最后
飒姐团队认为,传统的单一问答模型可用性不大,给予用户的体验感也欠佳,国产大语言模型下一个里程碑,前辈ChatGPT已经给出了方向,便是对话问答。在使用ChatGPT的时候,虽然它也经常会给出错误答案,但是其回答的逻辑依旧符合人的习惯,同时经过一定的对话引导,可以自行发现其回答逻辑性的缺失。
作为全新的一种数据合成方式,大语言模型的直接输出可能是我们人类无法把控的,但是只要它能“理解”用户的输入,以此为依调整其输出,最后得到满意的回答,那便是可用的。进一步的,大语言模型未来的趋势很有可能是提前预判用户可能的“纠错”,并提前“自纠错”,并对纠错结果进行评估。
1、数字货币不被承认其合法性年前的时候,有一位数字货币的玩家因为平台出现问题,来咨询我们想要进行刑事报案以维护自己的权益,但是一路听下来再加上我的询问,发现他的维权之路可能没有那么简单.
1900/1/1 0:00:00CoolCats将在今年启动品牌重塑,对于陷入低迷泥潭的CoolCats来说,能否借助市场反弹的“东风”再次雄起呢?下面.
1900/1/1 0:00:00在最近的一次东京之行中,我发现交谈过的人似乎都没有因FTX崩溃感到特别担忧。众议院议员、日本现今执政党自民党的Web3项目团队成员MasaakiTaira表示,FTX的垮台“对政策制定没有影响”.
1900/1/1 0:00:007:00-12:00关键词:耐克、印度、灰度、chatgpt.eth1.RTFKT&Clones加入耐克Web3生态系统平台“.Swoosh”;2.
1900/1/1 0:00:00头条▌白宫发布政府降低加密货币风险的路线图金色财经报道,美国白宫周五发布了关于政府降低加密货币风险的路线图.
1900/1/1 0:00:00摘要随着?2020?年?DefiSummer?和?2021?年?NFTSummer?的狂欢过去,最近越来越多的人将目光开始投射在?NFTFi?上.
1900/1/1 0:00:00