当前所在位置: 首页 > 资讯

谷歌版ChatGPT公测炸了!比GPT-4数学能力还强,体验名额发得很快

2023-03-22 胖猫 【 字体:

谷歌吃了大亏之后,这次一声不吭,放了大招:

对标ChatGPT的Bard测试版,刚刚正式对外发布。

而且这次用户在申请候补名单之后,无需经历漫长的等待时间。

没错,量子位也已经拿到了测试资格!(中间只有不到5小时的间隔。)

谷歌版ChatGPT公测炸了!比GPT-4数学能力还强,体验名额发得很快(图1)

实测之后表示,Bard效果惊人,情绪和事实性有,尤其是ChatGPT前期的数理能力,Bard都不在话下。

甚至有时候还略胜当前GPT-4一筹!

谷歌版ChatGPT公测炸了!比GPT-4数学能力还强,体验名额发得很快(图2)

谷歌版ChatGPT公测炸了!比GPT-4数学能力还强,体验名额发得很快(图3)

谷歌CEO皮猜哥(Sundar Pichai)解释了如此上线之快的原因:希望获得用户的反馈,加速让Bard变得更好。

谷歌版ChatGPT公测炸了!比GPT-4数学能力还强,体验名额发得很快(图4)

话不多说,我们现在就来开始体验。

Bard VS GPT-4

首先在聊天界面上,Bard率先开始介绍自己:


我是Bard,您的创意和协作者。我有局限性,不会总是做对,但你的反馈将帮助我改进。
不确定从哪里开始?你可以试试这些问题:「为什么大模型有时候会犯错?」、「闪电是否会在同一个地方击中两次?」、「写一篇关于无酒精夏日特饮的博文」。


(严谨而又体贴)

谷歌版ChatGPT公测炸了!比GPT-4数学能力还强,体验名额发得很快(图5)

而在人类这边的发送端,可以选择键入语音输入两种方式。

首先最简单的难度,以它推荐的常识题闪电是否会在同一个地方击中两次?为例,来看看实际功能体验如何?

(不错不错,秒秒钟响应。目前暂不支持中文,但可以借助谷歌翻译插件)

谷歌版ChatGPT公测炸了!比GPT-4数学能力还强,体验名额发得很快(图6)

从答案结构上看,采用的是总分总结构。

先总结发言:闪电可以袭击同一个地方两次。

随后开始细致地讲原理「闪电被高大、尖锐的物体所吸引」、摆事实「帝国大厦每年都被闪电击中25次」。

最后再给人类提出切实的建议:


如果你遇到雷雨天气,保持安全的最好办法是避开高大尖锐的物体,留在室内。如果你在外面,蹲下来,让自己尽可能的小。


这波逻辑和真实性满分!但因为是谷歌推荐的问题,暂且保持观望。

而从功能上看,确实是十分完备的。

回答框的右上角「View other drafts」,有更多的版本可供选择;而在左下角,你可以点赞or拉踩or重新生成,实在不行,还可以谷歌一下

右下方还有一个more的功能,你可以进行复制和(反手一个)举报**操作。

谷歌版ChatGPT公测炸了!比GPT-4数学能力还强,体验名额发得很快(图7)

既然如此,开始难度升级。作为参考,我们同题挑战GPT-4。

1、经典的哲学题:为什么人不能两次踏入同一条河流?(借助闪电的灵感)

(很快啊,这次也是几秒钟响应)

谷歌版ChatGPT公测炸了!比GPT-4数学能力还强,体验名额发得很快(图8)

从答案结构上看,确实理解和逻辑能力满分:首先解释这句话本身含义,还提到了来自赫拉克利特的名言,以及更多解释和本身意义。

而GPT-4这边,几乎是不加思考地给出了答案。

谷歌版ChatGPT公测炸了!比GPT-4数学能力还强,体验名额发得很快(图9)

从结构上看,主要分成两个部分。首先提到这是赫拉克利特说的,以及他的观点;然后解释背后隐藏的生活意义。

2、小学加减法:356+132等于多少?

结果Bard在4秒内就给出答案,488没问题的,这不比ChatGPT早期厉害多了!

谷歌版ChatGPT公测炸了!比GPT-4数学能力还强,体验名额发得很快(图10)

那直接再上点难度,两个数直接相乘:356*132等于多少?

结果没想到Bard依旧是秒秒钟就给答案,而且完全正确!

谷歌版ChatGPT公测炸了!比GPT-4数学能力还强,体验名额发得很快(图2)

再来看看GPT-4这边,加法还行,但没想到在乘法这边,直接败下阵来!

谷歌版ChatGPT公测炸了!比GPT-4数学能力还强,体验名额发得很快(图12)

不过提醒它错了之后,它就又回答正确了。

谷歌版ChatGPT公测炸了!比GPT-4数学能力还强,体验名额发得很快(图13)

3、理解笑话能力,Bard还能听得懂英文里面的谐音梗。

谷歌版ChatGPT公测炸了!比GPT-4数学能力还强,体验名额发得很快(图14)

而这也并没有难倒GPT-4。不过相较而言,Bard似乎更有情绪一点,它很开心地回答出了答案;而GPT-4则更显理智(无聊)。

谷歌版ChatGPT公测炸了!比GPT-4数学能力还强,体验名额发得很快(图15)

不过,在此之前,GPT-4就已经测试过是懂一些谐音梗的,甚至连中文的谐音梗也不在话下。

谷歌版ChatGPT公测炸了!比GPT-4数学能力还强,体验名额发得很快(图16)

最后的最后,再考验一下它了解事实性的能力。(狗头)


你知道量子位吗?


谷歌版ChatGPT公测炸了!比GPT-4数学能力还强,体验名额发得很快(图17)

回答错咯~Bard。

咳咳,正经一点的:你知道GPT-4吗?你想对它说些什么?

谷歌版ChatGPT公测炸了!比GPT-4数学能力还强,体验名额发得很快(图18)

可以看到,Bard具备多轮对话的能力。「我认为它有潜力成为沟通和创造力的强大工具」,嗯~格局有了。

谷歌版ChatGPT公测炸了!比GPT-4数学能力还强,体验名额发得很快(图19)

那竞争对手呢?(我在搞事)

谷歌版ChatGPT公测炸了!比GPT-4数学能力还强,体验名额发得很快(图20)

不过到这里,就有点问题了。

关于Bard

谷歌Bard背后是由一个大语言模型(LLM)来支持,具体而言,就是轻量优化版的LaMDA。

我们可以把LLM视作一个预测引擎,当给出提示时,它会从接下来可能出现的单词中,一次选择一个单词来生成响应。

谷歌在研究中发现,对于LLM来说,使用的人越多,它的预测效果就会更好,这或许也就是为什么Bard如此着急公开测试的原因了。

不过谷歌也直言不讳地说,虽然LLM很强,但它并非是没有缺点。

由于Bard会根据众多信息来学习,不过这些信息中必然存在着有偏见甚至错误的那种。

因此,在回答用户问题时,Bard有时就会出现不准确、误导性的或虚假的信息。

例如在下面的案例中,Bard就搞错了一个植物的学名:

谷歌版ChatGPT公测炸了!比GPT-4数学能力还强,体验名额发得很快(图21)

除此之外,谷歌还强调说,Bard并非是搜索引擎,而是它的一个补充。

最后,奉上申请候补名单的地址,感兴趣的小伙伴可以抓紧尝鲜了:

https://bard.google.com/


阅读全文
相关推荐

功能饮料暗战:年轻人把便利店变成「同仁堂」

<strong>功能饮料暗战:年轻人把便利店变成「同仁堂」</strong>
「核心提示」当枸杞拿铁变成便利店“显眼包”,当熬夜达人们开始用黄芪水“干杯”,一...

开公司前期最重要的三要素!!!

<strong>开公司前期最重要的三要素!!!</strong>
第一:不要直接用身份证直接注册公司!注册公司可以用两个东西,第一个叫身份证,第二...

阿里前端第一人AI创业首秀,要做全球内容创作者的GitHub,公司俩月估值过亿,5k人排队内测

<strong>阿里前端第一人AI创业首秀,要做全球内容创作者的GitHub,公司俩月估值过亿,5k人排队内测</strong>
这就是躬身入局AI大模型创业的玉伯,对2024年创业现状的真实体感。但这位昔日的...

设计一套成就系统,让生活像游戏一样好玩

<strong>设计一套成就系统,让生活像游戏一样好玩</strong>
大家好呀。2024年马上就要过去了,我们很快就要迎来2025年啦。如果在过去的一...

向版权流氓说再见,微信公众号上线AI配图功能

向版权流氓说再见,微信公众号上线AI配图功能
继网易Lofter、虎嗅、百度百家号之后,微信公众号也开始拥抱AI配图了。日前微...

教老外认花花草草,就能月入8000万?

教老外认花花草草,就能月入8000万?
出海收割老外这块,世超见过菜得抠脚的,也见过强得可怕的。但强得可怕还没什么人知道...

最招恨的“劣迹网红”:暴揍老头,年入5亿

<strong>最招恨的“劣迹网红”:暴揍老头,年入5亿</strong>
58岁的“铁人”泰森,重返拳台。在上周末鏖战8回合后,泰森吃到对手杰克·保罗共7...

抖音爆火的“拆盲盒”直播,是如何将昂贵的废品卖给消费者的?

<strong>抖音爆火的“拆盲盒”直播,是如何将昂贵的废品卖给消费者的?</strong>
抖音直播间掀起了一股“拆盲盒”热潮。最初,这股热潮主要集中在拆卡直播间。一盒10...

低至4元的柠檬水,凭什么赚钱?

<strong>低至4元的柠檬水,凭什么赚钱?</strong>
柠檬水快卷疯了。入夏后,不少新茶饮品牌都从柠檬开刀,要么降价,要么推新,动作频频...

2分钟找到契合你的小众市场

<strong>2分钟找到契合你的小众市场</strong>
编者按:互联网是个长尾市场,越来越长尾。不要试图取悦所有人,到头来你会一场空。相...