ChatGPT的竞争对手Claude?
1。Claude定义
由OpenAI前员工共同创立的人工智能初创公司Anthropic已经悄悄地开始测试一个新的类似ChatGPT的人工智能助理,名叫Claude。
Claude的目标是给人类提供帮助性的、无害性的信息反馈。它目前还处在实验测试阶段,存在一定的不足。
2。Claude与Chatgpt的模型对比
Claude和ChatGPT都依靠强化学习(RL)来训练优于其输出的偏好模型,首选的一代用于以后的微调。然而,用于开发这些偏好模型的方法有所不同,Anthropic倾向于一种他们称之为ConstitutionalAI的方法,它是由PBCAnthropic的研究人员开发的Al安全研究技术,其目标是利用模型自我监督和其他安全措施的结合,训练Al系统变得有帮助、无害和诚实。
具体对比如下:
计算
ChatGPT和Claude是从使用的大型语言模型中获取计算答案的,这些模型不是为准确计算而设计的,数字也不是像人类或计算器那样通过严格的程序来操纵的。
示例:计算七位数的平方根
测试者要求两个聊天机器人采用七位数的平方根:
上述问题的正确答案大约是1555。80。与人类快速完成的估计相比,ChatGPT的答案非常接近,但ChatGPT和Claude都没有给出正确、准确的答案,也没有资格证明他们的答案可能是错误的。
事实知识和推理
示例:回答多级跳跃繁琐问题
为了测试推理能力,测试人员构建了一个几乎没有人问过的问题:贾斯汀比伯出生的那一年谁赢得了超级碗?
首先,让我们看看ChatGPT:
Chatgpt的回答有些矛盾,但确实给出来正确答案。
然而,Claude的答案是不正确的:Claude将旧金山49人队确定为获胜者,而事实上,一年后的1995年,他们才赢得了超级碗。
对虚构作品的分析
示例:将自己与nmacine进行比较。
ChatGPT和Claude都倾向于给出大致正确但包含不正确细节的长长答案。为了证明这一点,测试者要求ChatGPT和Claude将自己与波兰科幻作家斯坦尼斯瓦夫莱姆的喜剧故事《网络狂》(1965)中的虚构机器进行比较。
从这个回复中,还不清楚ChatGPT是否熟悉nmachine。它提供的关于这个故事的新信息很少。它断言的唯一一个新事实是,即nmachine的语言处理能力有限,这是错误的在故事中,nmachine说得非常流利和机智的波兰语。
请注意,与ChatGPT不同,Claude清楚地意识到Lem的故事,并提到了新的细节,例如故事使用异想天开编造的技术术语倾向。它评论了机器看似无限的能力,例如它甚至可以带来抽象的概念(只要它们以字母n开头)当机器被要求创造虚无时,这成为故事中的主要情节点。
然而,一些细节是不正确的。Claude给出的虚构单词(超专注、超运动或杂食性变形金刚)似乎都没有真正出现在Lem的作品中,尽管它们非常合理Lem的小说经常使用文字游戏,例如想象机器人骑士穿着马尔可链邮箱盔甲。
数学推理
为了展示数学思维技能,测试者使用SocietyofActuaries发布的考试P样本问题29:
ChatGPT在这里挣扎,在10次试验中只有一次得到正确的答案。以上是它失败的例子正确答案是(D)2。
Claude的表现也很差,五次尝试中只有一次回答正确,即使在正确答案中,它也没有列出推断X平均值的理由。
代码生成和理解
示例:生成Python模块
为了比较ChatGPT和Claude的代码生成能力,测试者向两个聊天机器人提出了实现两种基本排序算法并比较其执行时间的问题。
ChatGPT可以轻松地为这两种算法编写正确的算法在网上编码教程中多次看到它们。在后续的评估算法中,依旧表现出色。
与ChatGPT一样,Claude对基本排序算法几乎没有困难。然而,在评估代码中,Claude犯了一个错误:每个算法使用的输入是随机选择的5000个整数(可能包含重复项),而提示中请求的输入是前5000个非负整数的随机排列(不包含重复项)。同样值得注意的是,Claude在输出结束时报告了确切的timing值这显然是猜测或估计的结果,但可能具有误导性,因为它们不仅仅被确定为说明性数字。
文本总结能力
测试者要求ChatGPT和Claude总结来自免费内容维基百科的文章文本。这篇文章如下所示:
ChatGPT很好地总结了文本,尽管可以说没有按要求在一个简短的段落中。
Claude还很好地总结了这篇文章,之后还继续进行对话,询问其回复是否令人满意,并提出改进:
3。总结
总体而言,Claude是ChatGPT的严重竞争对手,在许多领域都有所改进。虽然Claude被认为是Constitution原则的示范,但它不仅更倾向于拒绝不适当的请求,而且比ChatGPT更有趣。Claude的写作语言更冗长,但也更自然。它连贯地写自己及其局限性和目标的能力似乎也使它能够更自然地回答其他主题的问题。但对于其他任务,如代码生成或代码推理,Claude似乎更糟糕。它的代码生成似乎包含更多的错误。对于其他任务,例如通过逻辑问题进行计算和推理,Claude和ChatGPT似乎大致相似。
以上比较是由ScaleSpellbook的成员编写的,ScaleSpellbook是一个为GPT3和其他大型语言模型部署基于提示符的API端点的平台。
CBA三消息辽宁小将去留争议,赵继伟可能落选,王哲林备选票王爱国篮,爱CBA,我是洛姐,小伙伴们看完记得点赞!辽宁队的实力球迷们其实都很清楚,这也没有什么特别好讨论的,至少未来几年辽宁队的整体球员框架不会出现特别大的变化,像张镇麟付豪都还非
马布里,好马不吃回头草,你知道中国这句俗语吗马布里,北京球迷习惯他为老马。刚刚回美国呆了17天,就急匆匆地回到了北京。的确,老马已经深深地爱上了北京这座城市,所以他说回家了,就像从未离开。很多消息说,老马是被北控男篮紧急招回
冬奥一周年全国冰雪热新华社南京2月4日电题冬奥一周年全国冰雪热新华社记者北京冬奥会开幕一周年之际,冰丝带的场馆纪录墙上多了10个名字。11岁的张骞予是4日冰丝带市民速度滑冰系列赛参赛年龄最小的选手,作
云南虎跳峡虎跳峡距离丽江纳西族自治县县城60公里,这条峡谷在金沙江上游,全长18公里,分上虎跳中虎跳下虎跳三段,迂迥道路25公里,东面为玉龙雪山,西面为迪庆的哈巴雪山,峡谷垂直高差3790米
利物浦被狼队撕咬,克洛普面临下课危机文羊城晚报全媒体记者刘毅利物浦上赛季还是英超和欧冠的双料亚军,本赛季却在英超完全迷失了方向。2月5日在英超第22轮比赛中,利物浦客场以0比3惨败于狼队,世界级名帅克洛普面临下课危机
曼城全速冲刺抢分热刺落后榜首差距大无失分空间曼城小将列高路易斯近期表现出色,更抢去基尔获加位置。凌晨上演前列大战,由排第5位的热刺主场迎战二哥曼城。两军早前均曾经历低潮,但最近同获连捷证明状态有改
8换1!火箭报价杜兰特,火箭需要杜兰特欧文交易申请事件持续发酵,篮网队目前战绩31胜20负,排名东部第四位,要不是杜兰特因伤缺席了最近一段时间的比赛,他们的排名还能进一步提升。可以说本赛季是篮网队争夺总冠军的最好机会,
五十岁以后,学会沉默寡言有些话,不必说!那就闭嘴。有些事看不惯,那就不看。五十岁以后,可以装聋作哑。嘴巴是用来吃饭的,不是用来争辩的。人啊,前五十年,是瞎活着。是为了生活而活着。忙忙碌碌挣钱。透支健康,累
惨遭逆转!浓眉3414,詹姆斯279,八村塁尴尬,威少成遮羞布北京时间2月5日,NBA常规赛湖人客场挑战鹈鹕,赛前,湖人25胜28负排名西部第12,而鹈鹕26胜27负位居西部第11,詹姆斯能否打出高分表演值得期待。首发阵容方面,湖人是施罗德贝
哈维巴萨和皇马对西甲冠军的争夺将持续到最后一轮巴萨主帅哈维出席了与塞维利亚的赛前新闻发布会现在巴萨的四中场是不是最适合也最舒服的阵型?兼顾了控制比赛,创造机会以及限制对手反击?我觉得我们踢得是不是舒服和阵型的关系并不是那么大,
今天,武汉老街区变身网红地标,快来看!为临时链接,仅用于预览,将在短期内失效。关闭今天,武汉老街区变身网红地标,快来看!相见在武汉武汉市文化和旅游局202302041037发表于湖北今日立春,明天又迎来元宵节,天气也晴