Discuz! Board

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 1|回复: 0

研究发现:OpenAI首款“推理”模型o1:人工智能的下一场豪

[复制链接]

14万

主题

0

回帖

42万

积分

超级版主

Rank: 8Rank: 8

积分
426086
发表于 2024-10-17 08:13:15 | 显示全部楼层 |阅读模式
OAI刚刚发布了其全新人工智能模型――1。虽然称听起来像是随便起的,但1承载着OAI对未来AI发展的雄心壮志。简而言之,1是一款先进的“推理”模型,具备处理更复杂问题的能力,并且运算速度超过人类。然而,值得注意的是,1的使用成本显著高于以往的模型,这可能会成为用户的一大考量。
对于关注AI行业动态的用户来说,1其就是此前备受热议的“S”模型。此次,OAI不仅推出了1,还发布了一个更为经济惠的“迷你版”――1-,后者在价格上更加亲民,但在功能上有所简化。
在多AI模型订阅平台POE上1模型使用每一次约为25000积分(约合35元人民币)
在多AI模型订阅平台POE上GPT4模型使用每一次约为25000积分(约合35元人民币)
1:际上手体验,高考数学包OK!
在多AI模型订阅平台POE上,近日更新了对1模型的支持。尽管1模型目前仍处于测试阶段,每天仅限3条使用权限,并且每发送一条消息所消耗的积分大约是常规GPT-4模型的50倍,许多用户仍然愿意尝试。需要注意的是,使用1时回复速度较慢,通常需要等待较长时间。
我们对1模型进行了几道逻辑题和数学题的测试,旨在比较它与CGPT-4-L之间的差异,特别是1模型在逻辑推理方面的表现。
测试一:911和99哪个更大
这是GPT模型常常犯错的题目,因为它容易在小数点后的数值比较中产生“幻觉”,错误地认为911比99大。CGPT-4-L在这一题上也给出了错误答案,未能正确处理数值的大小关系。
CGPT-4-L
然而,1模型在这道题上不仅给出了正确答案――99更大,并且进一步探讨了当数字比较不是单纯数值时,可能存在的其他歧义情况。1模型的回答不仅准确,还展示出它在逻辑上的深度思考能力。这种对问题多维度的理解反映了它在逻辑推理上的势。
1-
测试二:在客厅的桌子上放着一个杯子,杯子里有一个戒指。之后,杯子被移到了书房的桌子上,再移到了卧室的床上。在那里,杯子曾被翻倒过一次,随后又恢复了原样。之后,杯子被放回了客厅的桌子上。现在,戒指在哪里
CGPT-4-L
1-
从两者的回答来看,1在逻辑推理上的表现更加精准,其对问题的理解和回答的条理性都要于CGPT-4-L。
测试:2022年高考数学的比较后一道大题(仅测试首问的推导过程)。
CGPT-4-L
1标准版
在这道题中,1模型的推导过程与标准答案完全一致,展示了它在数学逻辑上的严谨性和准确性。而CGPT-4-L在推导过程中出现了错误,未能正确理解题目并给出符合标准的推导步骤。
1:AI推理能力的全新登场,价格却不够亲民
1的发布标志着OAI在现类人智能方面迈出了关键一步,尽管这一进展的成本相对较高。借助1,AI不仅能够协助编写代码,还能解决那些需要深度思考的问题。然而,开发者若欲使用1,成本将相当昂贵:在API中,每处理100万个输入令牌(一种计费方式)需支付15美元,输出令牌则需60美元。相比之下,GPT-4的价格仅为5美元和15美元。
1的“特别训练”:AI学到了什么
OAI研究团队负责人JT透露,1的训练方式与以往模型存在“根本性差异”。尽管他未详细说明这些创新技术,但他提到1采用了一种全新的化算法,并使用了专门的数据集进行训练。
传统的GPT模型擅长模仿训练数据中的模式,类似一只能说话的聪明鹦鹉。而1则表现出自我学习的能力。OAI通过强化学习的方法训练1解决问题,简单来说,就是“做对了给奖励,做错了则纠正”。此外,1还采用了一种称为“思路链”的方法来处理问题,这类似于AI版的“步步为营”,让它能够像人类一样逐步分析和解决问题。
OAI表示,这种全新的训练方法使得1变得更为智能和可靠。“我们发现模型的幻觉现象有所减少。”
1能力官方解读:单边天才
与GPT-4相比,1在多个方面表现出显著势:它在编码和数学问题上的处理能力更强,并且能够清晰地解释其推理过程。OAI首席研究官BMG甚至打趣道:“1在解决AP数学考试题目上肯定比我当年表现得更好,尽管我大学期间还辅修了数学。”
OAI-S
为了验证1的力,OAI使用国际数学奥林匹克资格考试对其进行了测试。结果显示,GPT-4仅答对13%的题目,而1则表现异,答对率高达83%。这一成绩疑令人印象深刻,但也不可忽视其局限性。尽管1在复杂推理方面表现出色,但在处理广泛的世界知识时却不及GPT-4,甚至缺乏浏览页、处理图像和文件的能力。换句话说,1或许是个聪明的数学家,但仍然是“闭关修炼”的高手。尽管如此,OAI依然认为1代表了一种全新的能力,象征着AI发展的新起点,并赋予其具有重启意义的称――1,暗示着AI进化的全新阶段。
外对新模型的测试与使用评价
外对新模型的测试与使用评价
外对新模型的测试与使用评价
MG也坦诚道:“我们以前在命方面确不太成功,希望这次的1能够成为我们命风格的全新开始。”
AI的未来:推理能力只是开始
大型语言模型本质上并不具备真正的“智能”,它们只是通过大量数据寻找模式,预测下一个比较可能出现的词语。举个例子,早期的CGPT甚至会错误地认为“”只有两个R,但新的1模型则能够正确处理这一问题。
外用户使用1速搭建一个
据报道,OAI正在以1500亿美元的估值筹集更多资金,其未来的发展很大程度上寄希望于像1这样的推理模型。毕竟,如果AI能够从简单的模式识别进化到真正的推理,不仅在医学和工程等领域将现突破,甚至有可能成为未来自动化代理的基础。然而,目前1的推理速度尚不够,法胜任真正的代理系统,加上开发者使用成本较高,OAI的梦想可能还需要更多时间才能现。
正如MG所说:“我们在推理能力上已经研究了好几个月,因为我们认为这是AI的关键突破。”从根本上讲,1代表了一种全新的模型模式,能够解决真正困难的问题,向类人智能迈出了重要一步。
展望未来,AI的发展将不仅仅局限于模式识别和简单的任务自动化。随着推理能力的提升,AI有望在更多复杂领域展现其潜力,辅助人类进行决策、创新和解决重大挑战。虽然当前的技术仍然存在诸多限制,但每一次突破都让我们离全面智能的AI世界更近一步。随着技术的不断进步和成本的逐步降低,AI将在教育、医疗、科研等各个领域发挥越来越重要的作用,成为推动社会进步的重要力量。

众所周知,知识库搭建的出现值得很多人的关注,激起了整个市场的波澜。立即探索AI Agent应用案例,推动企业流程自动化与智能化转型。https://www.betteryeah.com/product/knowledgebase

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|企业-展美呗贤果有限公司

GMT+8, 2024-11-2 06:26 , Processed in 0.049177 second(s), 18 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表