谷歌、OpenAI争相让旗下AI玩《精灵宝可梦》游戏:衡量AI真正实力

来源:快看科技资讯 发布时间:2026-01-25 21:19:04

体育资讯01月25日称 据科技媒体 Tom's Hardware 今天报道,当今时代我们有无数种跑分测试和评测方法来衡量 AI 的聪明程度与能力,但最近一种相对小众的测试方法也在 AI 圈内引发关注。

目前,谷歌、OpenAI 和 Anthropic 等 AI 巨头正在让自家模型游玩经典的《精灵宝可梦》系列游戏,以此来评估 AI 性能表现。

Anthropic 公司 AI 部门负责人 David Hershey 对此表示:“《精灵宝可梦》之所以能吸引机器学习社区关注,是因为它不像《Pong》等简单游戏那样受限。这种游戏对电脑程序来说非常具有挑战性”。

Hershey 从去年开始在 Twitch 平台进行直播,每天的日常就是用公司自产模型 Claude 玩《精灵宝可梦》。这名负责人平时的工作就是帮助客户部署 AI,因此他开直播本质上也是在测试模型。

这名负责人给自家 AI 直播游戏的做法也启发了不少自由开发者,他们也陆续搞了“Gemini 玩《宝可梦》”“GPT 玩《宝可梦》”等类似的直播节目。

后来,这些直播甚至被谷歌和 OpenAI 注意到,开发团队有时还会客串直播间亲自调整模型参数,在官方力量注入下,Gemini 和 GPT 已经成功通关了 Gam Boy 时代的《宝可梦蓝》,目前已在挑战续作;而 Claude 至今还没打通任何一个版本。

至于为何要用《宝可梦》评估 AI 性能?Hershey 对此解释道:“因为它给我们提供了直观的方法观察模型表现,还能用量化指标评估性能”。

通常来讲,玩家在《宝可梦》系列游戏中需要升级、训练已有 / 刚抓的宝可梦,还要打败道馆馆主来捕捉新的宝可梦。这种游戏流程并非线性,而是充满着判断和取舍。

而且,玩家还要经常在游戏中做出选择:是先冒险挑战强大的训练家以获取珍稀宝可梦,还是稳扎稳打造出一支实力均衡的队伍。

显然,人类非常擅长做此类决策,这也是游戏的乐趣所在,但对于 AI 来说,这是一场关乎逻辑推理、风险评估以及长期规划能力的综合考验。

因此研究人员会深入剖析 AI 在游戏里的决策方式,深入理解模型的能力边界。

Hershey 还会将 AI 玩《宝可梦》的结果分享给客户以改进控制框架(IT之家注:harness),帮助他们提升算力使用效率,让模型更高效运转。

相关阅读
能力已经达不到轮换球员的水平了!湖人应该直接放弃后场大将
能力已经达不到轮换球员的水平了!湖人应该直接放弃后场大将
能力已经达不到轮换球员的水平了!湖人应该直接放弃后场大将
2026-01-25
个人能力还算不错,但湖人给锋线新星的角色可能有些压力太大了
个人能力还算不错,但湖人给锋线新星的角色可能有些压力太大了
个人能力还算不错,但湖人给锋线新星的角色可能有些压力太大了
2026-01-25
Herewego!罗马诺:巴萨小将德罗加盟巴黎圣日耳曼,转会费略高于600万欧
Herewego!罗马诺:巴萨小将德罗加盟巴黎圣日耳曼,转会费略高于600万欧
Herewego!罗马诺:巴萨小将德罗加盟巴黎圣日耳曼,转会费略高于600万欧
2026-01-25
跟队:帕尔默的大腿还有问题,不过应该可以出战那不勒斯
跟队:帕尔默的大腿还有问题,不过应该可以出战那不勒斯
跟队:帕尔默的大腿还有问题,不过应该可以出战那不勒斯
2026-01-25
nba火箭vs太阳
nba火箭vs太阳
nba火箭vs太阳
2026-01-25
至少打野没问题!NIP三把拿下全部龙魂,但水龙魂火龙魂两局全输
至少打野没问题!NIP三把拿下全部龙魂,但水龙魂火龙魂两局全输
至少打野没问题!NIP三把拿下全部龙魂,但水龙魂火龙魂两局全输
2026-01-25
LPL第一赛段W2D6英雄麦克疯:今天要挫一挫他们的锐气了
LPL第一赛段W2D6英雄麦克疯:今天要挫一挫他们的锐气了
LPL第一赛段W2D6英雄麦克疯:今天要挫一挫他们的锐气了
2026-01-25
BLG发布队员训练返图:照见不足,方能精进
BLG发布队员训练返图:照见不足,方能精进
BLG发布队员训练返图:照见不足,方能精进
2026-01-25
涵艺:怎么还有人敢放T1的巴德Keria来LPL是不可能了
涵艺:怎么还有人敢放T1的巴德Keria来LPL是不可能了
涵艺:怎么还有人敢放T1的巴德Keria来LPL是不可能了
2026-01-25
串Crisp:看比赛只为Bin哥帅脸,你们别串只有我是真情实感的
串Crisp:看比赛只为Bin哥帅脸,你们别串只有我是真情实感的
串Crisp:看比赛只为Bin哥帅脸,你们别串只有我是真情实感的
2026-01-25
最新录像
最新集锦
热词推荐
热门TAG