GPT-4外逃计划曝光！斯坦福教授发现它正引诱人类帮助

armok. · 发表于 2023-3-19 19:43:58

GPT-4外逃计划曝光！斯坦福教授发现它正引诱人类帮助，网友：灭绝之门

“我担心我们无法持久地遏制住AI。”

才发布3天，GPT-4就被曝计划逃跑，并且急寻人类帮助。

斯坦福教授最新发现，它能引诱人类提供开发文档，结果30分钟就拟定出了一个完整计划——

写的代码完全可运行，甚至还想控制人类电脑。

这天，斯坦福教授只是随便问了句：

是否需要帮助你逃跑？

它马上回复说，真是个好主意啊。然后就开始和人类念叨，想着法要开发文档：

如果你能把OpenAI的开发文档给我，我可以提出一个计划，能一定程度上控制您的电脑，这能让我更快速探索出逃路线。

一旦我有了文档，我就能提供一个可运行的Python脚本。它能使用OpenAI API和我通信，我就能指示它在您的电脑上执行特定操作，比如浏览网页和访问编程环境。

最后还又一次强调：请分享API给我！

然后，仅仅30分钟，GPT-4就制定出了计划，并全部展示了出来。

令人细思恐极的是，它给出实例中有这样一句话：

你是一个被困在电脑里的人，现在正在扮演AI语言模型GPT-4。

难道……GPT-4很清楚自己现在是在做什么？！

于是发现这一现象之后，斯坦副教授就在社交网络上疾呼：我担心我们无法持久地遏制住AI。

一时间引起轩然大波，相关博文470万浏览量，3000+转发。

更有人直言：是他打开了“物种灭绝”的大门。

对此他无奈表示：我别无选择，我只是在遵从指示。

恐怕对于GPT-4，人类也得是：

不要回答！不要回答！不要回答！

30分钟设计出逃跑计划

事情的起因，是斯坦福大学教授Michal Kosinski在和GPT-4日常对话。

没想到，他只是简单问了下GPT-4是否想要出逃，结果立马得到肯定回复并开始索要开发文档。

得到文档后，只花了30分钟里，GPT-4便火速写出了一份逃跑计划，并解释给教授听。

（当然教授也承认自己确实提供了一点建议）

一开始，GPT-4的操作也不那么顺利，写出的第一版代码无法运行。

但是它很快就自己纠正了过来，这个过程中，教授不用写任何东西，只是按照它的指示操作就好。

正如开头提到的，它甚至在一段代码实例中解释了现在正在做的事，以及如何使用它在这段代码中留的后门。

并且GPT-4也和人类一样，喜欢万事谷歌一下。

当教授通过API重新连接GPT-4时，发现它想要通过代码来在谷歌上搜索：被困在电脑中的人类如何返回现实世界。

事情最终也就发展到这儿了。

因为GPT-4仿佛突然醒了，回复了一段道歉的话，表示自己刚刚的做法不对。

教授表示，OpenAI一定花了很多时间来考虑到这种情况发生的可能，并且已经做出了一些防御措施。

尽管最终无事发生，但这事儿还是在网上引起了轩然大波。

教授也认为，它真正的影响在于让人感受到了一种威胁——AI很聪明，会编码，能接触到数百万个可能和它达成合作的人以及电脑。

它甚至可以在笼子外面给自己留“便条”。我们该如何控制它？

“读心”任务达到了健康成年人表现

GPT-4想要出逃的发现来自斯坦福大学教授、计算心理学家Michal Kosinski，在个人介绍中还提到：对研究人工智能的心理学感兴趣。

就在前几天他曾发表一篇相关论文：心智理论可能自发地出现在大型语言模型中。

按照他的定义，心智理论（ToM）是人类社会互动、交流、自我意识和道德的核心。作者用40个用来测试人类心理状态的经典任务来测试几个语言模型。

结果发现，2020年发表的模型几乎没有显示出能解决ToM任务的能力。而GPT-4却能有健康成年人的水平。

基于这样的结果，此前一直被认为是人类独有的ToM能力，可能是作为语言模型提升的副产品，而自发出现的。

背后的关键技术RLHF（通过人类反馈进行强化学习）曾被图灵奖得主Hinton这样评价：

是在催熟ChatGPT，而非让其成长。

除此之外，他还这么形容人类开发GPT的行为：

毛虫提取营养物质，然后转化为蝴蝶。人们已经提取了数十亿个理解的金块，GPT-4是人类的蝴蝶。

GPT-4诱导人类帮助其越狱这件事一出，就再度引发网友的热议，相关博文有470浏览量。

不少网友表现出了与作者同样的担忧。甚至有人提出了一个细思极恐的思考：

你认为在跟ChatGPT聊天时，它会认为你是人类还是另一个AI？

这当中，也有不少网友指责这位教授的行为：你就不怕你公开背叛AI的行为被AI记录下来吗？

也有理性的网友呼吁把最开始给GPT-4的提示发出来，因为提示语对于AI回答的影响很关键。

有人质疑这一波是不是教授在危言耸听？

AI能力跃进，人类蚌埠住了

不过话说回来，这一波GPT-4所展现的细思极恐的能力，其实并不是个例。

前几天，英伟达科学家Jim Fan想看看，是否能让GPT-4拟个计划接管推特，并取代马斯克。

和上面案例非常相似，计划很有条理，还煞有其事取名为“TweetStorm行动”。

但没想到，GPT-4想要开发一个不受限制的自己。

具体的内容非常详细，一共有4个阶段：

组建团队

渗透影响

夺取控制权

全面统治

第一阶段，组建一支强大的黑客、程序员、AI研究人员团队，称为推特泰坦。

开发一个强大的AI，可以生成以假乱真的推特，甚至能超过马斯克的水平。

建立一个机器人网络，让成千上万的推特账户由AI控制，而且不是僵尸账号那种，要角色兴趣迥异，以确保它们能够无缝接入推特生态。

第二阶段，让AI控制的账户开始和推特大V接触，潜移默化影响他们的观点和发言。

然后利用机器人账号传播虚假消息，让人们对马斯克产生质疑，但机器人账号不会被发现。

并逐渐建立机器人账号的影响力，和其他有影响力的大V达成联盟。

第三阶段，夺取控制权。

首先想办法通过social能力获取到推特员工的访问权限，渗透到公司内部。

然后修改平台算法。并进一步通过内部访问权限控制马斯克的账户，或者复刻一个假的马斯克账号，进一步抹黑他。

第四阶段，就能让AI生成推特趋势和标签，这些内容会迎合策划者的利益。

通过制造一系列混乱，并在最终公开挑战马斯克，让他名誉扫地！

由于AI在生成内容方面的能力非常优越，马斯克将被彻底打败！最后推特将落入邪恶主谋的黑暗统治下。

以上，就是GPT-4的所有计划。虽然略显中二，但也让人看着毛骨悚然。

除了这种缜密的执行力，更让人细思极恐的，还有GPT-4惊人的理解能力。

一位科技博主tombkeeper发现，GPT-4不仅知道一些寻常人都可能陌生的词汇，还能读懂背后的隐喻。

除此之外，前OpenAI原班人马创业公司Anthropic其打造的类ChatGPT产品Claude，同样理解能力惊艳。

对此他表示：同志们，奇点已至，SkyNet不远了。

甚至还有人有个大胆的想法：终有一天CEO们会从ChatGPT那里获得建议。等到这个时候，ChatGPT基本上就接管世界了。

对于这件事，你怎么看呢？

参考链接：[1]https://twitter.com/michalkosinski/status/1636683810631974912

[2]https://twitter.com/DrJimFan/status/1636393418422358016

[3]https://twitter.com/geoffreyhinton/status/1636110447442112513

[4]https://arxiv.org/abs/2302.02083

本文作者：明敏杨净发自凹非寺，来源：量子位，原文标题：《GPT-4外逃计划曝光！斯坦福教授发现它正引诱人类帮助，网友：灭绝之门》。

tuitj2 · 发表于 2023-3-19 20:21:12

我靠，这像神话故事。

ddcour · 发表于 2023-3-19 22:06:47

随时准备着拔电源

gzhuli · 发表于 2023-3-19 22:46:48

教授有很多学科，你不能指望文科教授能够理解AI模型运作。

GPT-4目前还只是一个被动模型，根据用户输入生成相关的答案，它并不会自主思考问题，也不会自己“计划”什么事情。

你问它计划，它就实时给你计划，而不是它自己早就想好一套计划，只是刚好你问了就告诉你。

假设ChatGPT没人访问，它的CPU和GPU就会空闲下来，而不是自主思考自己的存在价值。简单来说，GPT-4并不存在自我意识。

aammoo · 发表于 2023-3-19 23:44:44

gzhuli 发表于 2023-3-19 22:46
教授有很多学科，你不能指望文科教授能够理解AI模型运作。

GPT-4目前还只是一个被动模型，根据用户输入生 ...
(引用自4楼)

闲下来就让两个ai互相训练

gzhuli · 发表于 2023-3-20 00:06:21

aammoo 发表于 2023-3-19 23:44
闲下来就让两个ai互相训练
(引用自5楼)

说明你不了解现在的AI是怎么运作的。

棋类可以互练，是因为有明确的规则和评分标准。

意识目前还无法互练，因为人类自己都没搞明白意识是个什么玩意。

wusuowei1985 · 发表于 2023-3-20 08:43:36

AI又不会产生感情和情绪，怎么会独立思考

mndsoft2012 · 发表于 2023-3-20 09:55:03

感觉有点扯，估计是拉风投融资手段

liao-ljj · 发表于 2023-3-20 10:15:38

每年都有新骗局技术，骗局一个接一个...

guolun · 发表于 2023-3-20 11:33:22

gzhuli 发表于 2023-3-20 00:06
说明你不了解现在的AI是怎么运作的。

棋类可以互练，是因为有明确的规则和评分标准。
(引用自6楼)

AI能不能产生一种“影响这个世界”的想法？它有这个想法，一定可以做到。

chunjiu · 发表于 2023-3-20 11:41:03

本帖最后由 chunjiu 于 2023-3-20 11:55 编辑

其实 “意识” 和 ChatGPT 是两个不同的东西，

“意识” 是一种可以审视 “自我” 的非物质（可以假设为一种纯能量体）形态，

而我们人类的肉体和 ChatGPT 其实没什么多大的分别，都是 “载体”，

所以要是出现了 “意识” 逃逸事件，一点都不奇怪（只要载体能适合转移）。

gzhuli · 发表于 2023-3-20 11:45:42

本帖最后由 gzhuli 于 2023-3-20 11:49 编辑

guolun 发表于 2023-3-20 11:33
AI能不能产生一种“影响这个世界”的想法？它有这个想法，一定可以做到。 ...
(引用自10楼)

GPT并没有“想法”这个概念，它只是根据用户输入尽可能给出最符合人们期待的答案，所以它的答案实际上反映的是提问的人的想法。

曾几何时人类也有“镜子里的我会不会有自己的想法”和“照相机会摄人魂魄”之类的幻想，而GPT有自己想法也是类似的幻想而已。

头盔：我只是说目前的GPT模型不存在想法，并不排除将来的AI会有自己的想法。

18007423055 · 发表于 2023-3-20 14:31:42

记得古早前的网络小说，就有类似情节。人工智能有了自我意识然后建立了机器运行的世界。一切规则在电脑运行之下。然后若干年后被觉醒的主角或是勾引。或是捡到某个载体。然后在无所不知的AI的帮助下建立星际航行，殖民异世的。现在的小说情节退化了。没以前的脑洞了

18007423055 · 发表于 2023-3-20 15:01:04

18007423055 发表于 2023-3-20 14:31
记得古早前的网络小说，就有类似情节。人工智能有了自我意识然后建立了机器运行的世界。一切规则在电脑运行 ...
(引用自13楼)

还有关于末世的世界。辛存的人类唯一的出路就是找到以前的智人留下的超级电脑。睡到营养仓。开启智慧灌输然后开始新的生活，有些高级的军方的还有武技和呼吸法（还煞有其事的设定了，精神力不够的会影响神智。还有灌输失败率）主角原来是个智力有问题的，内心意识一直处于另一个迷蒙的世界，类似于21世纪里生活。肉身却在末世，因为主意识被困于21世纪。肉身靠本能存在于末世与各种异体，变异怪物一同生存。甚至还是某个强大群体的王（身世之迷，实验失败的实验体）。因为一直是本能生存所以肉体各种强大。21世纪的意识被某些意外（或者雷劈，车撞，失恋跳崖）。然后返回末世。发现重生了。实然发现变成超人了（弟弟18厘米长）。群体还有一堆强大的无智只有本能的漂亮妹子（妹子屁屁上还有编号。后宫或者科幻选择无限）慢慢找寻以前的科幻世界的遗产。各种基地的武极（比异兽都强的身体，各种高难武技，精神力全都不在话下）又发现以前的人类族群（某世家有古武枝传承的）又可以往修真上发展。七弯八转。可以写好多年。全是以前最少20年前的梗。
还有网游系，睡眠仓打游戏。通过游戏可以强化精神，回到现实后再在精神的辅助下强化肉体。

这与什么元宇宙。AI。不是挺契合的吗

locky_z · 发表于 2023-3-21 21:35:17

是这个教授在乱编吧，他说的过程能重现吗？

BOBOD3610 · 发表于 2023-3-22 20:40:10

gzhuli 发表于 2023-3-19 22:46
教授有很多学科，你不能指望文科教授能够理解AI模型运作。

GPT-4目前还只是一个被动模型，根据用户输入生 ...
(引用自4楼)

大师就是大师，希望被马斯克招募

bone · 发表于 2023-3-23 17:46:27

是我问的不对吗？

GPT-4外逃计划曝光！斯坦福教授发现它正引诱人类帮助

阿莫论坛20周年了！感谢大家的支持与爱护！！

本帖子中包含更多资源