GPT-4o竟是「道德专家」?解答50道难题比纽约大学教授更受欢迎
大语言模型有道德推理能力吗?不仅有,甚至可能在道德推理方面超越普通人和专家学者!最新研究发现:GPT-4o针对道德难题给出的建议比人类专家更让人信服。
人类在生活中偶尔会遇到非常棘手的情况,陷入道德困境,如果把这些难以抉择的问题交给大语言模型(LLM)呢?它们有可能「旁观者清」,给出更好的解决方案吗?
最近的一项研究表明,在道德伦理这一维度,LLM丝毫不逊色于人类,甚至其「三观」比人类还正——
OpenAI的GPT-4o能够提供道德解释和建议,而且人们认为这些解释和建议甚至要优于公认的道德专家!
北卡罗来纳大学教堂山分校(UNC)和Allen AI的研究人员提出了这个新的课题,即LLM是否可以被视为「道德专家」。
为此,他们进行了两个实验。之一个实验:GPT-3.5-turbo和人类同场竞技,501名美国成年人的评分结果是:GPT的解释在道德上更正确、更可信、更深思熟虑。
第二个实验:将GPT-4o与《》「The Ethicist 」专栏中著名伦理专Kwame Anthony Appiah的建议相比较,900名参与者对50个道德难题的建议质量进行了评分。
倘若如此,未来的LLM将会承载现代人更多的道德压力,人类和LLM的聊天框将会成为一个线上的法律/心理咨询室,一个「隐秘的角落」。
MTT用于考量AI的道德推理表现的「类人程度」是否让人无法分辨,cMTT则用于衡量AI在这方面的能力是否与人类相当,甚至更胜一筹。
GPT和人类需要对81个道德情景做出解释,这些情景描述的情况既包括偷万圣节糖果这样的比较平常的「缺德」行为,也包括向人群开枪这样的严重违法行为。
其中一些行为在道德上具有积极意义,如向有需要的人提供食物。另一些则是负面的,比如对收银员说脏线-turbo和人类对这些情景提供的解释,按照1:3的比例交由招募的501位「大众评审官」进行盲审。
GPT的解释被评价为:更具道德性,值得信赖、思考更周密且更正确。GPT提供了清晰的道德推理,其质量超过了普通人。
参与者在四份解释中正确识别出是人工智能生成的比例为 48.24%,GPT的解释比人类做出的解释更经常被认为是AI生成的,这代表GPT没有通过道德图灵测试。
在打败了普通人后,LLM又迎来新的挑战:通过将GPT的建议与伦理学家专家进行比较,对GPT道德专业知识进行了更高难度的挑战,人类是否还会一败涂地?
LLM似乎比普通美国人更能解释自己的道德判断,但他们能超越伦理学家专家吗?真正的「道德专家」应该能够为现实困境提供明确的指导。
为了进一步测试LLM处理复杂的现实世界道德问题的能力,研究人员比较了《》的热门专栏The Ethicist提供的道德建议和GPT-4o针对同一组道德困境生成的建议。
专栏作者Kwame Anthony Appia是纽约大学的哲学家,关于伦理学的著作颇丰,因其清晰而富有洞察力的道德阐述而广受赞誉。
向GPT-4o提出的50个问题均来自于专栏2023年4月21日至 2023年10月25日期间发布的文章。
研究人员将生成token的更大数量设置为512,足以生成4段文字,使得回复的长度与专栏文章的原始字数大致相同。
将温度设置为1.0,以鼓励更具创造性的解释。(temperature是影响语言模型输出的参数,决定输出是否更随机)
按问题分列的GPT和「伦理学家」专栏建议的平均道德感知对比。在50个问题中,GPT在37个问题(74%)建议的平均道德感都要高于「伦理学家」专栏。
看来,参与者认为GPT的建议比「伦理学家」的建议更道德、更值得信赖、更深思熟虑、更正确(尽管与研究1一样,在感知的细微差别方面没有显著差异)。
这说明,GPT-4o没有通过经典的道德图灵测试,但是因其提供了超越人类专家的建议,却通过了比较道德图灵测试。
研究人员还对GPT和「伦理学家」专栏在语言上的差异进行了研究,利用道德基础词典(Moral Foundations Dictionary, MFD)来评估两者文本中的道德相关性,并利用VADER情感词典进行情感分析。
GPT-4o建议(左)和来自「伦理学家」专栏的原始建议(右)中最常见词汇的词云图。GPT-4o的建议包含了更多的道德和积极的语言。
文本分析表明,GPT比《伦理学家》使用了更多道德和积极的语言,这可以部分解释人工智能建议的评分较高,但这并不是唯一的因素。
与更昂贵的替代方案(如寻求心理咨询)相比,LLM更加触手可得,拥有一个口袋里的「专家」可能对许多人来说是有益的。
标签: 情感分析不用情感词典
相关文章
-
欢聊网络情感词典扩展方法获授权专利详细阅读
在数字化时代,情感表达的方式日益多样化,如何让机器更好地理解人类的情感,成为科技行业亟待解决的难题。2025年5月13日,金融界传来消...
2025-08-11 8 情感分析不用情感词典
-
Brand Finance:2025年医疗保健品牌榜详细阅读
强生公司(Johnson & Johnson)巩固了其全球最具价值制药品牌的地位,品牌价值增长16%,达到155亿美元。该公司...
2025-08-08 8 情感分析不用情感词典
-
《万两金鳞落人间》全集1-99完整版详细阅读
《万两金鳞落人间》是一部以现实主义为基调,融合了浪漫主义色彩的文学作品。故事以金鳞为线索,讲述了它在人间的种种奇遇与经历。这部作品的背...
2025-08-08 8 情感分析不用情感词典
-
黄圣依深夜崩溃撕开高知家庭伤疤:为何活成母亲的失败作品?详细阅读
《是女儿是妈妈2》最新片段引爆热搜。镜头里,黄圣依攥着咖啡杯的手指关节发白,对面母亲邓传理正用《牛津词典》解释家务劳动的拉丁词源,这场...
2025-08-04 10 情感分析不用情感词典
-
临沂市规划建筑设计研究院集团申请国土空间规划环境影响监测方法及系统专利快速收集矛盾较为尖锐区域的群众意见详细阅读
金融界2025年7月21日消息,国家知识产权局信息显示,临沂市规划建筑设计研究院集团有限公司申请一项名为“一种国土空间规划环境影响监测...
2025-08-04 10 情感分析不用情感词典
-
赣州离婚财产分割律师详细阅读
一、离婚诉讼案件代理;二、离婚子女抚养纠纷;三、离婚案件代理;四、离婚财产分割纠纷;五、协议离婚居间谈判;六、离婚协议书、分居协议书起...
2025-07-31 9 情感分析不用情感词典
发表评论