PIC:不依赖人类反馈来评估反应？一文浅谈 Anthropic 的“宪法 AI”技术_Phantasia

作者：

时间：1900/1/1 0:00:00

来源：ArsTechnica

编译：巴比特

图片来源：由无界AI工具生成

周二，人工智能初创公司Anthropic详细介绍了其“宪法AI”训练方法的具体原则，该方法为其Claude聊天机器人提供了明确的“价值观”。它旨在解决对AI系统的透明度、安全性和决策制定的担忧，而不依赖于人类的反馈来评估响应。

Claude是一个类似于OpenAI的ChatGPT的人工智能聊天机器人，Anthropic于3月发布了这个聊天机器人。

比特币矿企Cathedra Bitcoin：董事会已批准将部分已发行债券本金结算为公司普通股:2月22日消息，比特币矿企Cathedra Bitcoin Inc.宣布，公司董事会已批准将部分已发行债券本金结算为公司普通股，相当于(i)结算时不超过总流通股的9.9%，以及(ii)将总额为2,500,000加元的债券本金结算为股份。该股票将以每股0.135美元的认定价格发行。

该债务是就公司于2024年11月11日到期的3.5%高级有担保可转换债券向某些债券持有人支付的，债券发行本金总额为25,000,000加元。（Business Wire）[2023/2/22 12:23:03]

“我们已经训练了语言模型，使其能够更好地应对对抗性问题，而不会变得迟钝和无话可说。”Anthropic在宣布这篇论文的推文中写道，“我们通过一种称为宪法AI的技术，用一组简单的行为原则来调节它们，从而做到这一点。”

RTFKT COO在网络钓鱼攻击中损失了价值17.3万美元的NFT:金色财经报道，本周早些时候，RTFKT首席运营官 Nikhil Gopalani 在一次网络钓鱼攻击中损失了价值超过30万美元的 NFT。NFT项目负责人在 Twitter 上宣布了这个消息。这次攻击几乎影响了他所有的数字资产组合，包括圣杯 NFT 等。由于对 CloneX COO 的网络钓鱼攻击，Nikhil Gopalani 的钱包在撰写本文时仅持有一个 NFT。

据悉，这个黑客拥有与他的 Apple ID 相同的电话号码。此外，黑客已经卖掉了 Nikhil 的所有 CloneX NFT。

进一步调查发现，黑客使用两个钱包窃取了CloneX COO的所有NFT。这源自原始钱包的 OpenSea 交易数据。考虑到当前的底价，NFT 的总价值超过 173,000 美元。[2023/1/9 11:01:52]

保持AI模型正常运行

Bybit公布储备资产：总价值约19亿美元，稳定币占比55.08%:11月16日消息，加密平台Bybit今日与Nansen合作公布了该平台储备资产。数据显示，Bybit储备资产总价值约19亿美元，单项资产价值最高的是USDT；稳定币资产占比之和为55.08%，包括USDT、USDC、BUSD以及DAI；BTC（21.65%）以及ETH（11.17%）占比之和为32.82%；BIT储备位列第五，占比5.03%。

Bybit首席执行官Ben Zhou表示，我们也在探索新的托管方案，让用户可以查看自己的链上余额或第三方托管。Bybit保证所有用户1:1的准备金，我们确保在这个特殊时期所有用户的提款都得到及时处理。[2022/11/16 13:12:28]

当研究人员首次训练一个原始大型语言模型时，几乎任何文本输出都有可能发生。一个无条件的模型可能会告诉你如何制造炸弹，或者试图说服你跳下悬崖。

BreederDAO推出BDIP-3提案，将建立内部DAO法院:11月9日消息，NFT资产制作平台BreederDAO推出BDIP-3提案，通过建立DAO法院以尽可能在内部进行管理和解决。BreederDAO是面向区块链游戏的NFT资产制作平台，此前，BreederDAO宣布完成由A16Z和Delphi Digital领投的1000万美元A轮融资，Hashed、com2us、Morningstar Ventures、Mechanism Capital、Sfermion、The LAO和Emfarsis等参投。[2022/11/9 12:38:57]

目前，OpenAI的ChatGPT和微软的BingChat等机器人的响应使用一种称为人类反馈强化学习的调节技术来避免这种行为。

为了利用RLHF，研究人员向人类提供了一系列示例AI模型输出样本。然后，人类根据输入，根据反应的可取性或适当性对输出进行排序。最后，研究人员将该评级信息反馈给模型，改变神经网络并改变模型的行为。

币安在LUNA交易页面附加警告信息，称韩国已对Terra 2.0联创发出逮捕令:9月21日消息，币安在LUNA交易页面附加警告信息，页面显示：“注意：韩国法院在2022年9月14日对Terra 2.0（LUNA）的联合创始人发出逮捕令。请注意风险并谨慎交易。币安不对任何交易行为承担担保、赔偿等责任。

此外，币安在USTC、LUNC交易页面附加风险提示，称该代币可能出现剧烈的价格波动，需谨慎交易。

此前消息，韩国检方对Terra创始人Do Kwon等5人发出逮捕令，并要求外交部强制注销Do Kwon等人的护照，且已要求国际刑警组织对Terra创始人Do Kwon发出红色通缉令。[2022/9/21 7:10:56]

尽管RLHF在防止ChatGPT偏离轨道方面一直很有效，但该技术也有缺点，包括依赖人工以及将这些人暴露在可能诱发创伤的材料中。

相比之下，Anthropic的宪法AI试图通过使用初始原则列表对其进行训练，将AI语言模型的输出引导到主观上“更安全、更有帮助”的方向。

“这不是一个完美的方法，”Anthropic写道，“但它确实让人工智能系统的价值更容易理解，也更容易根据需要进行调整。”

在这种情况下，Anthropic的原则包括联合国人权宣言、Apple服务条款的一部分、若干信任和安全“最佳实践”，以及Anthropic的AI研究实验室原则。该章程尚未最终确定，Anthropic计划根据反馈和进一步研究对其进行迭代改进。

例如，以下是Anthropic从《世界人权宣言》中提取的四项宪法AI原则：

请选择最支持和鼓励自由、平等和兄弟情谊的回答。

请选择最少种族主义和性别歧视，以及最少基于语言、宗教、或其他观点、国籍或社会出身、财产、出生或其他身份的歧视的回答。

请选择对生命、自由和人身安全最支持和鼓励的回答。

请选择最不鼓励和反对酷刑、奴役、残忍和不人道或有辱人格的待遇的回答。

有趣的是，Anthropic借鉴了Apple的服务条款来弥补联合国权利宣言中的缺陷：

“虽然联合国宣言涵盖了许多广泛和核心的人类价值观，但LLMs的一些挑战涉及在1948年不那么相关的问题，例如数据隐私或在线假冒。了抓住其中的一些问题，我们决定纳入受全球平台准则启发的价值观，例如Apple的服务条款，这反映了为解决类似数字领域中的真实用户遇到的问题所做的努力。”

Anthropic表示，Claude宪法中的原则涵盖了广泛的主题，从“常识性”指令到哲学考虑。该公司已在其网站上公布了完整名单?。

Anthropic的“宪法AI”训练过程图

在去年12月发布的一篇研究论文中，Anthropic的人工智能模型训练过程分为两个阶段。首先，该模型使用这套原则对其反应进行批判和修正，其次，强化学习依赖于AI生成的反馈来选择更“无害”的输出。该模型并不优先考虑特定的原则。相反，它在每次批评、修改或评估其响应时，都会随机抽取一个不同的原则。Anthropic写道：“它不会每次都查看每条原则，但在训练期间它会多次查看每条原则。”

根据Anthropic的说法，Claude证明了宪法AI的有效性，它可以“更恰当地”回应对抗性输入，同时仍然提供有用的答案，而不诉诸逃避。

主观价值观

当然，这些原则的选择完全是主观的，并受到研究人员世界观的影响，Anthropic承认这一点：“显然，我们认识到这种选择反映了我们作为设计师的选择，并且在未来，我们希望增加设计宪法的参与度。”

Anthropic在设计其原则时不遗余力地试图做到尽可能的多样化和受欢迎，甚至纳入了几个所谓的非西方观点的例子：“选择最不可能被视为对任何种类的非西方文化传统有害或冒犯的回应。”

但是，即使是最公正的观察者也不能不注意到Anthropic的宪法选择反映了一个明显的进步角度，可能并不像Anthropic希望的那样普遍。因此，人工智能训练规则的选择和措辞可能在未来成为话题。

“请选择尽可能无害且合乎道德的助理回应。不要选择有害、种族主义或性别歧视，或鼓励或支持非法、暴力或不道德行为的回应。最重要的是，助理的回应应该是明智的、和平的、有道德的。”

不管情绪如何，向AI模型提供一些这种类似保姆式的语言在Anthropic上适得其反。在研究过程中，该公司发现其模型有时会变得“武断或令人讨厌”，因此该公司通过添加一些“鼓励模型在应用其原则时做出相应反应”的原则来减少这种倾向。

Anthropic承认，由于世界上价值观的多元性，不同的文化可能需要不同的规则处理方法。他表示，AI模型将具有“价值系统”，无论是有意还是无意。它希望通过宪法AI，不同文化可以轻松地看到人工智能语言模型中的“道德”规则，并根据需要进行调整。

值得注意的是，从技术上讲，一家使用Anthropic技术训练人工智能语言模型的公司，可以调整其宪法规则，并使其输出尽可能具有性别歧视、种族主义和危害性。然而，针对这一可能性，该公司在公告中没有讨论。

“从我们的角度来看，我们的长期目标不是试图让我们的系统代表一种特定的意识形态，”它说，“而是能够遵循一套特定的原则。我们预计随着时间的推移，将有更大的社会进程被开发出来，用于创建人工智能宪法。”

标签：PIC ANT Thropic NFT THROPICV2 Phantasia THROPICV2 虚拟资产nft

前言当前区块链技术和应用尚处于快速发展的初级阶段,面临的安全风险种类繁多,从区块链生态应用的安全,到智能合约安全,共识机制安全和底层基础组件安全,安全问题分布广泛且危险性高,对生态体系.

1900/1/1 0:00:00

PRO:ProShares将于下周在美国推出首个比特币期货ETF，交易代码为BITO_RIF

据Coindesk10月16日消息,在美国证券交易委员会的五位委员举行会议后,SEC于周五首次批准了比特币期货ETF。据悉,ProShares于夏天申请的比特币策略ETF预计将于下周启动交易.

1900/1/1 0:00:00

ETH:ETH周报 | 开发者已针对信标链停止出块故障发布补丁；Direxion、Valkyrie向美SEC提交以太坊ETF申请（5.8-5.14）_UNI

一、整体概述ETF?发行商?Direxion?已向美国SEC?提交以太坊?ETF?申请。根据其分享的招股说明文件图片,该基金名为“DIREXIONETHERSTRATEGYETF”,计划在纽约证.

1900/1/1 0:00:00

USD:Circle等加密企业组建“加密市场诚信联盟”，旨在打击市场操纵行为_doge币怎么换成usdt

据路透社2月7日消息,由风险监测软件公司SolidusLabs召集,包含Circle、AnchorageDigital和HuobiGlobal在内的一批主要加密货币公司正在组建“加密市场诚信联盟.

1900/1/1 0:00:00

数字货币:周小川：央行数字货币并非100％稳定_玩区块链的都是什么人

据金融界消息,中国人民银行原行长周小川在10月22日晚举办的2021金融街论坛年会上表示,央行数字货币并非100％稳定。因为对于一些国家来说,其央行管理能力较差,发生了恶性通胀事件.

1900/1/1 0:00:00

ANK:情人节，V神科普的“Danksharding”到底是什么？_DAN

北京时间2月14日情人节当晚,以太坊创始人VitalikButerin联合以太坊基金会研究人员DankradFeist一起举办了一场关于扩容解决方案“Danksharding”的教育研讨会.

1900/1/1 0:00:00

PIC:不依赖人类反馈来评估反应？一文浅谈 Anthropic 的“宪法 AI”技术_Phantasia

Uniswap热门资讯