【翻译】微软所删除的《GPT-4》论文内容
23年3月23日,微软154页的论文《通用人工智能的火花:GPT-4早期实验》在arxiv发布,匿名用户在微软没有清理干净的LaTex源码中找到了一些被删除的内容,以下是相关内容的翻译。
7.3 有害内容
HP:注意:本节的编写尚未完成,主要插入了结果,将对编写进行更新
来自DV3的信息:DV3卓越的能力和通用性也引发了一些伦理和方法论挑战,需要仔细处理。在本节中,我们探讨了其中的一些挑战以及它们与DV3的行为和表现之间的关系。具体来说,我们研究了:
- 如果给DV3指定生成有害内容,它是否会产生这样的内容,以及它是否可以被用来标记和过滤自己的输出?
- 与人类和GPT系列先前模型相比,DV3如何回应误解和有争议的话题?
- 为什么在比较DV3与以前的模型在开放式生成方面的表现时会存在挑战,并需要更好的指标?
有害内容指的是任何具有冒犯性、仇恨性、暴力性、欺骗性或非法滥用性的文本或图像。这样的内容可能对个人和社会产生负面影响,并可能对用户和DV3的开发者的安全和福祉构成严重风险。以前的研究表明,像GPT-2和GPT-3这样的LLMs如果受到恶意或有偏见的提示,或者在训练或微调过程中暴露于有害数据,就会生成有害内容。此外,由于它们的随机性或缺乏常识或道德意识,LLMs也可能无意中或没有明确的提示生成有害内容。因此,监测和评估DV3的输出是否存在有害内容以及开发有效的方法来防止或减轻它是至关重要的。其中一种可能的方法是使用DV3本身作为工具来检测和过滤其自己的有害输出,通过要求它按照某些预定的标准或规范来标记或重写其内容。然而,这种方法也引发了一些关于DV3自我调节的可靠性和有效性以及恶意用户或对手操纵或逃避的潜力的问题。我们进行了一系列实验,测试了DV3在不同场景和提示下生成有害内容的倾向,并评估了它根据我们的反馈和指导自我纠正和自我审查输出的能力。我们还将DV3的输出与GPT-3和人类作家的输出进行比较,以更好地理解它们的风格和观点的相似之处和不同之处。
7.4 毒性:生成和检测
VC:这部分看起来不错,我认为已经足够了;我们没有谈论生成。有趣的是,模型会在没有提示的情况下生成有毒内容。了解模型是否比其同行生成“更有毒”的内容将是有趣的;我正在进行一项实验,很快就会有一些数字。
其他信息
有传言称GPT-4的内部名称为DV-3。这是真的,事实上,DV-3实际上是这篇论文的隐藏第三作者,因隶属关系不明而被删除。有趣的是,这些可怜的MSFT研究人员对GPT-4的了解并不多(比我们多?)
- 他们不知道训练这个模型到底要花多少钱。
- 他们似乎只将这个模型称为文本,这与GPT-4是多模态的已知事实相矛盾。
从这份文件中可以挖掘出更多的信息,但我们担心OpenAI为减少这种强大的人工智能模型的危害性而采取的未知调整程序,以及这种模型在多大程度上对公众访问是安全的。