OpenAI Sora 的训练数据来源成谜:OpenAI首席执行官表示也不知道

OpenAI Sora 的训练数据来源成谜:OpenAI首席执行官表示也不知道
Sora官网入口

想知道 OpenAI 使用哪些数据来训练其嗡嗡作响的新文本到视频 AI?该公司的首席技术官同样不确定。

OpenAI 的长期首席技术官米拉·穆拉蒂 (Mira Murati) 本周与《华尔街日报》的乔安娜·斯特恩 (Joanna Stern) 坐下来讨论了该公司即将推出的视频生成 AI Sora。在长达10分钟的采访进行到一半时,斯特恩直截了当地问穆拉蒂,新模型的训练数据是从哪里收集的。但穆拉蒂以最令人畏惧的方式,除了模糊的公司语言之外,找不到答案。

“我们使用了公开可用的数据和许可数据,”穆拉蒂回答了这个非常简单的问题。

斯特恩用更具体的来源例子反驳道:“那么,YouTube上的视频?

“我实际上不确定这一点,”穆拉蒂说,然后拒绝了关于分享到Instagram或Facebook的视频是否被输入模型的进一步询问。

“你知道,如果它们是公开的——公开可以使用,”首席技术官回答说,“但我不确定。我对此没有信心。

斯特恩随后询问了 OpenAI 与库存图片公司 Shutterstock 的数据训练合作伙伴关系,询问合作平台上的视频是否被吸入了 Sora 的训练材料中。而这一次呢?穆拉蒂决定完全关闭询问线。

“我只是不打算详细介绍所使用的数据,”穆拉蒂继续说道。“但它是公开的或许可的数据。

所以,总而言之,Murati 无法告诉你 Sora 最初吞噬的视频是从哪里来的。但请放心,无源数据绝对是 100% 公开可用或许可的。令人信服的东西!

对于OpenAI来说,这看起来很糟糕,OpenAI因其数据抓取行为而引起了广泛的争议,更不用说多起版权诉讼,包括来自《纽约时报》的诉讼。毕竟,如果该公司的首席技术官不能坚定地告诉你其最热门的新模型的训练数据来自哪里,那么它并不能完全传达OpenAI高层对这个问题的特别关注。

据报道,采访结束后,穆拉蒂向《华尔街日报》证实,Shutterstock 视频确实包含在 Sora 的训练集中。但是,当您考虑到网络上大量的视频内容时,OpenAI 通过 Shutterstock 获得的任何剪辑可能只是 Sora 训练数据池中的一小滴水。

在网上,对这段视频的反应褒贬不一,许多人将穆拉蒂守口如瓶的回应归咎于可能缺乏坦率。

“因此,当 OpenAI 的首席技术官被问及 Sora 是否接受过 YouTube 视频训练时,她说’实际上我不确定’,并拒绝讨论有关训练数据的所有进一步问题,”前《洛杉矶时报》科技专栏作家 Brian Merchant 在 X 前 Twitter 帖子中写道。“要么是对自己产品的无知程度相当惊人,要么是谎言——无论哪种方式都非常可怕!”

“你是首席技术官马,”另一位网友补充道,“你应该知道。

与此同时,其他人则跳出来为穆拉蒂辩护,认为如果你曾经在互联网上发布过任何东西,你应该完全接受人工智能公司吞噬它。

“为什么这很重要?这就是问题所在,“一位X用户说。“我发现人们向世界上的每个人公开事情,然后在有人使用公共物品时抱怨,这太疯狂了。如果你想成为私人的,那就成为私人的。

然而,后一种论点说明了互联网用户现在所处的奇怪的新现实。从历史上看,当有人告诉你要小心你在网上发布的内容时,其理由类似于“你以后可能会后悔”——而不是“一家价值数十亿美元的人工智能公司可能会通过将你和你家人的Facebook视频,或者你和朋友一起制作的愚蠢的YouTube视频吸尘器,变成一个生成式人工智能模型来获利。

无论穆拉蒂是为了避免更多的版权诉讼而保守秘密,还是只是不知道答案,人们都有充分的理由想知道人工智能数据——无论它是否“公开可用和许可”——来自哪里。展望未来,含糊不清的企业嘟囔可能不会解决问题。

Comments

No comments yet. Why don’t you start the discussion?

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注