由于可能的数据盗窃，OpenAI 将 TikTok 公司字节跳动从 ChatGPT 中屏蔽

type

status

date

slug

summary

根据泄露给 The Verge 编辑 Alex Heath 的字节跳动内部文件，字节跳动在 Project Seed 开发的几乎每个阶段都使用了 OpenAI 的 API，包括训练和评估模型。

意识到其中的影响，员工们在字节跳动的内部通讯平台飞书上讨论了如何通过“数据脱敏”来掩盖证据。

使用训练数据来训练与OpenAI的AI技术竞争的AI模型，直接违反了OpenAI的服务条款，字节跳动可以通过微软的Azure服务访问GPT-4，该服务也有相同的规则。

一方面，这种类型的数据获取可以帮助竞争对手更快地获得高质量的数据，从而获得更好的人工智能模型。

另一方面，存在这样的风险，例如，生成模型中的错误和失真将转移到其他人工智能模型，从而影响整个生成和数据的质量。

OpenAI 发言人 Niko Felix 向 Heath 证实，字节跳动的账户已被暂停，相关指控正在接受调查。字节跳动到目前为止只使用了最低限度的 API。

如果事实证明该API的使用是非法的，字节跳动将不得不进行更改，否则该帐户将被删除。

字节跳动发言人 Jodi Seth 告诉 Heath，GPT 生成的数据在 Project Seed 开发的早期被用来注释模型，而这些数据已在年中从字节跳动的训练数据中删除。

字节跳动是 Microsoft 授权合作伙伴，对中国境外的产品使用 GPT 模型。

在种子项目中，字节跳动正在为豆宝聊天机器人和将作为云产品销售的商业聊天机器人开发语言模型。

Project Seed的主要目标是尽快成为中国的ChatGPT。该团队的目标是在今年年底前实现 GPT-3.5 性能，并在 2024 年中期实现 GPT-4 性能。

目前的种子模型据说有 2000 亿个参数。 GPT-3有1750亿个参数，据说联网的GPT-4模型总共有大约1.8万亿个参数。然而，自 GPT-3 发布以来，参数数量作为模型性能的唯一指标已经变得不那么重要了。

TikTok 母公司字节跳动因涉嫌秘密使用 OpenAI 技术开发名为 Project Seed 的竞争 AI 模型、违反其服务条款而被 OpenAI 从 ChatGPT 暂停。

Ai-皇帝