AI圈公开的秘密:天下模型一大抄
gangqin @ 2024年04月17日 财经风云
AI圈公开的秘密:天下模型一大抄 硬AI 初创公司使用OpenAI等公司的数据训练模型,科技巨头则大量汲取媒体平台的内容,双方的做法如出一辙。 作者:卜淑情 来源:硬AI 抄袭已经成为AI世界公开的秘密。 据The Information周一的文章,许多初创公司的AI聊天机器人很可能是采用了OpenAI和其他公司的数据开发的。这些机器人在某些任务上可以媲美GPT-4,但收费只是后者的一小部分。 初创公司在开发过程中没有披露使用OpenAI的技术。不过,The Information报道称,OpenAI首席执行官Sam Altman去年夏天告诉初创公司创始人,可以接受初创公司以这种方式使用OpenAI的技术。 虽然Altman的回应让一些初创公司松了一口气,但这种做法实质上损害了OpenAI的增长,Altman随时可能改变主意。 在初创公司中,抄袭已成常态 初创公司抄袭OpenAI的具体做法是,先开通GPT-4的会员,然后向它提出一系列问题,例如"这行代码有什么问题?"他们使用这些问题和答案来训练自己的竞品模型。 采取这一策略的初创公司不在少数。 Unsloth AI联合创始人Daniel Han估计,他大约一半的客户从GPT-4或Anthropic的Claude模型中获取数据,并用它来改进自己的模型。许多公司也从ShareGPT获得此类数据,ShareGPT是一个开发人员分享使用OpenAI模型生成答案的网站。 小型开发商的模型通常基于Meta Platforms或Mistral AI免费提供的流行开源模型,但通过融合OpenAI模型的答案,可以显著提高这些模型输出内容的质量。Han表示,一些开发人员正在使用一项名为OpenPipe的服务来自动化这一过程。 "在一个尚未建立明确规则的新生态系统中,就会发生这种情况,"Menlo Ventures董事总经理Matt Murphy表示,该公司投资了OpenAI的竞争对手Anthropic。Murphy说: 如果大家都使用相同的数据,你怎么能比其他人更出色呢? 目前尚不清楚OpenAI、谷歌、Anthropic和其他大型开发商会在多大程度上允许初创对手利用他们的数据进行追赶。 Radical Ventures合伙人Rob Toews表示: AI模型的训练数据的质量和来源正成为最重要的热点问题之一。没有人确切知道事情将如何发展,但任何没有对(数据来源)进行周密和战略考虑的AI初创公司都在落后。 如果那些在开发模型时暗中依赖其他AI服务的开发商被曝光,它们可能会面临尴尬的处境。 比如,总部位于巴黎的Mistral使用Meta的开源AI 模型Llama 2创建了自己的AI,但直到无意泄露才披露这一事实,引起了一些开发者的不满。Mistral已经筹集了数亿美元的资金。 大公司也一样? 实际上,初创公司利用OpenAI数据训练模型的做法,与OpenAI等AI巨头的做法并无二致。 OpenAI首席技术官Mira Murati上个月在回答有关该公司是否使用谷歌旗下YouTube以及Meta Platforms旗下Facebook和Instagram的数据来训练生成AI视频的Sora时表现出了犹豫和困惑。 如果OpenAI真的使用了这些数据,也不足为奇。 据《纽约时报》最近的报道,OpenAI创建了一个名为Whisper的语音识别工具,用于转录YouTube视频,以此来改进GPT-4。此前,也有媒体曾报道称,OpenAI暗中使用YouTube数据训练其早期的AI模型。 就在本月早些时候,YouTube CEO Neal Mohan还表示,他不赞成OpenAI使用YouTube视频来开发像Sora这样的文生视频模型。 这种行为也导致OpenAI招致了侵权官司。《纽约时报》公司去年12月起诉OpenAI及其最大支持者微软,指控他们在训练模型时非法复制了该报的新闻文章。诉讼称,OpenAI的聊天机器人"可以逐字逐句地生成时报内容"。 作为回应,OpenAI辩称,它已努力与新闻出版商建立合作关系,其训练做法属于美国版权原则"合理使用"所允许的范围。 尽管如此,OpenAI和谷歌都与Axel Springer等出版商达成了数百万美元的许可协议,并与Reddit等主要网站达成了更大的交易。 即使是科技巨头也难以抗拒捷径的诱惑。 The Information报道称,谷歌曾转录YouTube视频,Meta雇佣承包商总结受版权保护的书籍,Adobe使用Midjourney的AI生成照片,均是为了训练自家AI模型。一位谷歌工程师因担忧公司使用OpenAI的ChatGPT数据而辞职。 初创公司Lamini的CEO Sharon Zhou表示,AI开发的快速步伐和激烈竞争迫使开发者求助于有争议的训练数据来源,如受版权保护的内容或LLM。 Zhou说: 在这个领域,投资者需要看到非常快的进展。 风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
|
推荐内容
- DeepSeek研究员在线爆料:R1训练仅用两到三周,春..
- 特朗普“政府瘦身”大计蔓延至情报机构 中情局提..
- 谷歌预计今年资本开支高达750亿美元,远超市场预..
- 金条疯狂涌入美国,金价再创新高
- 最新全球模型榜单:阿里 Qwen2.5-Max超DeepSeek ..
- DeepSeek的创新三重门
- 世界黄金协会:2024年黄金需求创新高,各国央行的..
- 美联储“二号人物”:不必急于改变立场,决策者应..
- 高溢价QDII同“类”不同“命”:有的跌停,有的暴..
- 英伟达憾失DeepSeek关键人才?美国放走AI「钱学森..
- 全球贸易秩序面临更大不确定性
- 木头姐坚定AI:2030年AI算力爆炸式增长!猛涨100..
- 又玩套路!中概股、港股春节期间暴涨,轮到A股开..
- 特朗普关税“大棒”挥向欧盟?美国科技巨头或成报..
- A股将面临重大变盘
热点阅读
- 注意!2月5日起国内航线燃油附加费全面上调,出行..
- 交易所春节休市安排公布:A股除夕休市,大年初八..
- 春节后A股将会如何演绎?以史为鉴这四大行业上涨..
- 马斯克动手了!DOGE要全面控制美国政府?..
- 科技股拖累美股涨势暂歇,中概、人民币大涨,特朗..
- 跌宕起伏的一周,尽管英伟达被重创,美股Mag 7整..
- AI巨变就在未来2,3年了,这位大佬说的很清楚了:..
- 美宣布对中国商品加征10%关税
- 川普2.0最佳资产?金价迎来十年来最强的一月..
- 一周展望:特朗普关税大棒加速挥舞!黄金创新高后..
- 加密货币市场惨遭血洗,比特币跌破10万美元,以太..
- 开启全面贸易战?特朗普“新开战线”:最早于2月..
- 创造历史!DeepSeek超越ChatGPT登顶中美AppStore..
- 美俄官员已在讨论止战问题,美国希望乌克兰在今年..
- 贸易战爆发!报复美国征税,加拿大将对1550亿加元..