科技 >

“喂”给人工智能的真实数据终将耗尽 合成数据能否让AI模型精确可靠?

2025-01-27 13:04:42   来源:科技日报

人工智能(AI)初创公司xAI创始人埃隆·马斯克近日表示:“在AI训练中,我们现在基本上耗尽了人类知识的累积总和。”之前研究也表明,人类生成的真实数据将在2到8年内消耗殆尽。鉴于真实数据日益稀缺,为满足AI的“胃口”,科技行业正转向使用合成数据。

澳大利亚“对话”网站在本月稍早时间报道中指出,合成数据具有诸多优势,但过度依赖合成数据也可能削弱AI的精确性和可靠性。

图片来源:物理学家组织网

合成数据应运而生

以往,科技公司主要依赖真实数据来构建、训练和改进AI模型。真实数据是指由人类创建的文本、视频和图像。它们通过调查、实验、观察或挖掘网站和社交媒体等途径被收集而来。

真实数据因蕴含真实事件以及其场景和背景而极具价值,但其并非尽善尽美。它可能掺杂拼写错误、不一致或无关的内容,甚至潜藏严重偏见,导致生成式AI模型在某些情况下创建的图像仅展示男性或白人形象。

但真实数据日益匮乏,因为人类生成数据的速度赶不上AI不断增长的需求。

美国开放人工智能研究中心联合创始人伊利亚·苏茨克维尔在去年12月举行的机器学习会议上声称,AI行业已触及他所称的“数据峰值”,AI的训练数据如同化石燃料一样面临着耗尽的危机。此外,有研究预测,到2026年,ChatGPT等大型语言模型的训练将耗尽互联网上所有可用文本数据,届时将没有新的真实数据可供使用。

为给AI提供充足的“养分”,一种由算法生成的、模仿真实世界情况的数据——合成数据应运而生。合成数据是在数字世界中创造的,而非从现实世界收集或测量而来。它可以作为真实世界数据的替代品,来训练、测试、验证AI模型。

从理论上来说,合成数据为训练AI模型提供了一种经济高效且快捷的解决方案。它有效解决了AI训练使用真实数据时饱受诟病的隐私问题和道德问题,尤其是涉及个人健康数据等敏感信息时。更重要的是,与真实数据不同,合成数据在理论上可以无限供应。

研究机构高德纳公司估计,2024年AI及分析项目使用的数据中,约60%是合成数据。到2030年,AI模型使用的绝大部分数据将是由AI生成的合成数据。

科技公司来者不拒

事实上,微软、元宇宙平台公司,以及Anthropic等众多科技头部企业和初创企业,已经开始广泛使用合成数据来训练其AI模型。

例如,微软在1月8日开源的AI模型“Phi-4”,便是合成数据携手真实数据训练的;谷歌的“Gemma”模型也采用了类似方法。Anthropic公司也利用部分合成数据,开发出其性能最优异的AI系统之一“Claude 3.5 Sonnet”。苹果自研AI系统Apple Intelligence,在预训练阶段,也大量使用了合成数据。

随着科技公司对合成数据的需求与日俱增,生产合成数据的工具也接踵而至。

英伟达公司发布的3D仿真数据生成引擎Omniverse Replicator,能够生成合成数据,用于自动驾驶汽车和机器人训练。去年6月,英伟达开源了Nemotron-4340b系列模型,开发者可使用该模型生成合成数据,用于训练大型语言模型,以应用于医疗保健、金融、制造、零售等行业。在医疗、金融等专业领域,该模型能够根据特定需求生成高质量的合成数据,帮助构建更为精准的行业专属模型。微软推出的开源合成数据工具Synthetic Data Showcase则旨在通过生成合成数据和用户界面,实现隐私保护的数据共享和分析。亚马逊云科技推出的Amazon SageMaker Ground Truth也能为用户生成数十万张自动标记的合成图像。

此外,去年12月,元宇宙平台公司推出开源大模型Llama 3.3,更是大幅降低了生成合成数据的成本。

过度依赖风险难测

尽管合成数据暂时解决了AI训练的燃眉之急,但它也并非尽善尽美。

一个关键问题在于:当AI模型过于依赖合成数据时,它们可能会“崩溃”。它们会产生更多“幻觉”,编造看似合理可信但实际上并不存在的信息。而且,AI模型的质量和性能也会飞速下降,甚至无法使用。例如,某个AI模型生成的数据出现了一些拼写错误,利用这些充满了错误的数据训练其他模型,这些AI模型必定会“以讹传讹”,导致更大的错误。

此外,合成数据也存在过于简单化的风险。它可能缺乏真实数据集蕴含的细节和多样性,这可能导致在其上训练的AI模型的输出也过于简单,缺乏实用性。

为解决这些问题,国际标准化组织需要着手创建强大的系统,来跟踪和验证AI训练数据。此外,AI系统可以配备元数据追踪功能,让用户或系统能对合成数据进行溯源。人类也需要在AI模型的整个训练过程中对合成数据进行监督,以确保其高质量且符合道德标准。

AI的未来在很大程度上取决于数据的质量,合成数据将在克服数据短缺方面发挥越来越重要的作用。对合成数据的使用,人们必须保持谨慎态度,尽量减少错误,确保其作为真实数据的可靠补充,从而保障AI系统的准确性和可信度。

标签:

相关阅读

“喂”给人工智能的真实数据终将耗尽 合成

科技

人工智能(AI)初创公司xAI创始人埃隆·马斯克近日表示:在AI训练中,我们现在基本上耗尽了人类知识的累积总和。之前研究也表明,人类生成

2025-01-27

时速400公里CR450动车组样车发布

科技

12月29日拍摄的CR450AF动车组样车。新华社记者 鞠焕宗摄  从中国国家铁路集团有限公司获悉,CR450动车组样车29日在北京发布,这

2024-12-31

AI发展:训练数据即将遭遇瓶颈

科技

得益于神经网络规模的扩大以及海量数据的训练,人工智能(AI)在过去10年间突飞猛进。做大做强的策略,在构建大型语言模型(LLM)上取得了

2024-12-31

年底冲刺,家电换新求“新”更求“质”

科技

  2024年的消费品以旧换新政策实施已接近尾声,但在诸多优惠政策加持下,家电家居消费市场依旧热力不减。据商务部统计,截至12月

2024-12-31

人形机器人加速奔跑

科技

2024年12月20日,观众在2024世界智能制造博览会上参观人形机器人。方东旭摄(中经视觉)  2024年,支持人形机器人发展的政策接连

2024-12-31

“喂”给人工智能的真实数据终将耗尽 合成数据能否让AI模型精确可靠?

科技

人工智能(AI)初创公司xAI创始人埃隆·马斯克近日表示:在AI训练中,我们现在基本上耗尽了人类知识的累积总和。之前研究也表明,人类生成

2025-01-27

时速400公里CR450动车组样车发布

科技

12月29日拍摄的CR450AF动车组样车。新华社记者 鞠焕宗摄  从中国国家铁路集团有限公司获悉,CR450动车组样车29日在北京发布,这

2024-12-31

科技创新助力治水兴水

科技

 前不久,水利一号遥感卫星在山西太原卫星发射中心发射后,成功传回首幅影像。影像清晰显示了黄河位于乌拉特前旗段的凌情信息,封冻河

2024-12-31

创新之变:从“互联网+”到“人工智能+”

科技

人工智能在2024年迎来应用元年。2024年政府工作报告首提人工智能+行动,在政策指引下,各行业加快探索人工智能+产业发展新模式,各种创新要

2024-12-31

工信部:到2027年建设1万个5G工厂

科技

 记者12月30日获悉,工业和信息化部印发《打造5G+工业互联网512工程升级版实施方案》(下称《实施方案》),提出到2027年,5G+工业互

2024-12-31

中国空间站首份“述职报告”发布

科技

30日,在中国空间站即将迎来全面建成两周年之际,中国载人航天工程办公室首次公开发布《中国空间站科学研究与应用进展报告》(以下简称《报

2024-12-31

AI发展:训练数据即将遭遇瓶颈

科技

得益于神经网络规模的扩大以及海量数据的训练,人工智能(AI)在过去10年间突飞猛进。做大做强的策略,在构建大型语言模型(LLM)上取得了

2024-12-31

国家发改委成立低空经济发展司

科技

记者从国家发展和改革委员会官方网站获悉,低空经济发展司已正式成立。低空经济发展司的具体职责是拟订并组织实施低空经济发展战略、中长期

2024-12-31

《2024中国制造强国发展指数报告》显示:我国制造业全球竞争力呈上升趋势

科技

 30日,中国工程院、国家制造强国建设战略咨询委员会等部门联合发布的《2024中国制造强国发展指数报告》显示,2023年,我国制造强国发

2024-12-31

年底冲刺,家电换新求“新”更求“质”

科技

  2024年的消费品以旧换新政策实施已接近尾声,但在诸多优惠政策加持下,家电家居消费市场依旧热力不减。据商务部统计,截至12月

2024-12-31

遇见旗袍是于万千人群中的惊鸿一瞥 沿途洒满了爱的芬芳

旗袍,中国和世界华人女性的传统服装,被誉为中国国粹和女性国服。虽然其定义和产生的时间至今还存有诸多争议,但它仍然是中国悠久服饰文化

北京市电影院有序恢复开放 周五预售部分场次已满座

7月21日,北京市政府发布《北京市电影局关于在疫情防控常态化条件下有序推进电影院恢复开放的通知》,宣布全市低风险地区影院,可于7月24日

近期持续强降雨影响 第46届武汉渡江节因长江水位过高取消

武汉7·16渡江节组委会14日发布公告,由于长江武汉关水位超警戒水位,按照规定取消2020年第46届武汉7·16渡江节。受近期持续强降雨影响,

“非遗”普及受众最看重“动手”参观大师工作室非常享受

过去一段时间,国家级非遗项目灰塑传承人邵成村,多次在陈家祠等工作现场,向身边那些带着好奇目光的人们讲解灰塑的种种技术细节:草根灰、

璧山冷酒夜市 丰富市民夜间文旅活动

7月13日,位于璧山区南门唐城夜市街区的璧山冷酒夜市开街。这是璧山区打造夜间经济消费载体、培育夜间经济活动品牌的举措之一。璧山市民一

年内两市超过500家上市公司完成回购 累计回购金额超332亿元

近期A股市场持续震荡,不少上市公司或其重要股东推出回购、增持计划,用真金白银力挺股价。记者根据同花顺数据统计,今年以来,两市超过500

持续发力补链强链加大研发抢占市场 渝企跑出“加速度”

玥湖路渝快电充换电站 一辆新能源汽车,离不开研发、动力、配套等多个环节。作为汽车制造重镇,重庆在这些环节的多个板块上,正在加速奔跑

重启上市公司资本运作 康佳集团去年半导体业务营业收入为3.22亿元

近日,康佳集团正式对外发布2021年年度业绩报告。2021年,康佳集团实现全年营收491 07亿元,归属于母公司的净利润为9 05亿元,同比增长89 5

伟禄集团连续6年增长 去年营收同比增长37.5%

深港通标的之一的深圳企业伟禄集团近日公布2021年业绩。财报数据显示,伟禄集团全年营业收入11 95亿港元,同比增长37 5%,连续6年稳步增长;

龙头企业去年净利倍增 整个行业营收规模有望创造历史新高位

近日,面板龙头TCL科技、京东方分别发布2021年度业绩快报,两家企业去年归属于上市公司股东的净利润分别增长129 3%、412 86%,实现超过百亿

深圳国企全力为市民 守好“菜篮子”“米袋子”保障量足价稳

疫情防控形势下,民生物资供应是否充足成为市民最为关注的问题之一。连日来,深农集团、深粮控股等企业,充分发挥国企担当,全力为深圳市民