科技 >

AI发展:训练数据即将遭遇瓶颈

2024-12-31 19:12:43   来源:科技日报

得益于神经网络规模的扩大以及海量数据的训练,人工智能(AI)在过去10年间突飞猛进。“做大做强”的策略,在构建大型语言模型(LLM)上取得了显著成果,ChatGPT就是一个典型的例子。

然而,《自然》《麻省理工科技评论》等多家杂志网站指出,AI扩展正逼近极限。一方面,AI“吞噬”着越来越多的能源;另一方面,滋养无数模型成长的传统数据集,正被LLM开发人员过度开垦。

AI几乎读取了互联网上的所有内容,但仍渴望获得更多数据。为此,开发人员必须寻找变通之道。

图片来源:twistedsifter.com

训练数据即将遭遇的瓶颈已悄然浮现。有研究机构预测,到2028年左右,用于训练AI模型的数据集典型规模将达到公共在线文本总估计量的规模。换句话说,AI可能会在大约4年内耗尽训练数据。与此同时,数据所有者(如报纸出版商)开始打击对其内容的滥用行为,进一步收紧了访问权限,这将引发“数据共享”规模上的危机。为此,开发人员必须寻找变通之道。

 数据集供需失衡

过去10年间,LLM的发展显示出了对数据的巨大需求。自2020年以来,用于训练LLM的“标记”(或单词)数量已增长100倍,从数百亿增加到数万亿。一个常见的数据集RedPajama,包含数万亿个单词。这些数据会被一些公司或研究人员抓取和清洗,成为训练LLM的定制数据集。

然而,可用互联网内容的增长速度出乎意料的缓慢。据估计,其年增长率不到10%,而AI训练数据集的大小每年增长超过一倍。预测显示,这两条曲线将在2028年左右交汇。

与此同时,内容供应商越来越多地加入软件代码或修改条款,阻止爬虫及AI抓取其数据。在这些内容中,被明确标记为限制爬虫访问的数量,从2023年的不足3%猛增到了2024年的20%至33%之间。

当前,围绕AI训练中数据使用的合法性,试图为数据提供商争取应有赔偿的多起诉讼正在进行。2023年12月,《纽约时报》向OpenAI及其合作伙伴微软提起了诉讼,指控其侵犯了版权;今年4月,纽约市Alden全球资本旗下的8家报纸联合发起了一起类似的诉讼。对此,OpenAI表示,《纽约时报》的诉讼“毫无根据”。

若法院最终站在内容提供商一方,支持其获得经济赔偿,那么对于AI开发人员,尤其是那些资金紧张的学者而言,获取所需数据无疑将变得更加艰难。

新方法有待印证

数据匮乏对AI的传统扩展策略构成了潜在挑战。

寻找更多数据的一个途径是收集非公开数据,如社交媒体消息或视频文字记录。然而,这种做法的合法性尚存争议。

一些公司选择使用自己的数据来训练AI模型,如Meta利用虚拟现实头显收集的音频和图像进行训练。但各公司政策不同,包括Zoom在内的一些公司则明确表示不会使用客户内容训练AI。

另一种选择可能是专注于快速增长的专业数据集,如天文学或基因组学数据,但其对训练LLM的可用性和实用性尚不清楚。

如果AI接受除文本之外的多种类型的数据训练,可能会为丰富数据的涌入打开闸门。Meta首席AI科学家勒丘恩强调,人类通过观察物体而“吸收”的数据远超用于训练LLM的数据量,机器人形态的AI系统或许能从中获取经验。

此外,制造数据也是解决之道。一些AI公司付费让人们生成训练内容,或使用AI生成的合成数据来训练AI。这已成为一个潜在的巨大数据源。然而,合成数据也存在问题,如递归循环可能巩固错误、放大误解,并降低学习质量。

小模型更专更精

另一种策略是摒弃模型“越大越好”的开发观念。一些开发者已在追求更高效、专注于单一任务的小型语言模型。这些模型需要更精细、更专业的数据以及更好的训练技术。

12月5日,OpenAI发布了新的OpenAI o1模型。尽管该公司未透露模型的规模或训练数据集大小,但o1采用了新方法:在强化学习上投入更多时间,让模型对每个回答进行更深入的思考。这标志着一种转变,即从依赖大规模数据集进行预训练,转向更注重训练和推理。

当前,LLM可能已饱览互联网大部分内容,或许无需更多数据即可变得更智能。美国斯坦福大学一项研究表明,模型从多次读取给定数据集中学到的内容,与从相同数量的唯一数据中学习到的内容一样丰富。

合成数据、专门数据集、多次读取和自我反思等因素的结合,或将共同推动AI的进一步飞跃。

标签:

相关阅读

AI发展:训练数据即将遭遇瓶颈

科技

得益于神经网络规模的扩大以及海量数据的训练,人工智能(AI)在过去10年间突飞猛进。做大做强的策略,在构建大型语言模型(LLM)上取得了

2024-12-31

年底冲刺,家电换新求“新”更求“质”

科技

  2024年的消费品以旧换新政策实施已接近尾声,但在诸多优惠政策加持下,家电家居消费市场依旧热力不减。据商务部统计,截至12月

2024-12-31

人形机器人加速奔跑

科技

2024年12月20日,观众在2024世界智能制造博览会上参观人形机器人。方东旭摄(中经视觉)  2024年,支持人形机器人发展的政策接连

2024-12-31

第41次南极考察|“雪龙2”号与“永盛”号

科技

围观南极秦岭站卸货的小企鹅(12月27日摄)。执行中国第41次南极考察任务的雪龙2号极地科考破冰船与永盛号货轮于北京时间12月25日顺利抵达

2024-12-31

机器狗再登泰山

科技

12月30日,在山东省泰安市泰山景区,机器狗进行登山测试。当日,在泰山中天门附近山道,一批机器狗进行第二次测试,这是泰山文旅集团物业管

2024-12-31

AI发展:训练数据即将遭遇瓶颈

科技

得益于神经网络规模的扩大以及海量数据的训练,人工智能(AI)在过去10年间突飞猛进。做大做强的策略,在构建大型语言模型(LLM)上取得了

2024-12-31

国家发改委成立低空经济发展司

科技

记者从国家发展和改革委员会官方网站获悉,低空经济发展司已正式成立。低空经济发展司的具体职责是拟订并组织实施低空经济发展战略、中长期

2024-12-31

《2024中国制造强国发展指数报告》显示:我国制造业全球竞争力呈上升趋势

科技

 30日,中国工程院、国家制造强国建设战略咨询委员会等部门联合发布的《2024中国制造强国发展指数报告》显示,2023年,我国制造强国发

2024-12-31

年底冲刺,家电换新求“新”更求“质”

科技

  2024年的消费品以旧换新政策实施已接近尾声,但在诸多优惠政策加持下,家电家居消费市场依旧热力不减。据商务部统计,截至12月

2024-12-31

强化企业科技创新主体地位

科技

随着新一轮科技革命和产业变革深入发展,国际科技竞争日趋激烈,需要进一步强化企业科技创新的主体地位,提升原始创新能力,让企业用技术创

2024-12-31

人形机器人加速奔跑

科技

2024年12月20日,观众在2024世界智能制造博览会上参观人形机器人。方东旭摄(中经视觉)  2024年,支持人形机器人发展的政策接连

2024-12-31

中国经济深观察|创新之变:从“互联网+”到“人工智能+”

科技

新华社北京12月31日电 《经济参考报》12月31日刊发记者吴蔚采写的文章《中国经济深观察|创新之变:从互联网+到人工智能+》。文章称,人工

2024-12-31

第41次南极考察|“雪龙2”号与“永盛”号抵达秦岭站卸货

科技

围观南极秦岭站卸货的小企鹅(12月27日摄)。执行中国第41次南极考察任务的雪龙2号极地科考破冰船与永盛号货轮于北京时间12月25日顺利抵达

2024-12-31

机器狗再登泰山

科技

12月30日,在山东省泰安市泰山景区,机器狗进行登山测试。当日,在泰山中天门附近山道,一批机器狗进行第二次测试,这是泰山文旅集团物业管

2024-12-31

首家数据科技央企中国数联物流成立

科技

 中国数联物流信息有限公司(中国数联物流)19日在上海成立,这是我国首家数据科技央企。  记者从当日举行的企业成立大会上

2024-12-20

遇见旗袍是于万千人群中的惊鸿一瞥 沿途洒满了爱的芬芳

旗袍,中国和世界华人女性的传统服装,被誉为中国国粹和女性国服。虽然其定义和产生的时间至今还存有诸多争议,但它仍然是中国悠久服饰文化

北京市电影院有序恢复开放 周五预售部分场次已满座

7月21日,北京市政府发布《北京市电影局关于在疫情防控常态化条件下有序推进电影院恢复开放的通知》,宣布全市低风险地区影院,可于7月24日

近期持续强降雨影响 第46届武汉渡江节因长江水位过高取消

武汉7·16渡江节组委会14日发布公告,由于长江武汉关水位超警戒水位,按照规定取消2020年第46届武汉7·16渡江节。受近期持续强降雨影响,

“非遗”普及受众最看重“动手”参观大师工作室非常享受

过去一段时间,国家级非遗项目灰塑传承人邵成村,多次在陈家祠等工作现场,向身边那些带着好奇目光的人们讲解灰塑的种种技术细节:草根灰、

璧山冷酒夜市 丰富市民夜间文旅活动

7月13日,位于璧山区南门唐城夜市街区的璧山冷酒夜市开街。这是璧山区打造夜间经济消费载体、培育夜间经济活动品牌的举措之一。璧山市民一

年内两市超过500家上市公司完成回购 累计回购金额超332亿元

近期A股市场持续震荡,不少上市公司或其重要股东推出回购、增持计划,用真金白银力挺股价。记者根据同花顺数据统计,今年以来,两市超过500

持续发力补链强链加大研发抢占市场 渝企跑出“加速度”

玥湖路渝快电充换电站 一辆新能源汽车,离不开研发、动力、配套等多个环节。作为汽车制造重镇,重庆在这些环节的多个板块上,正在加速奔跑

重启上市公司资本运作 康佳集团去年半导体业务营业收入为3.22亿元

近日,康佳集团正式对外发布2021年年度业绩报告。2021年,康佳集团实现全年营收491 07亿元,归属于母公司的净利润为9 05亿元,同比增长89 5

伟禄集团连续6年增长 去年营收同比增长37.5%

深港通标的之一的深圳企业伟禄集团近日公布2021年业绩。财报数据显示,伟禄集团全年营业收入11 95亿港元,同比增长37 5%,连续6年稳步增长;

龙头企业去年净利倍增 整个行业营收规模有望创造历史新高位

近日,面板龙头TCL科技、京东方分别发布2021年度业绩快报,两家企业去年归属于上市公司股东的净利润分别增长129 3%、412 86%,实现超过百亿

深圳国企全力为市民 守好“菜篮子”“米袋子”保障量足价稳

疫情防控形势下,民生物资供应是否充足成为市民最为关注的问题之一。连日来,深农集团、深粮控股等企业,充分发挥国企担当,全力为深圳市民