大模型存在数据库吗(大模型数据短缺解决方案)
本报记者 秦枭 北京报道
众所周知,在大模型的发展之路上,芯片和电力供应是两大难点。如今,训练数据也面临枯竭,给大模型的发展再添一层阴霾。
据外媒近日报道,OpenAI为了让GPT4变得更加聪明,使用旗下语音转文字模型Whisper,在YouTube上搜寻了超过100万小时的资料,作为投喂GPT4的训练“大餐”。同时,谷歌也被曝出使用YouTube视频来训练自家的人工智能模型。然而,这两家公司的行为似乎并未得到所有创作者的授权。
《中国经营报》记者在采访中了解到,数据是训练模型的基础,而高质量的数据更是至关重要。一些公司可能会采取各种策略来获取数据,其中可能包括从公开的网络资源中爬取和转录数据。
遭遇“数据荒”
数据、算力、算法,是决定机器学习模型性能的三大要素。而数据短缺,正在成为制约大模型发展的瓶颈。大模型犹如“饕餮”,正在急速地吞噬数据,尤其是高质量数据大模型存在数据库吗,而且,随着算法模型的不断迭代升级,对数据量的需求将进一步扩大。
谷歌的BERT模型是在涵盖33亿个单词的英语维基百科和BookCorpus数据集上进行了系统的训练,而微软的Turing-NLG模型则是在超过170亿个英语词组的数据集上进行了广泛的训练。此前,OpenAI招聘了多位博士来处理各行业的专业数据,并找到多家数据标注公司,给GPT-3进行大规模的数据集投喂。
根据Epoch研究所的分析,到2026年,科技公司很可能会耗尽互联网上所有的高质量数据,因为他们消耗数据的速度,远远超过了数据的生成速度。去年5月,OpenAI首席执行官山姆·奥特曼在一次技术会议上发表演讲时说,人工智能公司将耗尽互联网上所有可用的数据。
“Epoch研究所的分析指出了一个重要问题,即数据的可持续性。”深度研究院院长张孝荣指出,“随着人工智能技术的快速发展,对高质量数据的需求日益增长,而数据的生成和积累可能跟不上消耗的速度。这一趋势可能导致未来数据资源的枯竭,从而限制AI模型的发展。为了应对这一挑战,行业需要探索新的数据生成和收集方法,同时加强数据的循环利用和效率提升,以确保数据资源的长期可用性。”
在北京社科院副研究员王鹏看来,虽然这个观点有其合理性,但也不是绝对的。他表示,随着AI模型的不断增大和复杂性的增加,对数据量的需求也在激增。互联网上的高质量数据是有限的,而且很多数据由于隐私、版权等问题并不能被随意使用。因此,如果科技公司继续以当前的速度消耗数据,确实有可能面临数据枯竭的问题。不过,这个预测也取决于多种因素,如数据生成和共享的新模式、技术进步带来的数据利用效率提升等。
“窃取他人数据”
为了应对即将到来的“数据荒”,科技巨头们纷纷竭尽所能寻觅优质训练数据,以期滋养并锤炼自家的大模型,甚至不惜游走在法律的边缘。
据《纽约时报》报道,为了训练GPT4,OpenAI使用其旗下语音转文字模型Whisper挖掘了超100万小时的YouTube数据作为其训练模型,而这种行为似乎并未得到所有创作者的授权。
实际上,这已不是OpenAI第一次因为数据获取而惹上麻烦。此前大模型存在数据库吗,包括《冰与火之歌》作者乔治·马丁在内的18位作家,一起将Open AI告上了法庭,控诉其侵权行为;《纽约时报》也站出来,指责Open AI和微软非法使用其内容。不只是OpenAI,美国多家业内头部企业因人工智能训练数据来源而陷入侵权纠纷,甚至吃到官司。去年4月份,特斯拉CEO马斯克指控微软公司非法使用推特的数据来训练其人工智能模型,并警告将起诉这家软件巨头。马斯克说:“他们非法训练使用推特数据。诉讼时间到了。”
今年3月初,3位作家联手将英伟达诉至法庭,指责后者的NeMo AI平台用盗版文学网站素材来训练AI自然语言撰写技能。人工智能绘画软件Midjourney和Stability AI也被指在未经许可就使用其版权作品来训练AI绘图工具。
文章评论(0)