嘿嘿无码在线中文字幕-69精品人妻一区二区三区蜜桃-免费无码国产在线97-亚洲系列无码专区偷窥无码

行業門戶
NEWS CENTRE
首頁
>
新聞中心
>
AI世界的新難題:互聯網的信息不夠用了!
AI世界的新難題:互聯網的信息不夠用了!
2024-04-02 閱讀:207

來源:硬AI

高質量數據的緊缺正成為AI發展的重要障礙。

4月1日,據媒體報道,隨著OpenAI、Google等企業不斷深入發展AI技術,科技巨頭們遇到了一個新問題:現有的互聯網信息量可能不足以支撐他們訓練更先進的AI系統。

科技巨頭的AI系統,比如能與人類聊天的ChatGPT,是通過學習網上的信息變得越來越聰明的。但現在,高質量、有用的信息日益緊缺,同時,一些網站開始限制AI公司訪問他們的數據。據業界一些高管和研究人員表示,AI行業對高質量文本數據的需求可能在兩年內超過供應這將可能減緩AI技術的發展速度。

面對信息不足的問題,AI公司正在嘗試各種方法來尋找新的信息源。比如OpenAI正在考慮用YouTube視頻里的對話來訓練它們的下一代智能模型GPT-5。有的公司甚至創造合成數據來學習,盡管這種方法被許多研究人員認為可能會導致系統發生嚴重故障,但不失為克服數據短缺的一種潛在途徑。

據悉,這些努力大多保密進行,因為找到有效的解決方案可能成為企業在激烈競爭中的關鍵優勢。隨著數據需求不斷增長,找到新的學習材料、與數據所有者的合作,讓AI系統變得更加聰明,就成了這個行業的重要備戰區。

OpenAI的GPT-5面臨10萬億到20萬億tokens的數據短缺

AI語言模型的構建依賴于從互聯網上收集的大量文本數據,這些數據包括科學研究、新聞文章、維基百科條目等。這些材料被分解成“tokens”,tokens可以是完整的單詞或單詞的一部分。AI模型通過分析和理解這些tokens之間的關系和模式,學會了如何生成流暢、自然的語言,從而能夠回答問題、撰寫文章甚至創作詩歌。

模型的能力在很大程度上取決于它訓練的數據量。通常情況下,數據越多,模型的性能就越好,因為它有更多的例子來學習不同的語言用法和復雜性。

OpenAI通過為其GPT系列模型提供海量訓練數據,不斷提升性能,借此成為世界頂尖AI公司。這展示了大數據訓練對于AI發展的重要性。

但是,隨著GPT-4模型的不斷擴大,OpenAI對數據的需求也在急劇增長。Epoch研究所的AI研究員Pablo Villalobos估計,GPT-4訓練涉及的數據量高達12萬億tokens,而未來模型,如GPT-5,可能需要60萬億到100萬億tokens。因此,即便是利用所有可用的高質量語言和圖像數據,研發GPT-5仍可能面臨10萬億到20萬億tokens的數據短缺。至于如何彌補這一巨大的數據缺口,目前尚無明確方案。

據媒體報道,為應對數據短缺挑戰,AI公司正在嘗試各種方法來尋找新的信息源。Meta創始人扎克伯格近期強調,公司通過Facebook和Instagram等平臺擁有的大量數據,為其AI研發提供了重要優勢。扎克伯格表示,Meta能夠利用網絡上數以百億計的公開共享圖片和視頻,這些數據的規模超過了大多數常用數據集,盡管其中高質量數據的比例尚不明確。

而OpenAI則考慮使用其自動語音識別工具Whisper轉錄的高質量視頻和音頻示例。此外,OpenAI還在考慮建立一個數據市場,以評估每個數據點對模型訓練的貢獻并據此向內容提供者支付費用,這一創新想法也引起了Google的關注。

Epoch研究所預測AI數據短缺危機將推遲至2028年

兩年前,Villalobos和他的同事寫道,到2024年年中,對高質量數據的需求超過供給的可能性為50%,到2026年發生這種情況的可能性為90%。自那以后,他們變得更加樂觀,在AI研究員Pablo Villalobos及其團隊的審慎評估下,新的預期顯示,這種短缺風險將延遲至2028年。

這項樂觀的更新基于對當前數據質量和可用性的深刻洞察。Villalobos指出,互聯網上的絕大多數數據并不適合作為AI訓練材料。在無盡的信息流中,只有一小部分數據(遠低于先前預計)能對AI模型的增長和發展做出實質性貢獻。

同時,各大社交媒體平臺和新聞出版商已開始限制其數據被用于AI訓練。他們擔心如果數據被自由用于AI訓練,可能導致內容創造者和平臺本身失去應得的經濟回報。

此外,普羅大眾對于個人隱私的保護意識顯著提升,許多人對于將私人對話如iMessage中的聊天記錄提供給AI訓練的意愿較低,人們可能擔心他們的隱私可能會受到侵犯。

最近,一位女記者就OpenAI最新模型Sora的訓練數據向CTO Murati提問時,Murati未能明確回答,這引發了業界對OpenAI管理層對于訓練數據來源的關注度的質疑。這一事件觸發了更廣泛的討論,關于公共領域數據的所有權問題——我們在網絡上發布的內容,究竟是屬于個人私密還是公共共享的資產?

因此,這些因素共同導致了數據獲取的困境。隨著用戶和監管機構對數據使用的監控趨嚴,研究者們必須在保護隱私與數據采集之間找到新的均衡。

13560189272
地址:廣州市天河區黃埔大道西201號金澤大廈808室
COPYRIFHT ? 2010-2020 廣州市名聯網絡科技有限公司 ALL RIGHTS RESERVED 粵ICP備10203057號
  • 這里是二維碼
浠水县| 军事| 泰顺县| 富源县| 宿迁市| 平远县| 甘德县| 华池县| 独山县| 盐津县| 高密市| 古田县| 北宁市| 嘉义县| 新兴县| 凤阳县| 祁连县| 衡阳市| 三都| 隆安县| 乌拉特中旗| 保亭| 澎湖县| 太仓市| 普安县| 松桃| 黎城县| 嘉善县| 龙岩市| 天峨县| 南部县| 定结县| 高陵县| 思茅市| 百色市| 涪陵区| 南安市| 米泉市| 璧山县| 鄂托克旗| 宜川县|