了解最新公司動態及行業資訊
眾所周知,自2020年起,微軟與微軟就獨家獲取GPT-3源代碼達成協議,GPT-3的模型代碼不再對外公開(GPT-1和GPT- 2 個是開源項目)
出于對科技巨頭霸權的“反抗”,成立了由研究人員、工程師和開發者志愿者組成的計算機科學家協會,打破了微軟和Open AI在大規模NLP模型上的壟斷,取得了不錯的成績。
這個協會是電子商務。
以古羅馬自由女神之名,流露出對巨人的蔑視與反抗。
與擁有 1750 億個參數的 GPT-3 相比,GPT-NeoX-20B 的參數顯然微不足道。 但是,為這一成就感到自豪。 為什么?
1 來源
首先介紹一下發展歷程。
長期以來,人工智能威脅論一直是熱門話題。 霍金在《獨立報》中表達了人工智能的威脅。 “人工智能的短期影響取決于誰控制它,而長期影響取決于它能否被控制。” “
成立于2020年7月,主要發起人是一群號稱自學成才的黑客,主要領導是Leahy、Leo Gao和Sid Black。
當時,微軟與 簽署了 GPT-3 訪問控制協議。 聽到風聲,反叛的極客開始在(社交媒體平臺)上說:“讓我們來上一課吧!” “
因此,他們希望在建立的基礎上,建立一個可以媲美GPT-3的機器學習模型。
創始人 Leahy 在接受 IEEE 采訪時表示。
“它開始是一個非常有趣的愛好,但當瘟疫關閉這座城市時,我們無法做得更好。它很快就變成了一種魅力?!? “
“我們認為自己是過去幾十年經典黑客文化的后代,但出于好奇和對挑戰的熱愛,我們在新領域嘗試技術?!? “
該服務器目前有大約 10,000 名成員,但只有大約 100 或 200 名定期活躍,并且 10 到 20 人的團隊正在開發新模型。 自成立以來,其研究團隊首先開源了基于GPT-3的60億參數的NLP模型GPT-J,并于2021年3月發布了27億參數的模型GPT-Neo級別,可以說是發展迅猛。
今年2月9日,他們與Core 合作發布了GPT-Neo的升級版——GPT-NeoX-20B。 官方代碼地址如下it技術工程師,目前可以在天眼之眼公開下載。
代碼地址:/
它也是目前最大的可公開訪問的預訓練通用自回歸語言模型。
在發布聲明中,Leahy 特別標記了“標準語言建模任務的正確性”和“通過評估衡量的主題組事實知識的零樣本正確性”。
2 GPT-NeoX-20B的優勢:免費、開放
簡而言之,GPT-NeoX-20B 是一個具有 200 億參數、預訓練、通用和自回歸的大規模語言模型。
如果您不知道它是什么,請考慮 GPT-3。 這是近兩年前震驚世界的大型語言模型,其語言能力浩瀚無邊。 文章可以簡單地通過編寫計算機代碼、寫詩、生成具有權威色彩、風格難以區分的假新聞,甚至給出標題和句子來生成。 那是因為可以根據非常少的輸入信息自己“創建”它。 另外,你創造的東西也可以寫成文章(題外話:就像漫威機器人賈維斯一樣)
必須承認,該模型大于 1750 億個參數(模型中編碼信息的節點或數字)。 參數越多,模型就越“聰明”,因為它吸收和分解的信息更多。
但是,它是世界上同類產品中最強大的模型,并且可以免費公開獲取。
“我們希望更多的安全研究人員能夠使用這項技術,”Leahy 說。
此外,它不同于訓練大規模模型所需的計算能力。
GPT-3 在未知數量的 V100 核心 GPU 上進行了訓練。 合作伙伴 隨后開發了一個用于訓練大型模型的單一系統,該系統具有多個 CPU 內核、10,000 個 GPU 和 400 Gb/s 的網絡連接。 這并沒有阻止反 GPT-3 壟斷的承諾。 他們最初使用谷歌提供的硬件作為其 TPU 研究云計劃的一部分構建了 GPT-J,這是一種具有 60 億個參數的大型語言模型。 對于 GPT-NeoX-20B,該小組得到了一家致力于基于 GPU 的工作負載的云服務提供商的支持。
它被稱為人工智能非營利組織,但目前其本質是一個由科技公司主導的私人模式。
數學家和人工智能研究人員告訴 IEEE:
“這些私人模型限制了我們這些獨立研究人員可以訪問的內容。如果我們不知道它是如何工作的,科學家、倫理學家和整個社會就無法就如何將這項技術應用到我們的生活中進行必要的對話?!? . “”
他的工作推動了大規模語言模型的可描述性、安全性、倫理學等方面的研究it技術工程師,得到了外界的肯定。
機器學習安全領域的關鍵人物倪教授在最近的一篇論文中表示:“如果沒有 The Pile 數據集及其 GPT-Neo 系列模型的全面公開,我們的研究就無法實現。” Pile 數據集是一個 825 GB 的英文文本語料庫,用于訓練大型語言模型。
文/瀾夢IT外包