Llama3驚豔登場！性能直逼GPT-4，最大模型參數將超 4000 億

北京時間 4 月 19 日，Meta 重磅發布發布了其最先進开源大型語言模型的下一代產品——Llama 3，一夜間重新坐穩王者之位。

據悉，Llama 3 在 24K GPU 集群上訓練，使用了 15T 的數據，提供了 80 億和 700 億的預訓練和指令微調版本。

Meta 在官方博客中表示，“得益於預訓練和後訓練的改進，我們的預訓練和指令微調模型是目前 80 億和 700 億參數尺度下最好的模型。”

在Llama 3發布後，扎克伯格向外媒表示，“我們的目標不是與开源模型競爭，而是要超過所有人，打造最領先的人工智能。”

最強开源大模型，直逼 GPT-4

Meta 本次开源了 8B 和 70B 兩款不同規模的模型。

Llama 3 8B：基本上與最大的 Llama 2 70B 一樣強大。

Llama 3 70B: 第一檔 AI 模型，媲美 Gemini 1.5 Pro、全面超越 Claude 大杯。

在MMLU、HumanEval和GSM-8K上，Llama 3 70B擊敗了Gemini 1.5 Pro。盡管無法與Anthropic性能最強的模型 Claude 3 Opus媲美，但 Llama 3 70B的性能，已經優於Claude 3系列的中杯模型Sonnet。

具體來說，Llama 3的亮點和特性概括如下：

基於超過15T token訓練，大小相當於Llama 2數據集的7倍還多；

訓練效率比Llama 2高3倍；

支持8K長文本，改進的tokenizer具有128K token的詞匯量，可實現更好的性能；

在大量重要基准測試中均具有最先進性能；

增強的推理和代碼能力；

此次的大模型通過後期訓練程序上的改進很大程度上降低了 Llama 3 的錯誤拒絕率，提高了對齊度，並增加了模型響應的多樣性。Meta 研發團隊還發現，推理、代碼生成和指令跟隨等能力也有了很大提高，這使得 Llama 3 的可操控性更強。

與前代 Llama 2 模型相比，Llama 3 可謂是邁上了一個新的台階。

80 億參數模型與 Gemma 7B 和 Mistral 7B Instruct 等模型相比在 MMLU、GPQA、HumanEval 等多項基准上均有更好表現。而 700 億參數模型則超越了閉源超級明星大模型 Claude 3 Sonnet，且與谷歌的 Gemini Pro 1.5 在性能上不相上下。

據Meta介紹，Llama 3將被整合到其虛擬助手Meta AI中，這是免費使用的同類產品中最先進的AI應用程序。Meta AI助手已經在Facebook、Instagram、WhatsApp和Messenger等應用中上线，隨後也將迎來更新。

Meta首席產品官Chris Cox在接受採訪時說，這家社交媒體巨頭爲Llama 3配備了新的計算機編碼能力，這次除了可以輸入文本外，還可以輸入了圖像，不過目前該模型只能輸出文本內容。因此，Llama 3目前還不是多模態大模型。

但他補充說，更高級的推理能力，比如制定更長的多步驟計劃的能力，將在隨後的版本中出現。並計劃在未來幾個月發布多模態版本，這意味着它們可以同時生成文本和圖像。

值得注意是，以上還只是 Meta 的开胃小菜，真正的大餐還在後頭。在未來幾個月，Meta 將陸續推出一系列具備多模態、多語言對話、更長上下文窗口等能力的新模型。其中，超 400B 的重量級選手更是有望與 Claude 3 超大杯“掰手腕”。

Llama 3 的到來，也在社交平台 X 上掀起一股新的討論風暴。

Meta AI 首席科學家、圖靈獎得主 Yann LeCun 不僅爲 Llama 3 的發布搖旗吶喊，並再次預告未來幾個月將推出更多版本。

就連馬斯克也現身於該評論區，用一句簡潔而含蓄的「Not bad 不錯」，表達了對 Llama 3 的認可和期待。

英偉達高級科學家Jim Fan認爲之後可能會發布的Llama 3-400B以上的版本其將成爲某種“分水嶺”，开源社區將能用上GPT-4級別的模型。他做了一個對比圖，可以看到，Llama 3 400B已經在多語言推理任務、代碼能力，可與GPT-4、Claude 3相匹敵。更亮眼的是，它在所有能力上，均打敗了Gemini Ultra 1.0。