Llama 2 性能究竟如何?
在展示评测结果之前,我们先来梳理一下 Llama 2 的基本信息:
-
包含 70 亿、130 亿和 700 亿三种
参数
变体,此外还训练了 340 亿
参数
变体,但并没有发布,只在技术报告中提到了。
-
在 2 万亿的 token 上进行训练,相比于 Llama 1,训练数据多了 40%,精调 Chat 模型是在 100 万人类标记数据上训练的。
-
支持的上下文 token 长度翻倍,由原来的 2048 升级到 4096。
-
免费可商用,但日活大于 7 亿的产品需要单独申请商用权限。
-
Llama 2 70B 在 MMLU 和 GSM8K 上得分接近 GPT-3.5,但在编码
基准
上存在显著差距。
-
在几乎所有
基准
上,Llama 2 70B 的结果均与谷歌 PaLM (540B) 持平或表现更好,不过与 GPT-4 和 PaLM-2-L 的性能仍存在较大差距。
参数
量最大的 Llama 2 70B,性能目前也没有超过 GPT-3.5,距离 GPT-4 差距更大。
人工智能
,无法在现实中执行任务,但我可以为你提供你需要的信息或帮助……」。从语言上来看,Llama 2 支持中文输入,但回答基本都用英文,中文理解、生成能力有限。
-
Llama-2 表现出更强的指令遵循能力,但在信息提取、编码和数学方面仍明显落后于 GPT-3.5/Claude;
-
对于安全性的过度敏感可能导致对用户
查询
的错误解读;
-
在聊天性能上与基于 Llama-1 的领先模型(如 Vicuna、WizardLM)相当;
-
非英语语言技能有限。
哪些设备能在本地跑这些模型?
由于 Llama 2 开源了不同大小的版本,这些模型在本地部署方面非常灵活。如果你不想把自己的数据传上网,那么本地部署就是最好的选择。这一想法可以通过
陈天奇
等人打造的 MLC-LLM 项目来实现:
语言模型
」,包括移动端、消费级电脑端和 Web 浏览器。它支持的平台包括:
陈天奇
等项目成员表示,MLC-LLM 现在支持在本地部署 Llama-2-70B-chat(需要一个带有 50GB VRAM 的 Apple Silicon Mac 来运行)。在 M2 Ultra 上,解码速度可以达到~10.0token / 秒。
陈天奇
等人发布的「MLC Chat」APP(苹果应用商店可以搜到),我们还可以尝试在手机、iPad 上使用 Llama 2(无需联网)。
Llama 2 将带来哪些影响?
-
Llama-2 的训练成本可能超过 2000 万美元。之前,一些大公司的
人工智能
研究人员因为商业许可问题对 Llama-1 持谨慎态度,但 Llama-2 的商业限制大大松绑,未来很多人可能会加入 Llama 阵营,并贡献他们的实力。
-
虽然 Llama-2 目前还没有达到 GPT-3.5 的水平,在编程等问题上存在明显短板,但由于它的
权重
是开放的,这些问题早晚会得到改进;
-
Llama-2 将极大地推动多模态
人工智能
和
机器人技术
的研究。这些领域需要的不仅仅是对 API 的黑盒访问。目前,我们必须将复杂的感官信号(视频、音频、3D
感知
)转换为文本描述,然后再输入到 LLM(语言与视觉融合模型)中,这样做非常笨拙,导致信息损失非常严重。直接将
感知
模块嫁接到强大的 LLM 骨干上将更加高效。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...