淫咪咪

发布日期:2024-08-29 18:25    点击次数:83

自拍偷拍 在线视频 GPU推理时期闭幕?寰宇最大芯片加合手推理狂飙20倍

自拍偷拍 在线视频

LLM若想高速推理,现如今,连GPU都无法得志了?

曾造出寰宇最大芯片公司Cerebras,刚刚发布了公共最快的AI推理架构——Cerebras Inference。

运转Llama3.1 8B时,它能以1800 token/s的速率吐出翰墨。

不管是转头文档,也曾代码生成等任务,反应险些一闪而过,快到让你不敢折服我方的眼睛。

如下图右所示,以往,微调版Llama3.1 8B推理速率为90 token/s,了了可见每行翰墨。

而咫尺,径直从90 token/s跃升到1800 token/s,相当于从拨号上网迈入了带宽时期。

左边Cerebras Inference下模子的推理速率,只可用「短暂」、「荒诞」两字形容。

大开新闻客户端 援手3倍畅达度

这是什么倡导?

比起英伟达GPU,Cerebras Inference的推理速率快20倍,还要比专用Groq芯片还要快2.4倍。

另外,关于70B参数的Llama3.1,可达到450 token/s实时反应。

值得一提的是,Cerebras并莫得因为提高LLM的速率,而弃世其精度。

测试中,使用的Llama3.1模子皆是摄取了Meta原始16位权重,以便确保反应高精度。

最关键的是,价钱还实惠。

笔据官方API订价,Llama 3.1 8B每百万token仅需10好意思分,Llama 3 70B每百万token仅需60好意思分。

如斯之高的性价比,更是冲破了业界记载——

不仅远超之前的保合手者Groq,况且和其他平台比拟,以至是隔「坐标轴」相望了。

Artificial Analysis

恰是因为Cerebras Inference背后,是由自研的第三代芯片Wafer Scale Engine助力,才得以1/5价钱快速推理Llama3.1。

看到自家模子推理如斯神速,LeCun、Pytorch之父纷纷入手转发起来。

还有网友看后示意,我想要!

1

推理很慢,英伟达GPU也不顶用?

为什么LLM的反应,就像拨号上网加载网页一样,一个字一个字冉冉地吐出?

关键原因地方,大模子自己的限定特点,以及需要大都的GPU内存和带宽。

由于GPU的内存带宽约束,如今推理速率为每秒几十个token,而不是数千个。

更进一步说,大模子每个生成的单词,都必须通过悉数这个词模子进行处理,即悉数参数必须从内存插足到筹画中。

而每生成一个单词,就需要一次处理,以此周而复始。

也即是,生成100个单词需要100次处理,因为「下一词」的瞻望,皆需要依赖前一个单词,况且这个过程无法并行。

那么,想要每秒生成100个单词,就需要悉数模子参数,每秒插足筹画100次。

由此,这对GPU内存带宽提议了高条款。

以社区流行的Llama3.1-70B模子为例。

模子有700亿参数,每个参数是16位,需要2字节的存储,那悉数这个词模子便需要140GB的内存。

想要模子输出一个token,那700亿参数必须从内存,出动到筹画中枢,以实施前向推理筹画。

由于GPU唯有约200MB的片上内存,模子无法存储在芯片。

因此,每次生成的token输出时,需将悉数这个词占用140GB内存的模子,竣工传输到筹画中。

再细算下来,为了终了10 token/s,则需要10*140=1.4 TB/s的内存带宽。

那么,一个H100有3.3 TB/s的内存带宽,足以支持这种逍遥的推理。

而若要终了即时推理,需要达到1000 token/s或140 TB/s,这远远卓越任何GPU工作器/系统内存带宽。

或者,你猜想了一种「暴力」科罚决策,将多个GPU串联搭建DGX系统。

这皆备是大错特错,更多的处理器只会加多系统的费解量(给出更长反应),并不会加快单个查询的反适时分。

1

自研寰宇最大芯片,冲破推理想象

那么,Cerebras若何冲破这一困局呢?

一直以来,这家公司就竭力于于打造寰宇上最大芯片,但愿将悉数这个词模子存储在一个晶片上,以此来科罚内存带宽瓶颈。

凭借独到的晶圆想象,WSE-3单个芯片上便集成了44GB SRAM,具备21 PB/s的内存带宽。

单个芯片领有如斯大内存,便摒除了对外部内存的需求,以及将外部内存皆集到筹画的慢速通说念。

总的来说,WSE-3的总内存带宽为21PB/s,是H100的7000倍。

它是唯独一款同期具有PB级筹画和PB级内存带宽的AI芯片,使其成为高速推理的近乎理想想象。

Cerebras推理不仅速率超快,况且费解量重大。

与微型AI芯片比拟,芯片上内存多了约200倍,支持从1-100的批大小,使其在大范畴部署时,具有极高的资本效益。

恰是有了如斯苍劲的芯片,Cerebras Inference的快速推理得以终了。

它的出现,是为了终了数十亿到万亿参数模子的推理。

如若模子参数卓越单个晶圆的内存容量时,征询东说念主员将在「层鸿沟」将其拆分,并映射到多个CS-3系统上。

20B模子相宜单个CS-3,而70B模子则至少需要4个这么的系统。

官方示意,改日几周,将会测试更大参数版块的模子,比如Llama3-405B、Mistral Large。

1

16位精度,不作念弃取

推理速率高,并非在模子权重上,作念了弃取。

业界中,一些公司试图将模子权重精度,从16位减少到8位,来克服内存带宽的瓶颈。

这么武艺,通常会形成模子精度弃世,也即是反应恶果的准确性、可靠性不如昔日。

Cerebras Inference之是以强就强在了,速率和原始权重,皆要顾及。

正如开篇所述,他们摄取了原始16位权重运转了Llama3.1 8B和70B。

通过评估,16位模子准确率比8位模子,跨越多达5%。尤其是在,多轮对话、数学和推理任务中阐扬更好。

1

最优性价比,百万token免费送

咫尺,Cerebras Inference可通过聊天平台,以及API探望,任何一个东说念主可随时体验。

体验传送门:https://cerebras.ai/blog/introducing-cerebras-inference-ai-at-instant-speed

基于郑重的OpenAI Chat Completions体式,诞生者只需更换API密钥即可集成苍劲的推理功能。

Cerebras Inference API提供最好的性能、速率、精度和资本组合。

它是唯独能即时运转Llama3.1-70B的决策,可终了450 token/s,相同使用的是原始16位模子权重。

在此,Cerebras奉上大福利,每天为诞生者们提供100万个免费token。关于大范畴部署,其订价仅仅H100云的一小部分。

初次推出时,Cerebras提供了Llama3.1 8B和70B模子,况且有本领每天为诞生者和企业,提供数千亿token。

接下来几周,他们将加多对更大模子的支持,如Llama3 405B、Mistral Large 2。

有诞生者问说念,你们提供的rpm(每分钟央求次数)和tpm(每分钟处理token数)是若干?

Cerebras提供了一张针对Llama 3.1 8B和70B模子竣工的央求/token处理数的图。

1

快速推理,不单为速率

临了,让咱们来聊聊,为什么快速推理格外进犯?

通常,LLM会即刻输出我方的一皆宗旨,而不推敲最好谜底。而诸如scaffolding(脚手架)这类的新时间,则如归并个三念念尔后行的智能体,会在作出决定前探索不同的可能科罚决策。

这种「先念念考后发言」的表情在代码生成等严苛任务中,不错带来卓越10倍的性能援手,从根底上援手了AI模子的智能,且无需寥落训练。

但这些时间在运转时,需要多达100倍的token。

因此可见,如若咱们能大幅裁汰处理时分,那么就不错终了更为复杂的AI责任经由,进而实时增强LLM的智能。

1

速率爆表,但落魄文唯有8K

天然在价钱和蔓延上,Cerebras都不是最低的。

但极致的速率,照实为Cerebras带来了极致的速率-价钱和速率-蔓延比。

不外,值得防备的是,在Cerebras上跑的Llama 3.1,落魄文唯有8k……

比拟之下,其他平台都是128K。

具体数据如下:

Llama 3.1 70B

Llama 3.1 8B

暴力强奸






Powered by 淫咪咪 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024 版权所有