让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

“将 Key 跟 Value Cache 按照不同的措施压缩,不错让模子不掉点。”

作家丨张进

裁剪丨林觉民

面前,不同大模子厂商发布的大言语模子在处理超长险峻文方面仍是有显耀冲突,最高的已能支捏数百万 Token 的输入,例如 MiniMax-M1、Qwen2.5-1M 系列模子,均支捏百万Token(1M)级别的超长险峻文处理才能。

关联词这场相关进步大模子险峻文长度的“武备赛”依然不会罢手,这是一项庞杂的工程与服从之战。因为超长下文为模子智能提供了最广宽的阐明空间——在处理如金融、法律、医疗等鸿沟的长语境任务时进展更好。是以谁能领先冲突更长险峻文处理才能,便有契机创造出更大的交易与时期价值。

胡侠团队便针对这一研究疏远了一项最新征询有研究——“通过有损计较(Lossy Computation)来提无际言语模子的推理服从”。这项征询的基本念念路是,应用大言语模子对来自低精度计较等“有损”操作产生的噪声具有极强鲁棒性这一特色,主动引入可控的、不挫伤性能的信息失掉,以换取显耀的服从进步。

大模子中的“有损计较”是通过有弃取地遗弃一部分精度来大幅镌汰计较或者存储资本,从而进步推理服从,主要围绕模子参数目化、KV Cache 压缩、模子剪枝与学问蒸馏等中枢旅途伸开。

胡侠认为,大言语模子虽已完结类东说念主对话才能,但在处理医疗鸿沟长篇文件信息索要等长语境任务时,靠近着“预闇练长度罢了”与“推理内存需求激增”的双重挑战。

针对这两项挑战,团队疏远的“通过有损计较(Lossy Computation)来提无际言语模子的推理服从”有研究,完结了两项要道时期冲突:一是在算法层面,通过粗化远距离秀气的位置信息,得胜将大言语模子的语境长度彭胀至原有水平的 8 倍;二是在系统层面,将过往秀气的中间景象(KV Cache)量化为 2 比特数字,完结了 8 倍内存服从的进步和 3.5 倍时钟时期加快的紧要进展。

胡侠是东说念主工智能鸿沟的海外有名学者,始终从事数据挖掘、机器学习和东说念主工智能征询,面前是上海东说念主工智能实验室主任助理、领军科学家,曾担任好意思国莱斯大学正教训、数据科学中心主任,亦是AIPOW公司讨好创举东说念主兼首席科学家。其主导配置的开源系统 AutoKeras 成为最常用的自动机器学习框架之一(超越 8000 次 star 及 1000 次 fork),配置的 NCF 算法及系统(单篇论文被援用超 8000 余次)成为主流东说念主工智能框架 TensorFlow 的官方推选系统,主导配置的特殊检测系统在通用、Trane、苹果等公司的居品中得回闲居应用。

胡侠

对于这两项要道时期的关联细节以及应用出路,近日咱们跟胡侠教训聊了聊,以下内容经过不蜕变答允的裁剪、整理:

01

从歪邪的险峻文位置信息以及

歪邪的 KV Cache 两点脱手作念“有损计较”

雷峰网:请您先粗浅先容下\"通过有损计较完结高效大言语模子推理\"的具体念念路?

胡侠:咱们凭据大言语模子对来自低精度计较等\"有损操作\"产生的噪声具有极强鲁棒性这一特色,主动引入可控的、不挫伤性能的信息失掉,能够极高地提供推理服从,骨子上是用精度换取服从的念念路。

咱们的\"有损计较\"主要实践样式是两种,一是在算法层面,不要用险峻文精确的相对距离来进行计较,而是通过粗化远距离秀气的位置信息,得胜将大言语模子的语境长度彭胀至蓝本水平的 8 倍;二是在系统层面,将昔日令牌的中间景象(KV Cache)作念相应的量化,量化为 2 比特数字,不错完结 8 倍内存服从进步和 3.5 倍骨子速率加快,且不影响模子性能。

雷峰网:“有损计较”的灵感是否部分源于对大模子本人手脚一种“有损宇宙压缩器”的表面默契?

胡侠:统共有研究的灵感起首于深度学习,深度学习中有两个进军的发现。一个是模子的参数目骨子上比模子的精度更进军,咱们作念了好多实验,其中一堆实验皆标明相对大的模子比相对精确的模子,它的推理无论是服从如故准确度来讲皆更好。

第二个进军发现是在深度模子中,当咱们把好多参数删掉以后,模子的准确率失掉相称小。

于是咱们就预见了怎样从歪邪的险峻文信息以及歪邪的 KV Cache 这两点脱手作念有损计较。具体举个例子,比如咱们念书时,当咱们试图记挂险峻文,比如想知说念上一章出现了一个什么故事,但咱们不需要知说念这个故事发生在第 265 个字之前如故第 257 个字之前,我只需要知说念巧合两三百个字之前出现了这样一个故事就行了。

雷峰网:您的\"有损计较\"有研究主要通过两种有研究,其中通过粗化位置信息来彭胀险峻文,这种粗化战术是静态,如故凭据文本内容动态颐养的?

胡侠:皆不是,它骨子上是凭据其时险峻文的需要进行动态颐养的。

雷峰网:第二种措施是将 KV Cache 压缩到 2 比特,这是一项相称激进的优化,在这个进程中您以及您团队碰到最大的挑战是什么?

胡侠:统共征询最大的挑战即是压缩到 2 比特以后,在这种低精度示意的情况下是否还能够让模子保捏相应的准确率,是以必须通过大皆实验来料理。

天然咱们在实验环境下压缩到 2 比特是可行的,但在实践应用中很少有东说念主这样作念,工业界主流的优化技巧例如 DeepSeek 是压缩到 8 比特,在骨子应用中压缩到 4 比特仍是相称激进了,2 比特当今更多如故一个实验室的罢了。

压缩能够提高模子的职责服从,这仍是造成了闲居共鸣,压缩措施是最大的挑战,是以咱们的职责最大的孝敬即是对 Key Cache 和 Value Cache 的压缩样式是不一样的。

雷峰网:压缩 KV Cache 后,能完结什么价值?

胡侠:KV Cache 是大模子闇练和推理中最进军的一个中间存储景象,KV Cache 平直跟 GPU 的内存关联,例如A100 80GB,其中的 80GB 即是它的内存,而 80GB 当中可能有 90% 以上的用途皆是用来存 KV Cache,它是计较中一个最进军的中间存储计较器用。

如果从 16 比特压到 2 比特,就稀罕于压缩了近 10 倍,就稀罕于能够让 80GB A100 的 GPU 加多了 10 倍的存储量,这就相称有价值了,因为一块普通的 GPU 即是两三万好意思金,如果能加多 10 倍存储量的话,粗算下来稀罕于把 2 万好意思金的 GPU 平直升值到 20 万好意思金。

雷峰网:这两个措施主要在哪些模子上实验过?

胡侠:咱们主要的罢了是在 llama 上作念的。两篇著述皆是 2024 年发的。

雷峰网:您团队配置的 AutoKeras 等开源样子已被闲居遴荐。对于这项有损计较时期,您是否也规画通过访佛的旅途来股东其工业界遴荐?

胡侠:仍是有好多主流的开源软件包皆在使用了,像 hugging face 的 transformer,llama.cpp 皆在使用这两个措施。

雷峰网:您的有研究跟刻下其他一些推理措施,比如搀杂群众模子 MoE,模拟计较等,在玄学和时期旅途有和根底不同?

胡侠:玄学上是差未几的,有句话叫 no free lunch,咱们得回的是它的服从,失掉的是精度,就看失掉的精度会不会影响模子的准确性。关联词咱们追求的并不是模子的精度,而是终末的准确率。是以玄学上皆是通过一些措施来让模子服从更快,在快的同期还不掉点,即准确率还不会下跌。

时期上就完全不一样了,MoE 是通过 sparsity(稀薄性)来料理问题。举个例子,比如你读篇著述,sparsity 意味着有些词就完全不读,删掉,而咱们的粗化位置信息方轨则是皆要读完,关联词读的相称快,毋庸去记准确的位置,我只知说念它可能在 1~10 之间,20~30 之间,但不需要去记位置是 5 如故 16。

02

“有损计较”在模子处理不同任务的准确率不同

雷峰网:如果模子在生成进程中倏得需要追思一个之前被判定为“不进军”并丢弃的信息,您的算法如何应付这种“大海捞针(Needle- in-a-Haystack)”的失败风险?

胡侠:模子毋庸非要去看之前的十足位置,统共的模子的研究皆是在终末生成正确的谜底即可。

雷峰网:该“有损计较”有研究对于模子处理不同任务的影响是沟通的吗?

胡侠:当今咱们的有研究更多是针对言语大模子,但对于多模态大模子或者其他智能体的效果是不同的,其他的咱们也莫得实验去支捏,是以很难讲效果会好如故不好。但从机理上来讲,咱们巧合的念念路即是用精度换服从,但这个失掉的精度并莫得挫伤到模子的准确率。是以从大的逻辑上来讲对好多任务应该莫得太多影响,但具体任务也要具体分析。

雷峰网:从柯氏复杂度和最小描述长度的角度看,闇练大模子是寻找数据背后的最短才能,那么您认为在推理阶段进行有损计较,是否不错领会为在特定任务和险峻文敛迹下进一步寻找“最短的运行时才能”?

胡侠:我合计不错这样讲,这个讲法对我来说还挺新颖。

雷峰网:如何评估并确保这些“有损操作”莫得过度?

胡侠:这是个很好的问题。咱们更多是用大皆实验来看是否过度,比如说当今常见的是 16 比特,究竟要压缩到 8 比特、如故 4 比特、如故 2 比特,这就要凭据骨子需求来判断,因为模子准确率的下跌弧线在不同的任务上亦然不同的。当实验时模子的准确率仍是开动大幅下跌了,就压偏激了,就不可再压了。

雷峰网:您提到压缩时,模子准确率的下跌弧线在不同任务上不同,是否不错例如在哪些任务上出现显著不同?

胡侠:咱们实验相比多的任务,包括多模态的任务、classification 的任务,主如果回报问题,即 chatbot 的准确率在压缩到 2 比特的时候不会掉点,关联词可能用来作念生成才能相比费劲。咱们的有损措施对生成才能这种对精度条目相称高的任务可能会影响其准确性,咱们没作念相应的实验,但我嗅觉可能相比费劲。

雷峰网:经验了若干次实验才发现将 KV Cache 压缩到 2 比特的时候掉点很少?

胡侠:很难讲,因为这个样子也不是造谣从新开动作念的,亦然基于咱们之前好多其他职责鸠合出来的。咱们在通过不雷同式跑通大模子的进程中不休作念多样实验,然后发现了这个形势,但咱们也不是第一个作念压缩的东说念主,作念压缩的东说念主好多。但咱们主要孝敬了一种新的压缩措施,即是 Key 跟 Value 这两种 Cache,是以叫它 KV Cache,之前环球皆用团结种措施来压缩这两种 Cache,但咱们相比翻新地将 Key 跟 Value 按照不同的压缩措施压缩,不错让它在 2 比特的时候掉点相称少或者实在不掉点,这是最大的一个孝敬。

雷峰网:那有莫得实考据明压缩到 1 比特的时候,开动出现大的掉点?

胡侠:不可能 1 比特,1 比特就稀罕于只用 0 和 1 来示意,统共矩阵即是 0、1,信息量太少了。

03

该“有损有研究”应用的后劲如何

雷峰网:在法律、医疗这种瞄准确性条目极高的场景,您的有损计较有研究是否完全不可应用到这些场景?

胡侠:骨子上,法律跟医疗莫得环球设想的瞄准确性条目那么高,因为它如故基于大皆统计信息,比如要判断某个东说念主是否患有某种疾病,信息起首相称多,这即是为啥中医、西医皆不错判断有莫得病,作念血检也不错。是以不需要那么多的信息就不错作念出相称精确的判断了。

这跟环球设想的可能不太一样,反而需要精确地适度的比如说作念通盘数学题,写一个才能,而判断一个东说念主有莫得什么疾病,在多数情况下数据好的话是一个相比粗浅的任务。

雷峰网:您的有损计较有研究不错应用到哪些场景?

胡侠:当今主如果 chatbot,咱们在医疗健康鸿沟应用的是一个基于无情病的问诊系统,如果一个东说念主出现一些症状,他是否可能有某种无情病就不错问这个系统,效果还短长常好的。医疗鸿沟现存的系统、相关无情病的数据创建得稀罕少,因为一个医师没主意囊括几千种无情病,关联词大模子不错,况兼具有了长险峻文才能的大模子能够作念得更好。

雷峰网:您的征询恶果是否探究了与特定硬件(如内存计较、低精度AI芯片)的协同遐想?要阐明最大后劲,是否需要硬件层面的相应变革?

胡侠:当今还莫得探究硬件。但 KV Cache 存在于 GPU 上,骨子上是专用于 GPU 的一种措施,这个层面是探究了硬件的。

雷峰网:如果推理阶段咱们不错丢弃 80% 的信息而不影响效果,这是否反向讲明,面前的模子架构在预闇练阶段就存在庞杂的服从阔绰,改日的架构是否应该平直把这种稀薄性遐想在预闇练阶段,而不是留给推理阶段来转圜?

胡侠:这倒是一个好问题,你不错这样讲,可能有一个新的架构会更好地应用这些信息让预闇练变得更高效,而不光是推理阶段。

雷峰网:您的这个征询是否对于大模子部署获胜机上或者条记本电脑等端侧的道理更大?

胡侠:很难讲,骨子受骗今不管用 DeepSeek 如故其他大言语模子,不知说念你注意到没,点了发送键后,如故要等好须臾才会出罢了,原因即是它推理太慢了,是以在 server 端还没料理推理慢的问题,还没到征询是否到端侧更有效的地步。

雷峰网:您认为有损计较的下一个前沿会是什么?

胡侠:我认为更多的是比如 2 比特能不可果真应用到骨子中,什么情况下能用,什么情况下不可用,当今还不是稀罕明晰。还有即是表面征询得跟上,当今更多是实验型的征询。从玄学上来讲有太多不错有损的场地,但具体一个系统的完结,从遐想出来到终末落地哪些场地不错有损,哪些不可有损,这其中还有蛮多不错作念的事情。

雷峰网:您的高效推理有研究是“即插即用”的如故要针对特定的模子以至特定的垂直鸿沟数据进行额外的微调呢?

胡侠:它好就好在是“即插即用”的,况兼完结的道理相称粗浅环球皆能领会,因为这些身分当今用户好多。

本文作家样式AI关联的一切。原宥+作家vx:IFLOW2025 交流。

第八届 GAIR 全球东说念主工智能与机器东说念主大会

12月12日-13日,在深圳博林天瑞喜来登栈房三楼饮宴厅,第八届GAIR全球东说念主工智能与机器东说念主大会,也将鸠合上百位嘉宾和数千位群众,开设四个主题论坛与两个闭门会议,聚焦大模子、AI算力、宇宙模子、数据&一脑多形、AI硬件等多个议题,共同探讨AI最前沿实践,折射产学研共建的智能改日。

本次大会由GAIR征询院与雷峰网讨好足下,高文院士任指令委员会主席,杨强院士与朱晓蕊教训任大会主席。会议为期两天,以下为大会嘉宾。





Powered by 混声科技有限公司 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2025