多年来,真正智能、对话式人工智能的承诺一直让人感觉遥不可及。我们惊叹于 ChatGPT 的能力, 双子座以及其他大型语言模型 (LLM)——写诗、编写代码、翻译语言——但这些壮举始终依赖于云 GPU 的强大处理能力。现在,一场悄然的革命正在酝酿之中,旨在将这些令人难以置信的功能直接带入您口袋中的设备:智能手机上的法学硕士。
这种转变不仅是为了方便,也是为了方便。它关乎隐私、效率以及开启个性化人工智能体验的新世界。
然而,缩小这些庞大的法学硕士以适应内存和电池寿命有限的设备会带来一系列独特的挑战。为了了解这个复杂的情况,我采访了 阿列克谢·瑙莫夫,首席人工智能研究工程师 泰拉量子,LLM压缩领域的领军人物。
事实上,Naumov 最近发表了一篇关于这个主题的论文,该论文被誉为神经网络压缩领域的一项非凡而重大的创新——’TQCompressor:通过排列改进神经网络中的张量分解方法” – 在 IEEE 国际多媒体信息处理和检索会议 (IEEE MIPR 2024) 上,研究人员、科学家和行业专业人士齐聚一堂,展示和讨论多媒体技术的最新进展。
“当然,主要挑战是智能手机上可用的主内存 (DRAM) 有限,”Naumov 说。 “大多数型号无法装入智能手机的内存中,因此无法运行它们。”
他以 Meta 的 Llama 3.2-8B 模型为例。
“它需要大约 15 GB 内存,”Naumov 说。 “然而,iPhone 16 只有 8 GB DRAM,而 Google Pixel 9 Pro 提供 16 GB。此外,为了有效地运行这些模型,实际上需要更多的内存——大约 24 GB,这是由 NVIDIA RTX 4090 GPU 等起价 1800 美元的设备提供的。”
这种内存限制不仅与存储有关,而且与存储有关。它直接影响手机的电池寿命。
“模型需要的内存越多,电池消耗的速度就越快,”Naumov 说。 “一个 80 亿参数的 LLM 每个代币消耗约 0.8 焦耳。一部充满电的 iPhone,大约有 50 kJ 的能量,只能以每秒 10 个令牌的速度维持这个模型大约两个小时,每 64 个令牌消耗大约 0.2% 的电池。”
那么,我们如何克服这些障碍呢? Naumov 强调了模型压缩技术的重要性。
“为了解决这个问题,我们需要减小模型尺寸,”Naumov 说。 “主要有两种方法:减少参数数量或减少每个参数所需的内存。”
他概述了蒸馏、修剪和矩阵分解等策略,以减少参数数量,并通过量化来减少每个参数的内存占用。
“通过将模型参数存储在 INT8 而不是 FP16 中,我们可以减少约 50% 的内存消耗,”Naumov 说。
虽然 Google 的 Pixel 设备及其经过 TensorFlow 优化的 TPU 似乎是运行 LLM 的理想平台,但 Naumov 警告说,它们并没有解决内存限制的根本问题。
“虽然 Google Pixel 设备中使用的张量处理单元 (TPU) 在运行 AI 模型时确实提供了改进的性能,这可以带来更快的处理速度或更低的电池消耗,但它们并没有解决现代法学硕士的纯粹内存需求的根本问题,这通常会超出智能手机的内存容量,”Naumov 说。
将法学硕士引入智能手机的动力不仅仅是技术野心。这是关于重新构想我们与人工智能的关系并解决基于云的解决方案的局限性。
“像 ChatGPT-4 这样的领先模型拥有超过一万亿个参数,”Naumov 说。 “如果我们想象一个未来,人们在对话界面或推荐系统等任务上严重依赖法学硕士,这可能意味着用户每天约有 5% 的时间花在与这些模型交互上。在这种情况下,运行 GPT-4 将需要部署大约 1 亿个 H100 GPU。仅计算规模(不考虑通信和数据传输开销)就相当于运营约 160 家 Meta 规模的公司。这种水平的能源消耗和相关的碳排放将带来重大的环境挑战。”
我们的愿景很明确:未来人工智能将无缝融入我们的日常生活,在不损害隐私或耗尽手机电池的情况下提供个性化帮助。
“我预见目前依赖云计算的许多法学硕士应用程序将过渡到用户设备上的本地处理,”Naumov 说。 “这种转变将由模型的进一步缩小以及智能手机计算资源和效率的改进来推动。”
他描绘了一幅未来的图景,法学硕士的能力可能会像今天的自动更正一样普遍和直观。这一转变可以释放许多令人兴奋的可能性。感谢本地法学硕士,想象一下增强的隐私,您的敏感数据永远不会离开您的设备。
想象一下无处不在的人工智能,其法学硕士功能集成到几乎每个应用程序中,从消息传递和电子邮件到生产力工具。想想离线功能的便利性,即使没有互联网连接,您也能获得人工智能帮助。设想个性化体验,让法学硕士了解您的偏好和习惯,以提供真正量身定制的支持。
对于渴望探索这一前沿领域的开发人员,Naumov 提供了一些实用的建议。
“首先,我建议选择最适合预期应用的模型,”Naumov 说。 “Hugging Face 是一个很好的资源。寻找具有 1-30 亿个参数的最新模型,因为这些是目前唯一适用于智能手机的模型。此外,尝试在 Hugging Face 上找到这些模型的量化版本。人工智能社区通常会在那里发布流行模型的量化版本。”
他还建议探索诸如 骆驼.cpp 和 位和字节 用于模型量化和推理。
将法学硕士引入智能手机的旅程仍处于早期阶段,但潜力是不可否认的。随着像 Aleksei Naumov 这样的研究人员不断突破可能的界限,我们正处于移动人工智能新时代的风口浪尖,我们的智能手机将成为真正的智能伴侣,能够以我们已经知道的方式理解和响应我们的需求。才开始想象。