在 2024 年世界移动大会高通公布了其在移动设备人工智能能力方面的最新突破,将LoRA人工智能技术集成到专为Android手机精心设计的Snapdragon系列芯片中。 在 Snapdragon 8 Gen 3 旗舰产品展示的显着功能中,高通展示了非凡的人工智能功能,包括声控媒体编辑、采用稳定扩散的设备上图像生成,以及利用从行业领导者处采购的广泛语言模型的丰富虚拟助手。作为元。
什么是LoRA?
通过引入 LoRA AI 模型,高通正在深入研究创意图像生成和操作领域。 高通公司最近的演示突出了突破性的成就,例如实现了使用稳定扩散技术在智能手机上生成世界上最快的文本到图像。 目前,该公司提供了 LoRA 驱动的图像生成功能的预览。
LoRA 是 Low-Rank Adaptation 的缩写,它提出了一种不同于 DALL·E 等传统生成式 AI 工具的新颖的图像生成方法。 LoRA 由 Microsoft 开发,解决了与训练 AI 模型相关的固有挑战,包括高成本、延迟问题和苛刻的硬件要求。
核心原则 LoRA 致力于显着降低模型复杂性,从而最大限度地减少内存使用并提高训练效率。 通过专注于模型的特定部分并优化参数计数,LoRA 简化了文本到图像模型的适应过程,从而提高了性能并减少了资源消耗。
随着时间的推移,LoRA 蒸馏技术已无缝集成到稳定扩散模型中,用于根据文本提示生成图像。 基于 LoRA 的模型所提供的固有效率增益和增强的适应性使其特别适合在智能手机上部署,这符合高通公司对人工智能驱动的移动体验的愿景。
虽然稳定扩散模型因其生成高保真图像和文本的能力而受到赞誉, 一个显着的缺点是文件大小较大,给存储和分发带来了挑战。 这就是 LoRA 作为关键训练技术出现的地方,它可以对稳定扩散模型进行微调,同时保持可管理的文件大小。
LoRA 模型以其紧凑的尺寸为特点,代表了模型优化的突破。 这些模型本质上是标准检查点模型的改进版本,文件大小显着减小,范围从 2 MB 到 500 MB,为寻求模型大小和训练效率之间平衡的用户提供了实用的解决方案。
LoRA 微调设置
LoRA AI 模型提供一系列微调设置,使用户能够根据特定偏好和要求定制 AI 生成的输出。 这些设置可以分为各种类型,每种类型都适合不同的用例和目标。
使用 LoRA AI 模型创建特定角色
角色 LoRA AI 模型经过专门训练 个别字符,例如来自卡通、视频游戏或其他媒体的内容。 通过利用特定于角色的训练数据,这些模型擅长准确复制与每个角色相关的外观和独特特征。
角色LoRA AI模型的应用有助于快速生成具有真实特征的角色,使其成为AI插图、角色概念艺术和参考表的理想选择。 根据模型的训练,它可以再现各种服装、发型或面部表情的角色。 此外,某些角色 LoRA AI 模型使用户能够将他们选择的角色置于新的环境或服装中,从而增加了额外的多功能性。
角色 LoRA AI 模型涵盖热门系列中的各种角色,以及动漫和漫画书中的角色。 此外,如果有足够的训练数据,这些模型可以应用于原始角色。 虽然较低训练数据的实验正在进行中,但通常建议使用在至少 10-20 个不同图像上训练的角色 LoRA AI 模型,以增强生成角色的多样性和质量。
LoRA AI 模型风格不变
LoRA AI 模型风格专注于捕捉和复制 特定的艺术风格 而不是单个角色或物体。 这些模型通常根据特定艺术家的艺术作品进行训练,使用户能够将其创作融入该艺术家的标志性风格。
LoRA AI模型风格的多功能性在于它们能够应用各种艺术风格,从动画表演的美学到水彩画和线条艺术。 通过利用这些模型,用户可以为人工智能生成的艺术作品注入独特且可识别的风格,使其有别于传统的输出。
LoRA AI 模型的独特之处在于它们与标准稳定扩散检查点的兼容性,允许用户将它们无缝集成到他们的创意工作流程中。 例如,将写实检查点与绘画风格 LoRA AI 模型相结合,可以产生具有绘画风格的写实图像,展示了这些模型的协同潜力。
LoRA AI 模型的恒定姿势
推出 Pose LoRA AI 模型,旨在 精确操纵生成场景中角色的姿势。 借助 Pose LoRA AI,用户可以轻松创建具有特定姿势和动作的动态构图,而这些场景通常很难通过传统的即时工程方法来实现。
与其他注重风格或特征的 LoRA AI 模型不同,Pose LoRA AI 模型优先考虑角色姿势的清晰度。 例如,当应用于人形角色时,Pose LoRA AI 模型将生成各种姿势,如跑步、跳跃或坐着,同时保留角色的固有特征、服装和风格。
Pose LoRA AI 模型使用户能够更好地控制其生成的场景,而无需使用 ControlNet 等复杂的解决方案。 通过利用这些模型,用户可以通过对原始提示进行简单修改,为他们的创作注入活力和吸引力。
LoRA AI 模型的服装款式
LoRA AI 模型武器库中另一个不可或缺的工具是 LoRA 服装。 这个专门的模型是 旨在无缝改变角色的服装和配饰。 借助 Clothing LoRA AI,用户可以轻松地用多种服装(从现代风格到历史风格)来装饰角色。
服装 LoRA AI 模型的显着优势之一是其通用性——它们可以应用于任何角色,允许用户使用单个模型尝试各种风格和设计。 例如,用户可以通过应用选定的服装模型轻松创建角色穿着印度传统服装的场景,从而实现即时的文化审美转变。
使用 LoRA AI 模型进行对象设计
可以使用这些模型创建的对象的范围取决于所使用的特定模型和用户提供的提示。 对象 LoRA AI 模型 超越有形物体,涵盖更抽象的元素,例如游戏或网站的用户界面 (UI) 元素。 事实证明,这种多功能性对于在不同项目中创建有凝聚力的视觉体验非常宝贵。
Object LoRA AI 模型是艺术家、游戏开发人员、网页设计师和其他寻求高效生成定制设计资产的创意专业人士不可或缺的工具。 生产具有定制设计的对象的能力使用户能够探索和尝试不同的视觉概念,直到找到最适合其项目的对象。
寻找 LoRA 模型
LoRA 模型以其轻量级和多功能性而闻名,可以在 Civita 和 Hugging Face 等多个开源存储库中轻松找到。 这些模型可供所有人使用,提供了大量的可能性,并且可以通过几个简单的步骤轻松获得。 LoRA 模型的突出特点之一是其紧凑的尺寸,通常不超过几兆字节,这使得它们非常易于管理并适应各种应用。
安装LoRA模型
选择要使用的所需 LoRA 模型后,下一步是将其安装到适当的目录中。 该过程可能会有所不同,具体取决于您的具体设置。 虽然本指南重点介绍 LoRA 模型与 Automatic1111 WebUI 的集成,但建议寻求特定于平台的说明以实现无缝集成。
如何将LoRA模型集成到Automatic1111中?
在将您选择的模型合并到 Automatic1111 WebUI 之前,安装 LoRA 扩展本身至关重要。 无论使用什么平台来生成图像,安装扩展都是先决条件。 以下是安装 Automatic1111 扩展的分步指南:
- 启动Automatic1111 Web UI。
- 导航至“扩展”选项卡并选择“从网址安装” 从可用选项中。
- 将以下链接粘贴到“扩展的 git 存储库的 URL”输入字段中: https://github.com/kohya-ss/sd-webui-additional-networks.git
- 单击“安装”按钮启动安装过程。
- 过渡到“已安装”选项卡并选择“应用并重新启动 UI”按钮,允许Automatic1111 Web UI重新启动。
按照这些步骤,您将在“models”目录中看到新的子文件夹,指定用于存储 LoRA 模型。 但是,配置此文件夹以使Automatic1111 Web UI 能够访问它是至关重要的。
- 打开 ”设置”选项卡并导航至“其他网络”部分。
- 找到“用于扫描 LoRA 模型的额外路径” 输入字段。
- 粘贴正确的文件夹路径,通常在“stable-diffusion-webui/models/Lora“ 目录。
- 点击 ”应用设置” 来完成配置。
虽然 LoRA 扩展现已安装,但还需要执行其他步骤来启动映像生成。 您必须将实际的 LoRA 模型安装到指定文件夹中。
张量艺术 让您可以通过稳定扩散生成详细的图像
在自动化中使用 LoRA 模型1111
安装您喜欢的 LoRA 模型后,您就可以轻松开始图像创建。 以下是在 Automatic1111 Web UI 中利用 LoRA 模型的指南:
- 启动Automatic1111 Web UI并选择所需的检查点模型。
- 确保在提示中包含 LoRA 的触发词(如果适用)。 该词通常在模型描述中或 Civitai 上的“触发词”参数下提供。
- 在下面 ”产生”按钮,单击“附加网络” 图标并导航至“劳拉“ 标签。
- 选择所需的 LoRA 模型,将其插入到您的提示中。
- 如有必要,调整 LoRA 的权重,根据模型的要求修改默认值。
- 相应地配置您的生成设置。
- 点击 ”产生”按钮启动图像生成过程。
完成后,您将观察 LoRA 模型在生成的图像中的应用,从而增强所描述概念的特异性和独特性。 投入时间和精力来配置 LoRA 模型会产生显着的效果,提高项目中的创意可能性。
图片来源: 凯雷姆·葛兰/中途