在macOS下，利用AIGC：从0搭一个图文生成网站

AIGC AI模型 AIGC 图像生成代码学习

发布于 5 个月前

大家好，我是柒八九。

许久未更新了，不知道大家是否想念我的文字呢？最近我在忙公司的一些事情，因此很多的文章都是在脑力激荡阶段。不过，今天这篇文章原本计划上周发布，但经过一番思考，还是对内容进行了调整。

最近我还想跟大家分享一下我正在规划的系列文章 — AI模型。虽然不是高大上的东西，也不需要做复杂的训练工作，我会分享一些大家都可以实践和操作的方法。

同时，在近期也有一些规划，包括搭建国内版本的ChatGPT问答网站和小程序以及AI集合。这也是我近期的一个目标。

但请放心，我们的主业还是偏向前端/Rust等方向，毕竟解决温饱问题才能考虑更高层次的发展。至于AI相关的项目，我会逐步探索并分享。

然而，最近我也有一个新发现，在混迹于互联网的Coder中，最近1-2个月内都对ChatGPT、AutoGPT、Midjourney、Stable-Diffusion等五花八门的AI产品和模型感到兴趣。本着技术敏感度以及公司业务中的AI应用场景，我在工作和业余时间也正在逐步使用这些工具。

上周有幸被腾讯云开发者开了白名单，并且在文章列表中看到了利用AIGC从零搭建一个图文视频生成网站的机会。出于对好东西分享的态度，我决定按照上文的步骤进行搭建。然而，在实际操作过程中，我发现stable-diffusion安装分系统环境的问题让我感到困扰。

原文提到的是Windows的安装步骤，而我的本地环境是Mac（非M1版本），这显然是南辕北辙的关系，因此无法达到预期效果。同时在原文中省略了很多详细的安装步骤和解释，这让很多不熟悉这些技术的朋友望而却步。

基于此情况，我决定撰写一篇详细教程，在Mac环境下如何搭建stable-diffusion并生成图文网站。以下是教程中的图片展示：

当然，只要按照这个教程一步步操作，你也可以在本地生成出好看的图片。分享给大家，希望对大家有所帮助。

如果你有任何疑问或者建议，请留言告诉我。

### 学习知识点

#### AIGC: 人工智能生成内容 (AIGC)

了解 AIGC 是一项非常重要的技能。AIGC 可以帮助我们快速创建高质量的内容，无论是图片、文本还是视频。

**推荐阅读指数：⭐️⭐️⭐️⭐️**

#### Stable Diffusion: 高质量图像生成模型

Stable Diffusion 是一种流行的图像生成技术，它使用人工智能来产生逼真的、具有吸引力的图像。学习如何使用 Stable Diffusion 可以极大地提高我们的创意和设计能力。

**推荐阅读指数：⭐️⭐️⭐️⭐️⭐️**

#### 项目启动 (项目规划)

在开始任何项目之前，了解项目的基本架构和发展方向是非常关键的。项目启动包括明确目标、资源分配以及制定详细的计划。

**推荐阅读指数：⭐️⭐️⭐️⭐️⭐️**

#### 下载插件

为了优化你的工作流程，下载并安装必要的插件可以极大地提高效率。这些插件可以帮助你更好地使用 AIGC 和 Stable Diffusion 技术。

**推荐阅读指数：⭐️⭐️⭐️⭐️⭐️**

#### 生成图片 (高质量图像创作)

最后但并非不重要的一点是，学习如何有效地创建高质量的图片。掌握这个技能将使你在各种项目中脱颖而出。

**推荐阅读指数：⭐️⭐️⭐️⭐️⭐️**

### 晚上了，开始工作吧！

希望这些信息对你有所帮助！

AIGC（Artificial Intelligence Generated Content）指的是通过人工智能技术生成文本、图像、音频等多种形式的内容。这些内容通常是由深度学习模型如自然语言处理模型、图像生成模型和语音合成模型等根据大规模数据训练而来的。

常见的AIGC应用方向包括：

1. **文本生成**：使用自然语言处理模型来生成符合语言规则的句子或段落。

2. **翻译**：利用翻译模型将不同语言的文本进行互译。

3. **对话**：通过对话模型生成符合上下文语境的对话内容。

4. **摘要**：使用摘要模型提取文本的概括性信息或摘要。

5. **生成式**：利用生成式模型如GPT系列模型来生成新的文本。

目前市场上比较常见的AIGC产品有：

- {语言模型|Language Model}：例如GPT、T5等，用于生成自然语言内容。

- {翻译模型|Translation Model}：例如BERT、Transfo-XL，用于跨语言的文本互译。

- {对话模型|Dialog Model}：如Babelfish、DeepQA，用于创建真实世界的对话场景。

- {摘要模型|Summarization Model}：如ABAGAIL、Convolutional Neural Networks (CNN)，用于生成文本的简要摘要。

这只是AIGC的一部分应用方向，还有很多其他技术和产品。记住这些头部产品可以让你更快地理解这个领域。

AI编程方面，Tabnine推荐非常不错。我最近也在使用它，感觉非常方便。

图像生成领域，深度学习技术的应用也相当广泛：

1. **对抗生成网络（GANs）**：一种利用两个神经网络进行博弈的方式，用于生成逼真的图像。

2. **变分自编码器（VAE）**：将图像编码为潜在向量，并通过解码器生成逼真图像。

3. **流模型（Flow-based Model）**：对图像的像素进行建模后，从建模分布中采样来生成图像。

音频生成

在音频生成领域，常见的模型包括：

1. 自回归模型（Autoregressive Model）：用于预测下一个音频样本。

2. 流模型（Flow-based Model）：用于对音频信号建模，并从建模分布中采样生成音频。

WaveNet：一种基于深度卷积神经网络的语音合成模型，可以生成逼真的语音。

何为Stable Diffusion

Stable Diffusion是一种用于文本到图像合成的深度学习模型，它可以在给定文本描述的情况下生成高质量、多样化的图像。

具体来说，Stable Diffusion是一个基于流程的生成模型，它在潜在空间中使用扩散过程来生成图像。在训练过程中，模型通过随机抽样生成中间图像序列，并根据这些中间图像生成最终的输出图像。这个生成过程由一个潜在向量和一个标准正态分布组成，这两个分布相加后经过一个可逆的非线性变换得到最终的图像。

Stable Diffusion的优势在于它可以生成高质量、多样化的图像，并且可以在给定的文本描述下生成与之相关的图像。这使得它在计算机视觉、虚拟现实、游戏开发等领域具有广泛的应用。同时，它也为图像编辑和处理任务提供了新的可能性，例如物体移除和图像修补等。

总的来说，Stable Diffusion是一种有前途的文本到图像合成方法，有潜力在计算机视觉、虚拟现实和创意艺术等广泛领域中发挥作用。

项目启动

这里我们参考Stable Diffusion官网的配置流程。

但是，尽管这看起来只有这么点东西，但实际上里面却隐藏着不少陷阱。因此，我决定带着大家一起来搭建网站。

在此过程中，我会提供一些基本的说明和讲解，以便让大多数人，甚至非专业的技术人员也能够成功构建网站。以下是一些需要特别注意的地方：

1. 安装 Homebrew

何为Homebrew

Homebrew 是一款专为 macOS 设计的包管理器，它可以帮助用户方便地安装、管理各种开源软件和工具。它的作用类似于 Linux 系统上的 apt-get 或者 yum 包管理器。对于前端开发的同学，你可以将它比作 npm/yarn/PNPM。

使用 Homebrew，用户可以通过命令行界面快速地安装、更新和卸载各种软件，并且还可以管理软件包的版本，解决依赖关系。例如，用户可以使用 Homebrew 安装 Git、Node.js 和 Python 等常用的开发工具和软件。

安装Homebrew

以下是在 macOS 上安装和使用 Homebrew 的步骤：

打开 macOS 终端应用程序，可以通过按下 Command+Space，然后输入 Terminal 来搜索并打开终端。

在终端中运行以下命令，安装 Homebrew：

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

但是在国内安装Homebrew时，由于网络原因，这个官方命令可能会失败。很快就能看到下面的提示信息：

```bash

curl: (7) Failed to connect to raw.githubusercontent.com port 443: Connection refused

```

我们可以切换为国内源

/bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"

这样，你就可以成功安装 Homebrew 并开始使用它来管理你的软件包了。

安装 Homebrew

首先，Homebrew 会要求输入管理员密码以便进行必要的系统权限操作。

安装完成后，它会在系统的环境变量中自动添加一些必要的路径。

检查安装是否成功

可以运行 brew doctor 命令来查看是否有警告或错误信息。如果有，请根据提示修改。

下载对应的包

在第一步配置成功的基础上，将以下命令复制到终端并进行下载：

brew install cmake protobuf rust python@3.10 git wget

如果已配置过某些库，可删除其中的某些库。

自动安装

这个步骤不需要手动操作。

为什么需要指定一些包？

这些工具是后期开发项目时需要用到的。直接从代码角度看原因。

在项目中使用 Homebrew 安装所需软件后，可以利用 brew list 命令查看已安装的软件列表以及版本信息。

使用前请确保系统环境变量已正确配置。

在安装过程中，Homebrew 会要求输入管理员密码以便进行必要的系统权限操作。安装完成后，它会在系统的环境变量中自动添加一些必要的路径。

检查安装是否成功

可以运行 brew doctor 命令来查看是否有警告或错误信息。如果有，请根据提示修改。

下载对应的包

在第一步配置成功的基础上，将以下命令复制到终端并进行下载：

brew install cmake protobuf rust python@3.10 git wget

如果已配置过某些库，可删除其中的某些库。

自动安装

这个步骤不需要手动操作。

为什么需要指定一些包？

这些工具是后期开发项目时需要用到的。直接从代码角度看原因。

在项目中使用 Homebrew 安装所需软件后，可以利用 brew list 命令查看已安装的软件列表以及版本信息。

使用前请确保系统环境变量已正确配置。

在安装过程中，Homebrew 会要求输入管理员密码以便进行必要的系统权限操作。安装完成后，它会在系统的环境变量中自动添加一些必要的路径。

检查安装是否成功

可以运行 brew doctor 命令来查看是否有警告或错误信息。如果有，请根据提示修改。

下载对应的包

在第一步配置成功的基础上，将以下命令复制到终端并进行下载：

brew install cmake protobuf rust python@3.10 git wget

如果已配置过某些库，可删除其中的某些库。

自动安装

这个步骤不需要手动操作。

为什么需要指定一些包？

这些工具是后期开发项目时需要用到的。直接从代码角度看原因。

在项目中使用 Homebrew 安装所需软件后，可以利用 brew list 命令查看已安装的软件列表以及版本信息。

使用前请确保系统环境变量已正确配置。

针对macOS用户，我们后期启动项目的文件是webui.sh文件。它会首先从./webui-macos-env.sh中读取自定义参数。这部分内容后面有详细的讲解。

接下来是bash脚本的语法部分：

```bash

if [[ -z "${python_cmd}" ]]

then

python_cmd="python3"

```

这段代码是一个Bash脚本中的条件语句，主要作用是检查变量`python_cmd`是否为空值。如果是空值，则将其赋值为字符串"python3"。

具体来说，[[和]]是Bash的条件测试语法，-z表示测试一个字符串是否为空。${python_cmd}是引用一个变量。

因此，整个语句的意思是：如果`python_cmd`变量的值为空字符串，则执行后续命令将该变量赋值为"python3"。如果`python_cmd`已经有一个值，则不会执行条件语句中的命令。

接下来，我们将从github上下载相关的项目：

```bash

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui

```

这里并不详细说明了，但下载相关项目是一个比较麻烦的过程，需要指定一些参数。

最后，我们下载并安装相关的模型：

```bash

# 下载和安装大模型

my_models=(

"path/to/your/models"

)

for model in "${my_models[@]}"

# 安装或使用模型

done

```

这里不是最重要的点，但为了让大家获得更好的安装体验，我已经将下载好的好玩模型都放在了合适的位置。大家可以在后台回复"AI模型获取"来获取这些模型。

以上就是macOS用户启动项目的一些步骤和注意事项。

首先，我需要澄清一点：我不具备直接访问互联网或者任何在线资源的能力。因此，我无法提供你所要求的信息。

然而，我可以指导你如何在网络上找到这些信息：

1. 找到相关的网页或网站。你需要在搜索引擎中输入“推荐的模型”以及你所在地区的语言（例如：“推荐的模型（你的语言）”，并点击“搜索”。

2. 在找到的结果页面上，你可以查看是否有明确列出的推荐模型。通常，这个列表会放在页面的顶部或者显著位置。

3. 如果没有直接列出，可以尝试寻找类似或相关的内容。例如，“基于可靠来源的机器学习模型推荐”或“可信的机器学习模型选择指南”。

4. 有些网站可能会有专门的文章、博客或论坛讨论机器学习模型的选择。这些地方可能也会提供一些推荐。

5. 最后，你也可以联系相关的技术社区或者论坛，询问是否有推荐的机器学习模型。

请注意：网络上的信息可能会因为时间和地域的变化而有所差异。同时，选择可靠的机器学习模型时，应考虑其性能、适用性以及数据集等多方面因素。

也可以在Hugging Face找自己喜欢的模型

当然，还可以从C站获取基于大模型的小模型。（这里已经提前放出来了，具体的使用方法我们会后来详细讲解。）

好了，模型下载，咱们就先聊到这里，这里面学问很多，我们会单独写一篇文章详细讲。5. 项目运行(这里很重要，不要分神)

按照官网的说法，我们首先切换到`stable-diffusion-webui`目录，然后通过`./webui.sh`命令运行项目。

第一步：无需过多说明。

第二步：

由于我不是第一次运行该项目，因此执行速度将比首次快。如果你是首次安装，在执行至第二步时，它会从使用git下载相应的依赖。其将会将指定的大模型的依赖下载到repositories中。例如，如截图所指方向所示。

然而，在下载指定模型仓库时，可能会出现错误。

具体的错误提示我没有贴图展示。然后，如何解决这个报错，我们可以移步到launch.py文件中的prepare_environment()函数中。

将对应GitHub地址的@xxx去掉，是为了下载特定版本（commit）xxx的代码。然而，如果把这三个部分复制到浏览器中，你会发现资源不存在。因此，直接删除对应的@xxx即可，下载全量的仓库信息。

第三步：创建和激活Python venv环境。

在webui.sh文件中有如下代码：

```bash

if [[ ! -d "${venv_dir}" ]]

then

"${python_cmd}" -m venv "${venv_dir}"

first_launch=1

```

这段代码的意思是，安装一个名为venv的Python环境。这里我们讲一点小知识：使用conda激活特定版本的Python。

打开终端或命令提示符窗口。

输入以下命令并按Enter键以激活指定版本的Python环境：

```bash

conda activate <环境名称>

```

其中，<环境名称>是要激活的Python环境的名称。例如，如果要激活名为py37的Python 3.7环境，可以使用以下命令：

```bash

conda activate py37

```

激活环境后，可以使用以下命令来验证是否激活了正确的Python版本：

```bash

python --version

```

如果一切正常，这个命令应该显示已经激活的Python版本号。请注意，必须已经安装了要激活的Python环境。如果没有安装该环境，请先使用conda create命令创建一个新的环境，并在创建时指定要安装的Python版本。

例如，要创建一个名为py37的Python 3.7环境，请使用以下命令：

```bash

conda create --name py37 python=3.7

```

这将创建一个新的Python 3.7环境，并将其命名为py37。完成后，可以使用上述conda activate命令来激活该环境。

第四步：主要是代码运行。

这个步骤不作解释了。

重要参数：

可以看到，在控制台上输出了一段代码。

```bash

Launching Web UI with arguments: --skip-torch-cuda-test --upcast-sampling --no-half-vae --use-cpu interrogate

```

这段代码的含义如下：

--skip-torch-cuda-test：这个参数在运行PyTorch库时跳过CUDA兼容性检查。如果你没有兼容的CUDA设备或想加快启动时间，这可能很有用。

--upcast-sampling：这个参数启用了一种称为“upcasting”的采样技术。Upcasting可以用来减少随机梯度下降中梯度估计的方差，这有助于提高收敛性和训练稳定性。

--no-half-vae：这个参数禁用了使用16位精度的VAE（变分自动编码器）模型。VAE模型用于无监督学习和特征提取，使用16位精度可以提高训练速度和内存使用。

--use-cpu：这个参数强制使用CPU而不是GPU进行计算。如果没有兼容的GPU或想节省电力，这可能很有用。

interrogate：这个可能是位置参数，指定正在使用上述命令行参数启动的程序或脚本的名称或路径。

如果你想修改参数，请在webui-user.sh文件中的COMMANDLINE_ARGS进行修改。

这里附上官网的一些常规参数。

- 命令行参数解释：

- --xformers：使用xformers库，极大地改善了内存消耗和速度。

- Windows 版本安装由C43H66N12O12S2 维护的二进制文件：force-enable-xformers

启用 xformers。不要报告运行时错误。

- --opt-split-attention：Cross attention layer optimization 优化显着减少了内存使用，几乎没有成本（一些报告改进了性能）。黑魔法。默认情况下torch.cuda，

包括 NVIDIA 和 AMD 卡。（新版默认开启）

- --disable-opt-split-attention：禁用上述优化

- --opt-split-attention-v1：使用上述优化的旧版本，它不会占用大量内存（它将使用更少的 VRAM，但会限制您可以制作的最大图片大小）。

- --medvram：通过将稳定扩散模型分为三部分，使其消耗更少的 VRAM，

即 cond（用于将文本转换为数字表示）、first_stage（用于将图片转换为潜在空间并返回）和 unet（用于潜在空间的实际去噪），并使其始终只有一个在 VRAM 中，将其他部分发送到 CPU RAM。降低性能，但只会降低一点-除非启用实时预览。

- --lowvram：对上面更彻底的优化，将 unet 拆分成多个模块，VRAM 中只保留一个模块，破坏性能*do-not-batch-cond-uncond防止在采样过程中对正面和负面提示进行批处理，这基本上可以让您以 0.5 批量大小运行，从而节省大量内存。降低性能。

不是命令行选项，而是使用 --medvram 或隐式启用的优化 --lowvram。

- --always-batch-cond-uncond：禁用上述优化。只有与--medvram或--lowvram一起使用才有意义。

- --opt-channelslast：更改 torch 内存类型，以稳定扩散到最后一个通道，效果没有仔细研究。

首先，在 Extensions 选项卡中检查是否已经勾选了您想要使用的扩展。如果不勾选，则需要勾选并点击橙色按钮来启用该扩展。

在设置菜单中，点击“用户界面”子选项

然后在弹出的下拉列表中选择“简体中文语言包”

首先，在页面底部寻找名为“Localization (requires restart)”的小项。

接着，打开下拉菜单并选择zh_CN（如果你没有看到，请点击🔄按钮）。以下图为例。

1. 首先，在页面顶部左边找到并点击橙色的“Apply settings”按钮。

2. 然后，点击右边的“Reload UI”按钮。

在重新启动项目之后，相关的文字就已经切换成了中文版本了。以下是我在本地环境中显示出来的效果图片。

安装C站助手

这时候祭出一个大杀招 - C站。

这里提供了两种选项供你选择：一是使用大型语言模型本身，二是基于该模型构建的小型子模型。

如果你想要尝试更大的生成能力和更高的准确度，请直接选择使用大型语言模型。这个选项为你提供了更多的可能性和灵活性。如果你更倾向于专注于特定领域的深入研究或小规模应用，并且对整体性能要求较低，那么可以选择基于大模型的子模型。这样可以确保系统更加高效和易于控制。

请注意，具体的选择可能取决于你的需求、应用场景以及个人偏好。

然后，如何使用，我们稍后介绍。

安装步骤

选择扩展 Tab。

点击从网址安装。

输入网址：

```

https://github.com/butaixianran/Stable-Diffusion-Webui-Civitai-Helper

```

点击安装按钮。

在扩展 Tab 下，点击已安装。

确保 Civitai Helper 已经处于勾选状态；

然后点击“应用”并重启。

现在C站就配置好了。

其实还有很多插件可以帮助我们生成图片。这里就不一一展开说明了，后期会单独一篇文章讲一些常见的插件。

生成图片（最后但非常关键）：

模型下载：

既然我们已经配置好了C站助手，那我们就充分利用这个工具来生成唯美的图片。

第一步：打开 Civitai 网站，并将喜欢的 C 站模型链接粘贴到网站框中。网址为 https://civitai.com/models/8217?modelVersionId=12998。

第二步：点击“从网址获取模型信息”按钮，这一步会显示模型名称。

第三步：选择子文件夹选项，并在模型版本选择器中选取最新版本。

第四步：点击“下载模型”，系统将开始下载新添加的模型。完成后，重启UI，新的模型就会出现在 ckpt 下拉框中。

开始炼丹

从C站指定模型中，挑选你想生成的图片信息。然后点进去。

可以从截图中看到右侧有许多参数。接下来，请将这些参数对应地复制到指定位置。

然后，你就等待出图就完事了。由于我们是使用CPU进行画图，所以所用时间和你电脑配置有关系。然后相比GPU生成肯定慢。只需静静等待就完事了。

后记：

分享是一种态度。

参考资料：

- stable-diffusion-webui

- C站

- stable-diffusion-webui-localization-zh_CN

全文完，既然看到这里了，如果觉得不错，随手点个赞和“在看”吧。

本文正在参加「金石计划」