步入AIGC时代,展望人工智能发展


### 前言

2023年3月18日,由中国图象图形学学会(CSIG)主办、合合信息和CSIG文档图像分析与识别专业委员会联合承办的“CSIG企业行”系列活动取得了圆满成功。主题为“图文智能处理与多场景应用技术展望”,活动中重点分享了图像文档处理中的结构建模、底层视觉技术、跨媒体数据协同应用、生成式人工智能及对话式大型语言模型等理论研究及实践成果,并就生成式人工智能的发展前景进行了深入探讨。

### 步入AIGC时代

随着OpenAI发布新一代聊天机器人ChatGPT,在科技圈引发的轰动效应,ChatGPT成为史上用户增长最快的消费应用。人工智能生成内容(Artificial Intelligence Generated Content, AIGC)这一领域开始受到学术界、工业界甚至普通用户的广泛关注。AIGC凭借其独特的“创造力”与人类无法企及的创作生成速度掀起了一股人工智能狂潮。

在本节中,我们将介绍人工智能、AIGC及其最新研究进展。

### 1.1 人工智能简介

人工智能(Artificial Intelligence, AI)是用于模拟和扩展人类智能的理论、方法及应用的一门系统性科学技术。AI令计算机根据可用数据执行相应策略而无需以明确的编程方式执行策略,通过使用计算机程序来模拟人类行为从而使机器实现智能。

传统应用程序中,系统通常通过使用程序员编写的复杂算法来实现智能化。在传统的机器学习(Machine Learning, ML)中,需要机器学习研究人员首先确定需要从图像中提取的特征,然后提取这些特征并将它们作为输入传递给复杂的算法,算法解析给定特征以判断图像类别。我们可以将相同的思想扩展到其他领域,例如文本或结构化数据。

过去,如果希望通过编程来解决现实世界的任务,就必须了解有关输入数据的所有内容并编写尽可能多的规则来涵盖所有场景。这一过程非常乏味,并且不能保证所有新场景都会遵循已有规则。

而神经网络包含了特征提取的过程,并将这些特征用于分类/回归,几乎不需要手动特征工程,只需要带有标签的数据集和神经网络架构,不需要手动提出规则来对图像进行分类。这减轻了传统机器学习技术强加给程序员的大部分负担。神经网络用于分类任务的流程如下:其训练与测试是端到端的:

### 结构建模

结构建模在图像文档处理中起着至关重要的作用,它涉及到如何构建和理解图像内容的层次结构。

### 生成式人工智能及对话式大型语言模型

生成式人工智能(Generative AI)是一种能够产生新数据或内容的AI技术。例如,ChatGPT就是一个基于生成式AI的聊天机器人,它可以在给定的数据集上进行训练,并根据这些数据生成新的文本。对话式大型语言模型(Dialogual Large Language Models)则是更高级的人工智能系统,它们可以理解人类的自然语言,并与用户进行交互。

这些技术的发展不仅改变了我们处理信息的方式,还可能对我们的工作、教育和日常生活产生深远的影响。

**人工智能的目标与进展**

人工智能的目标是创造能够与人类思维相似的智能机器,或者通过人工智能技术来扩展人类智能以解决实际问题。在过去几年中,许多人工智能系统取得了显著的进步,能够在各种复杂问题上应用。

1.2 AIGC简介

目前的人工智能模型主要分为两大类别:判别模型和生成模型。判别模型基于一组输入数据(如文本、X射线图像或游戏画面)经过一系列计算后得到相应的目标输出结果,例如单词翻译、X光图像的诊断或游戏中下一时刻的动作。这类模型类似于我们最熟悉的AI模型——它们在输入变量和目标输出之间创建了映射。

而生成模型则不会对输入数据进行分数或标签计算,而是通过学习输入和输出之间的关系生成新的数据样本,这些样本可以是复杂的内容,如文本、音乐或图像。人工智能生成内容(AIGC)泛指利用机器学习和自然语言处理技术,让计算机生成人类可理解的文本、音频、图像等内容。

**生成模型简介**

在生成模型中,输入向量可以与实际值无关,甚至可能是随机向量。这些向量经过训练后,可以生成复杂输出。例如,通过生成模型,计算机可以生成新的音乐片段或图像。这种技术为创作和艺术领域带来了无限可能性,同时也引发了关于版权和知识产权的新讨论。

总的来说,判别模型关注的是输入和输出之间的关系,直接预测输出结果,而生成模型则关注数据的分布,通过学习数据的统计特征来生成新的样本数据。判别模型推动了人工智能前数十年的发展,而生成模型将成为人工智能未来十年的重点发展方向。

1.3 AIGC 发展与应用

AIGC 通过机器学习方法从原始数据中学习数据特征,进而生成全新的、原创的数据,这些数据与训练数据保持相似,而非简单复制原始数据。AIGC 已经取得了重大进展,并在各个领域得到广泛应用:

- 内容创作:可以辅助创作者完成图画、文章、小说、音乐等内容的创作。

- 设计:可以帮助设计师生成平面设计、UI设计等。

- 游戏:可以生成游戏中的角色、道具等元素。

- 视频制作:可以生成特效、动画等内容。

- 智能客服:可以生成自然语言对话,实现智能客服等应用。

AIGC 可以视为未来的战略技术,ChatGPT 是其中的典型代表,其将极大加速人工智能生成数据的速度,其正在深刻改变人类社会,推动人类创作活动,包括写作、绘画、编程等,甚至也将推动科学研究,例如生成科学假设和科学现象等。

2. CSIG 企业行——走进合合信息

“CSIG 企业行”是一项促进学术界与企业合作与交流的活动,旨在推动图形图像领域的技术创新和产业发展,促进学术界和产业界的互动和合作,为企业和学术界搭建沟通交流的平台,资助优秀的产学研合作项目,支持学术界和企业开展创新性研究和技术转化。“CSIG 企业行”得到了学术界和产业界的广泛支持和赞誉,已经成为图形图像领域内具有较高影响力和知名度的活动之一。

由中国图像图形学学会主办,合合信息、CSIG 文档图像分析与识别专业委员会联合承办的“CSIG 企业行——走进合合信息”活动成功举办,来自上海交大、厦门大学、复旦大学、中科大的学者与合合信息技术团队一道,面向行内研究者分享了图像文档处理中的结构建模、底层视觉技术、跨媒体数据协同应用、生成式人工智能及对话式大型语言模型等研究及实践成果,探讨图文智能信息技术领域的最新发展动态和未来趋势。会上,合合信息科技股份有限公司董事长、总经理镇立新提到,希望通过这次活动创造产学研合作机会,为推动图像图形及人工智能行业的发展和进步贡献智慧和力量。

2. 走进合合信息

合合信息是行业领先的人工智能及大数据科技企业,深耕智能文字识别、图像处理、自然语言处理和大数据挖掘等领域,其研发的智能图像处理引擎提供多种图像智能处理黑科技,例如图像切边增强、PS 检测、图像水印去除以及图像矫正等,相关黑科技的体验可以登录合合信息官网。

3. 文档图像处理中的底层视觉技术

**底层视觉技术**

底层视觉技术在计算机视觉领域是最基础且最关键的技术。它解决了影像采集不规范的问题,能够极大优化影像质量,并为后续的影像处理奠定坚实的基础。

随着AIGC(人工智能生成内容)的发展,底层视觉技术也发挥着越来越重要的作用,利用其提供的高质量输入可以为生成模型提供良好的初始条件。

合合信息图像算法研发总监郭丰俊在“CSIG 企业行”活动中分享了《文档图像处理中的底层视觉技术》:

**3.1 什么是底层视觉**

底层视觉技术是指对图像进行预处理、优化和分割的基本、底层的算法和技术,其输入和输出均为图像。主要包括图像处理、图像滤波、图像重建和增强等。

利用底层视觉技术可以对图像进行自动化处理和分析,并为后续高级视觉算法提供更好的输入。依托在底层视觉技术上的优势,合合信息智能图像处理技术处于行业领先水平。

**3.2 智能图像处理技术**

图像智能处理是计算机视觉领域中的重要技术。通过为机器视觉系统添加图像智能处理功能,相当于给机器安装了智能的“眼睛”,使机器能够看得清、看得懂,并以接近甚至超越人眼的能力执行分析和处理任务。

文档图像质量增强是智能图像处理的重要研究方向,需克服页面弯曲、阴影遮挡、摩尔纹和图片模糊等现代文本图像处理中常见的干扰状况。

智能图像处理技术涵盖了对感兴趣区域(感兴趣区域,英文:region of interest, ROI)进行提取、形变矫正、图像恢复和质量增强等多种方法。通过这些技术的应用,可以显著提升文档智能扫描的质量,并简化后续处理步骤。接下来将介绍合合信息在图像智能处理领域的主要核心技术。

3.2.1 感兴趣区域提取

感兴趣区域(ROI)是一种从图像中选择的特定图像区域,这个区域是图像分析算法的主要关注点,通常用于减少无关噪声。使用 ROI 可以帮助限制需要进一步处理的目标区域,从而降低处理时间,并提高精度。

在实际应用中,ROI 提取的一个典型场景是票据提取。例如,合合信息旗下的“名片全能王”应用能够准确地从图片中提取出名片。通过这种方法,可以将不必要的细节和噪声隔离出来,专注于关键信息。

3.2.2 形变矫正 伴随着移动智能手机和便携相机等设备的普及,我们习惯通过拍照的方式来数字化纸质文档,以便于存档、检索、共享、识别与分析等处理。文档数字化为我们的日常工作和生活带来了极大的便捷。然而,在使用移动设备采集文档照片时,由于姿态、文档放置状态以及文档本身变形等因素的影响,可能会导致拍摄的照片出现角度或弯曲的变形。这些原始的照片对文档图像内容的自动提取与分析造成了不利影响。因此,需要进行一定的形变矫正处理。通过还原文档图片的形状和形态,对于文档内容的恢复有着重要的帮助。

现有的基于深度学习的文档图像矫正方法主要针对的是紧密裁剪的图像,而忽视了存在大环境边界的文档以及没有环境边界的文档。为此,合合信息提出了一个新的矫正框架Marrior。Marrior采取渐进式的矫正策略,逐步提升矫正性能。具体来说,首先通过分割结果去除环境边缘,获得初步的矫正结果;然后,利用预测偏移场迭代式地优化这个初步结果。

模型由两个子模块组成:边界去除模块和迭代式内容矫正模块。架构如图所示:

1. **边界去除模块**:该模块负责在文档图像中识别并去除大环境边界的边缘。通过训练模型对图像进行分割,可以准确地区分环境边界与文本区域,从而达到初步的环境边缘去除效果。

2. **迭代式内容矫正模块**:基于初步结果,该模块使用预测偏移场的方法来迭代优化矫正过程。通过不断调整图像上的位置信息,逐步提升矫正精度。这种方式使得Marrior能够在更复杂和不规则的文档图像中实现高效且准确的矫正。

采用这种渐进式方法,不仅提高了矫正的鲁棒性和灵活性,还大大提升了对大环境边界的处理能力。

1. **智能定位边缘**:

合合信息的图像矫正功能可以智能地识别和定位图像中的中文文档主体边缘。这有助于从复杂背景中分离出文档内容。

2. **背景切除(文档提取)**:

根据上述技术,还可以进一步进行背景切除或文档提取工作,将文档从原始图像中独立出来。

3. **矫正角度与弯曲**:

为了应对形变的文档图像,合合信息提供了两种复杂的矫正算法:角度矫正和弯曲矫正。这些算法在处理复杂形状的文档时表现出色,尤其在对抗干扰方面具有显著优势,有效提升了矫正效果。

4. **应用实例**:

在下图中,可以观察到利用合合信息的图像矫正功能能够将文档恢复至正面垂直拍摄的效果。这一技术解决了传统文档图像变形矫正算法面临的抗干扰性差、矫正效果不佳等问题。

5. **具体应用**:

该技术在日常生活中有广泛的应用场景,例如在处理纸质文件数字化时,可以自动识别和分离文本内容,避免了人工操作带来的错误。此外,在医疗影像分析、法律文书扫描等领域也有重要作用,提高了数据处理的效率与准确性。

## 图像恢复

智能手机、数码相机等设备为我们提供了快速记录信息的机会,已经逐渐成为人们日常生活中必不可少的工具。然而,在使用这些设备拍摄文档时,很容易出现阴影问题;而拍摄电子屏幕时,则会因图片中出现令人反感的屏幕纹而影响图像质量,降低我们后续分析和处理的效果。

这些问题严重损害了图像的质量,并且也会影响到我们的工作流程。因此,我们需要利用图像恢复技术来修复图像,提升其质量。接下来,以“摩尔纹去除”为例,介绍合合信息在图像恢复领域的关键技术。

## 摩尔纹去除

### 什么是摩尔纹?

摩尔纹是一种常见的现象,指的是当数码相机拍摄高分辨率的电子屏幕时,在照片中出现的细小颗粒状痕迹。这些颗粒实际上是由像素组成的小点,但在放大后看起来像是一些线条或纹理,因此被称为“摩尔纹”。

### 如何去除摩尔纹

要有效地去除摩尔纹,可以使用一些图像处理和修复工具。合合信息的AI技术可以帮助我们准确地识别并去除这些细小痕迹。

#### 方法1:手动修复

首先,选择一个高分辨率的照片区域,然后在适当的位置点击。接着,在下拉菜单中选择“摩尔纹去除”选项进行修复。系统将自动检测到照片中的摩尔纹,并将其移除。

#### 方法2:使用图像处理工具

如果需要更专业的效果,可以使用专业的图像编辑软件,如Adobe Photoshop或GIMP。在这些软件中,可以通过设置特定的滤镜和调整参数来去除摩尔纹。

### 合合信息技术的应用

合合信息开发了先进的AI算法和图像修复技术,能够高效、准确地处理各种图像质量问题。通过利用这些技术,我们可以轻松修复和优化照片,使其看起来更加清晰和自然,提高我们的工作效率。

综上所述,通过使用摩尔纹去除等图像恢复技术,不仅可以提升数码相机拍摄电子屏幕时的图片质量,还可以有效避免阴影等问题影响后续的工作流程。

由于屏幕纹对重复结构的轻微变换具有极高的敏感性,因此图像结构的多样性导致了屏幕纹也表现出复杂性和不规则性。长期以来,屏幕纹消除一直是一个极具挑战性的任务。尽管高斯、双边等滤波器对于屏幕纹的抑制效果不佳,专门针对屏幕纹消除的工作仍然较为有限。

与图像修复问题不同的是,去除摩尔纹在频率、形状和颜色等方面的变化巨大,从被摩尔纹扰动的图像中恢复出原始干净图像仍然是一个未解决的问题。去除摩尔纹是文档图像处理中的一个重要任务,也是合合信息在智能文字识别领域里的一项创新技术应用之一。

模型架构如下所示:

1. 识别问题:识别问题是根据输入图像提取关键特征和对象的过程。

2. 梦想目标:梦想目标则是通过算法设计使系统能够自动完成某些人类需要执行的活动,或者生成具有某种特性的新内容。

合合信息提供一种图像处理技术来去除屏幕上出现的摩尔纹。这种技术能够保留图片中原本的颜色和纹理,并且在不影响这些细节的情况下提高图像清晰度,从而提升视觉效果。

具体步骤如下:

1. 首先,需要下载并安装合合信息提供的去屏幕纹软件或插件。

2. 打开软件或者插件后,将需要处理的图片导入到程序中。

3. 软件会自动分析图像中的摩尔纹,并使用先进的数学算法来定位和消除这些纹路。

4. 在去除屏幕上摩尔纹的同时,保留了原始图片的颜色、纹理以及字迹细节,从而达到了清晰度提升的目的。

这个过程是通过人工智能技术实现的,它能够处理各种不同的屏幕环境下的图像。

可以看到合合信息图像去屏幕纹功能能够高效地完成图像恢复任务。它最大程度地恢复被屏幕纹污染的照片,并去除所有样式的屏幕纹。此外,该功能还能保证图片细节信息完整,便于后续进行分析。

3.3 智能图像处理技术的综合应用

3.3.1 手写擦除

在期末复习时,我们经常希望清除之前做过的痕迹,以避免干扰自己对新题目的思考。合合信息的手写擦除功能正好满足了这一需求。通过该功能,用户可以轻松地去除屏幕纹,恢复出原始的干净试卷,便于重新开始作答并检测自己的学习成效。

这一应用集成了上述文档图像智能和手写擦除技术的多项功能。首先,它能够恢复原始没有手写的文档,并且需要高质量的图像作为输入。合合信息的“字迹擦除”技术融合了内容切分、手写字迹分离网络以及文档质量增强技术,对于复杂的场景进行了准确处理,实现了作业及试卷笔记的“一键擦除”。应用允许用户只需点击即可清除试卷上的手写字迹,从而获得干净的原始试卷。此外,它还提供了快速整理错题的功能,通过识别错误区域、清除作答痕迹,并分类整理错题来帮助用户更好地复习和学习。

### 3.3.2 PS 痕迹检测

PS 是一款图像处理软件,以其图像处理效果的精确性为世人所称道。然而,这一特性也让它成为“有心之人”利用的对象,例如伪造发票、请假条等,从而对文本图像的安全构成威胁。因此,篡改图像需要引起重视,而相应的检测方法却尚未得到充分探索。

PS 痕迹检测的任务是定位图像中的所有区域,并通过纹理的真实性判断其是否被篡改。该任务面临的两个主要挑战分别是:

1. **相似性问题**:真实图像和篡改图像的纹理相似度较高。

2. **不平衡问题**:由于检测真实图像和篡改图像的难度不同,现有的模型无法平衡这两类学习过程,导致检测精度的不平衡。

基于行业领先的自研篡改检测系统,合合信息开发了PS 检测系统。该系统能判断图片是否被篡改,并支持多种证照类别(如身份证、护照、行驶证、驾驶证等)以及文档类别(如增值税发票、普通发票、小票、合同等)。其模型架构如下所示:

![PS 痕迹检测系统](https://www.example.com/ps-trace-detector.png)

这个架构展示了如何利用先进的算法和技术,以高效和准确的方式识别图像是否被篡改。通过分析图片的纹理特征,并结合具体应用领域的知识与经验,合合信息的PS 检测系统能有效地应对各种篡改威胁,保障图像的安全性和真实性。

在下图中,我们可以看到,即使对于人眼而言也难以察觉的微小PS修改痕迹。利用合合信息的PS检测系统的“火眼金睛”依然能够准确地将其揭露出来,体验地址为:合合信息PS检测。

4. 图文智能处理与多场景应用技术进展

4.1 生成式人工智能与元宇宙

近年来,元宇宙已从概念逐渐转化为实际的应用。元宇宙的核心在于人的虚拟化和物的虚拟化。生成模型可以作为元宇宙的内容生成器、虚实连接器及效率加速器。上海交通大学人工智能研究院常务副院长杨小康教授在“CSIG 企业行”活动中分享了团队在生成式人工智能领域的研究成果。

为了推动元宇宙的发展,世界模型需要更接近物理模型,注重表观模拟与物理现象内部机理的推断;而数字人则需更逼真、通用,能够满足立体视觉渲染、多模态驱动及动态模拟的需求。在数字人与世界模型交互方面,关键在于在世界模型上训练智能体以反哺真实世界的决策过程。

预计到2025年,生成式模型产生的数据将占据人类全部数据的10%以上,根据28原则,当生成式数据超过80%时,人类将全面进入元宇宙。生成式人工智能为构建基于视觉直觉的物理世界模型和虚拟数字人提供了可行途径。

通过数学、物理、信息论、脑认知及计算机等学科的交叉研究,可以进一步夯实生成式人工智能的基础理论,并通过物理+数据联合驱动,实现虚拟与现实的深度融合,加速科学发现、物质合成以及元宇宙构建。

目前较先进的汉字识别模型基于部首建模。利用生成模型进行文字识别时,可以实现联合优化,优化过程类比学生学习汉字的过程,在学习中通常识字与书相互强化。该模型可以通过减少建模类别、通过对偶学习、对比学习和注意力机制等提高汉字识别准确率,并可用于错字检测与错误定位。

在表格结构方面,SEM 架构将表格结构识别分为三个步骤:首先是 Split,将表格拆分成一系列基础网格;然后 Embed,提取网络级别的多模态表征;最后是 Merge,完成基础网格归并预测(跨行跨列表格单元)。

在文档总体结构建模方面,基于预训练的文档模型实现了文本行级别的树状结构可视化以及跨页文档要素的分类和跨页文档结构的恢复。这个过程主要包括三个关键步骤:元素块特征提取与识别、父节点定位和子-父节点关系分类。

首先,通过GraphDoc模型进行元素块特征提取,并对整个文档结构化任务进行拆解:

1. **元素块分类任务**:

- 确定文本行级别的元素块类型(如标题、段落等)。

- 对每个元素块进行识别和标记。

2. **父节点找回任务**:

- 根据预训练模型对文档结构的先验知识,确定每个元素块是属于哪个父节点。

- 需要找到所有具有相同子类属性的元素块,并定位其父节点。

3. **子-父节点关系分类任务**:

- 分析和识别各个父节点与其子节点之间的关系类型(如并列、从属等)。

- 通过这些关系,进一步细化文档结构化的过程。

4.3 大型语言模型的关键技术

ChatGPT 可以看作是人工智能里程碑式的应用,它大幅提升了泛化能力和加速了通用人工智能的实现。复旦大学计算机学院教授、上海市计算机学会自然语言处理专委会主任邱锡鹏在“CSIG 企业行”活动中分享了以 ChatGPT为代表的对话式大型语言模型的主要特点。

在语言模型中,最重要的能力是涌现能力,类似于生物只有大脑足够大才能有高级智能一样。只在模型大到一定程度才会出现的能力,这是大型语言模型的最核心能力。虽然对于涌现能力的原理学术界仍存在不同假设,但涌现能力确实能够令模型性能出现飞跃式提高。

邱锡鹏教授还提到,生成与检索结合的结构化对话成为新的研究重点,这不仅限于大规模的预训练数据集和先进的算法技术,还需要更多的实际应用探索。此外,随着计算资源的增长,大型语言模型的训练效率正在逐步提升。

在 ChatGPT 中包含三个关键技术:首先是情境学习,大模型的涌现能力改变传统学习范式;然后是思维链,大模型的涌现能力打破模型参数约束;最后是指令学习,通过人类反馈对齐人类意图。

类似 ChatGPT 的对话式大型语言模型通常具有以下特征:自回归语言模型,百亿参数以上;具有思维链、情景学习等涌现能力、能够执行人类指令;可以直接与人类对话;与人类价值观、思维方式对齐。

为了适应复杂跨媒体数据协同分析与应用的需求,研究者们将图像和视频与其他类型的数据相结合。视觉-语言跨媒体分析研究的前景广阔,包括图文匹配、图像描述、视觉问答、听文作图等任务。在“CSIG 企业行”活动中纪荣嵘教授分享了团队的新成果。

图像描述是自动生成给定图像内容的自然语言描述,其连接视觉与自然语言、计算机视觉与自然语言处理,是目前最受关注且最具潜力的人工智能研究任务之一。传统的图像描述基于编解码器架构,但其通常具有以下缺陷:丢失视觉特征空间关系信息,视觉特征送入解码器时经过展平处理造成空间信息损失;单词同方式处理,没有区分视觉和非视觉词。

目前,性能较好的基于网格增强和自适应注意力的图像描述模型将网格与网格之间的相对几何关系引入到视觉特征中。该模型输出的隐含状态动态地度量视觉信息和语言信息为预测每个单词做出的贡献,能够解决视觉特征空间关系信息损失和无法区分不同词性单词的问题。

此外,跨任务协同也是人工智能研究的重要方向之一,其主要涉及两个关键问题:指向性检测与指向性分割。指向性检测的目标是根据自然语言指令来识别并定位语义指向的物体。现有跨任务协同方法大多采用多阶段处理方式,虽然速度较慢,但检测和分割任务之间在单阶段网络中难以促进相互作用,并且在复杂场景下可能由于不同任务预测的分歧而导致问题。另外,传统的多阶段模型的速度受限于视觉预训练,而单阶段单任务模型则速度快但精度低,无法执行多个任务。

针对这些问题,一种新的方法——多任务协同的指向性目标检测-分割网络,能够有效解决多任务下的预测分歧问题,并在双任务上显著超越传统方法。该网络由两个重要技术组成:协同能量最大化模块(最大化任务间的统一性,实现跨任务知识蒸馏)和自适应非极大值抑制(增强任务间的统一性,提高分割的鲁棒性)。与多阶段模型相比,该网络不仅提高了精度,而且在保持接近实时推理速度的同时,同样能够执行多个任务。

在跨媒体数据协同研究方向,语言统计先验的重要性不可忽视,特别是概念层次结构和分布特征;细粒度、高判别力特征对于跨模态任务至关重要,并且大规模预训练模型在这个领域表现出显著优势;同时视觉-语言的研究也应是双向的,各自的新发现和方法可以互相迭代促进;未来在跨空间、跨领域、跨任务知识迁移方面有着较大的探索空间。这将有助于我们发现新的科学问题。

小结

AIGC(人工智能生成内容)是一个快速发展的领域,拥有广泛的用途前景。通过不断改进技术和解决相关问题,AIGC技术有望成为许多领域中的重要工具和资源。本文通过总结“CSIG 企业行”活动中众多大咖的报告分享,对未来 AIGC 的发展前景进行了展望。

总的来说,随着诸如合合信息等公司的AI工程师在底层视觉研究中提出更多高性能支撑技术以及学术界和工业界的研发更多AIGC应用,AIGC将会不断纠偏和完善,朝着有利于人类的方向发展。我们有理由相信未来各个行业都会配备高水平的 AIGC助手提高人类生产力。

(原文略)