央企首推：中国电信研发的视频生成AI大模型

AI行业信息视频生成大模型视觉大模型 AI开发者大会智传网技术中国电信

发布于 5 个月前

12月3日，在中国电信举办的“2024数字科技生态大会”上，首次举办了“TeleAI 开发者大会”。在会上，TeleAI发布了视频生成大模型、视觉大模型产用一体化平台、具身智能以及智传网等一系列创新技术产品和科研成果，并推出了开发者产业联盟计划。中国电信总经理梁宝俊出席并致辞，CTO李学龙和首席科学家作主旨演讲。梁宝俊表示，随着信息技术的迅猛发展，人工智能已经成为新一轮科技革命和产业变革的重要力量，主要国家和地区纷纷入局竞争。作为推动新质生产力的重要引擎，人工智能成为推进中国式现代化的先锋力量。中国电信肩负使命担当，全面深化改革，加强科技创新自主创新和技术攻关，率先布局人工智能战略发展，并积极推进“AI+”行动。中国电信将携手中电信人工智能公司和TeleAI研究院，持续突破人工智能技术攻关，持续提供智能产品方案，并为开发者提供更优的研发平台和生态环境。

首个央企全自研视频生成大模型，这次发布的创新性视频生成大模型采用了名为“VAST（Video As Storyboard from Text）二阶段技术”的新方法，它能够通过文本描述精准绘制出包含视频构图、主体目标位置以及人物姿态等关键信息的“故事板”。然后基于这个“故事板”，生成对应的视频内容。

得益于 VAST 的创新，视频生成大模型能够保证单个或多个主体人物在不同视频片段中的外观一致，并能精确控制复杂的动作和交互式动作，同时让角色和目标物体的运动符合物理规律。基于这一能力，TeleAI 将语义、语音、文生图、文生视频等全栈大模型应用到短剧和影视制作的各个环节，覆盖文字脚本撰写、分镜脚本绘制、视频拍摄及剪辑、配音及音效合成等全流程，并实现降本增效。目前，在权威视频生成评测榜单VBench中，TeleAI 视频生成大模型排名第一。

基于知识的视图万物布控视觉大模型TeleSearch 2.0现已升级到最新版本，旨在实现动态知识挂载和行业事件认知，并驱动复杂逻辑的理解。

TeleSearch 2.0的目标是打破模态间的信息孤岛，支持上百个专业知识文档的挂载。在理解文档内容的基础上，它可以根据复杂长语句精准检索图片和视频，从而完成跨模态的复杂语义准确理解和超万种目标的精准搜索。

这款产品实现了对传统检索类目的指数级提升，并大幅加速了十亿级目标的搜索速度，大幅度提高了查询效率。

依托TeleSearch 2.0，中国电信建设了视觉大模型产用一体化平台。通过算法冷启动回流数据，摆脱了传统模型对大量数据的依赖，实现零训练数据直接推理，大幅降低了算法应用的准入门槛。平台支持小样本训练，仅需100个样本数据就能训练出高精度模型，实现了模型生产的全自动化过程。目前，该平台已成功应用于多个省份的应急项目，沉淀了20余个应急全流程感知场景，提高了灾害研判和应急响应的能力。随着视频生成大模型和视觉大模型的发布，星辰大模型系列完成了其全模态能力的构建。首届 TeleAI 开发者大会，共同打造AI开发新生态。

李学龙院长以“当梦想照进现实”为题进行分享，并发布了星海AI中台、天翼AI开放平台和星辰智能体平台等开放平台。这些平台帮助开发者大幅降低了开发门槛，构建了一个低成本、高效率的创新生态。

此外，他介绍了TeleAI的大模型全模态、全尺寸以及全国产化体系的最新进展，并展示了让智能像水一样流动到任何地方的智传网技术前瞻性布局。

在此次大会上，TeleAI 宣布与华为、中兴、亚信科技等 19 家公司合作发布了中国电信人工智能开发者产业联盟计划。该计划旨在汇集多方资源，加速人工智能领域的创新发展，提升技术能力和应用水平，并为全球开发者提供支持和赋能。

在大会上，TeleAI也宣布了与华为、中兴、亚信科技等19家合作伙伴共同成立了中国电信人工智能开发者产业联盟的计划。这个计划的目标是汇聚各方力量，加速推进人工智能产业的发展，并提高技术水平和应用能力。此外，它还将为全球开发者提供支持。