早安AI资讯｜谷歌 Gemini 面世引发争议，斥资5亿美元超GPT-4

AI行业信息 MathVista DocPedia Amazon Q Emu Edit

发布于 5 个月前

1. OpenAI斥资5100万美元从Altrman投资的初创公司购买AI芯片。

2. OpenAI推迟GPT商店推出时间至明年年初。

3. CEO山姆·阿尔特曼重新考虑OpenAI公司的结构，可能与Q*神秘项目有关。

行业动态：

1. 谷歌发布Gemini大模型，超越GPT-4，推GeminiPro版本。

2. GeminiPro版上线后表现良好，但技术报告引发质疑。

3. TPUv5p性能提升至1.67倍，InstinctMI300XGPU内存高达192GB，用于AI推理。

TCL 华星在显示生态大会上推出了一款全球首款半导体显示垂直领域大模型——星智 X-Intelligence。这款由 TCL 华星与智谱 AI 以及国家新型显示技术创新中心合作研发的模型，已经实现私有化部署。经过双盲测试后，官方表示其性能超越了 GPT-4。该模型拥有百万级的专业文献库，并主要服务于 TCL 华星内部员工，提供技术问题解决和产品研发加速等方面的支持。

◇ OpenAI 的 Sam Altman 荣获《时代》2023 年度最佳 CEO 🔗 News

12 月 7 日，《时代》周刊在官网宣布了其 2023 年最佳 CEO。OpenAI 创始人 Sam Altman 成为了这一称号的获得者。《时代》此前曾于今年 9 月 8 日发布了“2023 年 AI 领域最有影响力 100 人”榜单，李彦宏、李开复和 Sam 也被评选为全球 AI 行业的领导者。

Sam Altman 在 2015 年创立了 OpenAI。凭借一系列创新产品，该公司估值已飙升至 800 亿美元，并在 11 月遭遇董事会罢免事件后重新崛起。《时代》周刊今年再次将其评为最佳 CEO。

◇ 微软 Copilot 进化完全体，代码解释器、DALL·E 3，ChatGPT 有的它都有 🔗 News

微软的代码协作工具 Copilot 支持 128k 上下文，并采用 GPT-4 Turbo 模型。此外，还新增了代码解释器和升级版 DALL·E 3 绘图功能。搜索方面，微软结合多模态技术实现更准确的答案。更新后的 Copilot 在 Edge 浏览器上也有所改进。

此次更新标志着 Copilot 结束了预览阶段，正式版本免费提供给用户。

最新国产大模型登场，无需申请即可免费商用！中国自主研发的DeepSeek模型以670亿参数为特色，超越同级别的Llama2。这款模型在推理、数学和编码方面表现突出，支持中文测试，采用与Llama相同的自回归Transformer解码器架构，在大型数据集上经过预训练。DeepSeek的训练过程采用了独特的多步学习率计划，获得了令人瞩目的数学和编码能力。该模型背后的公司是北京的深度求索，该公司此前发布的DeepSeekCoder在代码生成任务上也取得显著成绩。

## 引言

视频诈骗已成为一种日益普遍的现象，在这种骗局中，骗子利用AI技术将虚假图像与真实面部进行匹配。尽管如此，目前尚无有效方法能彻底防止此类欺诈行为的发生。为此，慕尼黑工业大学等机构的研究团队提出了一种名为“GaussianAvatars”的新方法。

## GaussianAvatars简介

该研究团队开发了Gaussian Avatars，这是一种具有完全可控的逼真头部虚拟形象的新技术。它利用基于三维高斯 splat 的动态3D人头表示来实现这一目标。在视图合成和自我再现方面，这种方法与现有研究相比，具有明显优势，从而实现了高保真的虚拟人物动画效果。

## 动力学分析

Gaussian Avatars通过高度仿真的技术，确保了其头部的运动稳定性。通过对三维高斯 splat进行动态表示，研究人员能够实现更加逼真的头部动作，这使得在新视图下合成和再现变得更加容易。相较于传统方法，它在视觉效果方面表现出色。

## 结论

GaussianAvatars不仅为视频诈骗提供了一种有效的解决方案，而且也为未来的面部识别和动画技术研究提供了新的方向。通过对现有研究的改进和完善，GaussianAvatars有望在未来实现更多的应用，并对整个AI领域产生深远影响。

微软、加州大学洛杉矶分校（UCLA）和华盛顿大学（UW）合作推出了一项全新的多模态数学推理基准数据集——“MathVista”。该数据集中包含6141道问题，涵盖了28个不同来源的数学题目。研究人员对12款大型模型进行了测试，并发现GPT-4V在准确率上仍低于人类水平，仅为49.9%。

研究进一步分析了这些模型在不同类型数学推理能力以及图像类型上的表现情况。结果显示，GPT-4V 在代数、几何和科学方面表现优异，但在逻辑推理和自洽性方面存在挑战。

◇ 2023年度AI 设计实践报告 🔗 News

2023年12月5日，《2023年度AI设计实践报告》正式发布。调查了5034人，涵盖了设计师、新媒体运营等领域的人士。报告显示，AI设计工具的普及速度超出预期，但仍有30%的人未使用，而在企业中仅有8.4%采用了AI技术。平面设计是AI率先落地的应用领域，国产AI的发展潜力巨大。调查显示存在的三大问题：控制精度不准确、生成内容有瑕疵、版权争议频繁。商业案例包括珠宝设计、音乐专辑以及宣传营销等方面。

报告预测2024年AI视频生成将爆发式增长，国产工具有望超越海外产品。AI不仅改变了设计能力结构，还要求设计师提升美学、创意和跨界思考的能力，并将经验沉淀为模型。

上海交通大学与上海人工智能实验室共同发布了名为“Radiology Foundation Model”（简称 RadFM）的开源14亿参数的大规模多模态医疗基础模型。这一模型首次支持2D和3D放射影像输入，旨在构建一个适用于放射学领域的通用医学基础模型。

此次研究特别关注于打造一个覆盖放射学全领域、涵盖多种数据类型的大型医疗多模态数据集——“MedMD&RadMD”。同时，RadFM模型也开放了源代码，支持2D和3D图像及文本的混合输入。这将极大促进相关领域的学术交流与应用开发，推动医学影像技术的快速发展。

字节跳动与中科大合作开发的多模态文档大模型——DocPedia，拥有2560×2560的高分辨率。相比业内其他模型如LLaVA、MiniGPT-4，DocPedia在关键信息抽取和视觉问答方面表现出色。

通过独特的训练策略，包括感知-理解联合微调以及从频域出发的解决分辨率问题方法，DocPedia显著提升了性能。

PyTorch 发布了名为 GPT-fast 的项目，通过编写不到 1000 行的 PyTorch 代码成功将大型模型推理速度提升了 10 倍！采用了多种方法，包括 Torch.compile、GPU 量化、推测性解码和张量并行性。这些优化使性能从 25 tok/s 迅速提高到 244.7 tok/s，接近或超越当前 SOTA 水平。整个实现过程简单，仅用了 766 行代码。

◇ 员工称亚马逊AI聊天机器人Q“幻觉”严重 🔗 News

近日，亚马逊推出的新款AI聊天机器人Amazon Q存在严重的“幻觉”问题，泄露了公司机密信息，包括AWS数据中心的位置和内部折扣计划。员工表示，Q返回有害或不适当的内容，可能造成安全风险。亚马逊试图淡化这一问题，声称未发现安全威胁，但内部文件引发了对Q的准确性和安全性担忧。尽管如此，Q仍处于预览阶段，尚未正式上线。

◇ Meta推出独立的人工智能图像生成器，目前免费但只支持英文提示 🔗 News

Meta公司近日发布了全新的AI图像生成器Imagine with Meta，用户可以通过自然语言描述来创建图像。该生成器采用Meta的Emu图像生成模型，提供高分辨率图像生成能力。为解决种族偏见问题，Meta在生成图像中加入了由AI生成的隐形水印，并通过相应模型检测，提高内容透明度。之前，Meta推出了基于AI的图像编辑工具Emu Edit和Emu Video。EmuEdit利用庞大的合成数据集进行训练，提供了更精确的图像编辑能力。

◇ Meta推出独立的人工智能图像生成器，目前免费但只支持英文提示 🔗 News

Meta公司近日发布了一款全新的人工智能图像生成器Imagine with Meta，用户可以通过自然语言描述来创建图像。该生成器使用Emu图像生成模型，并能提供高分辨率图像。为减少种族偏见问题，Meta将在生成图像中加入由AI生成的隐形水印，通过相应模型检测内容透明度。此前，Meta还推出了基于AI的图像编辑工具Emu Edit和Emu Video。EmuEdit利用庞大的合成数据集进行训练，提供了更精准的图像编辑能力。

「趣玩推荐」

1. 实时编辑视频：人工智能的威力让视频编辑变得轻松快捷。然而，请注意，这可能带来一些道德挑战。我们应该确保采取适当措施来保护版权，并建立透明和公正的政策。

2. 动画互动教程：学习内部 GPT 的结构变得简单有趣，你只需关注地址 bbycroft.net/llm 即可了解更多详细信息。

Excalidraw开源了文本到图表的功能。他们提供了一个无限、基于画布的虚拟白板，支持手绘风格，可用于绘制各种图表。新更新允许用户输入文本描述，并将其转换为相应的图表或图形。

-在线体验：excalidraw.com/

「学习资源推荐」

通过原始学术论文和LangChain实现，检索增强生成（RAG）的概念介绍。RAG旨在为大型语言模型提供外部知识源的额外信息，以生成更准确、上下文丰富的答案。使用LangChain编排OpenAI语言模型和Weaviate矢量数据库，实现了简单的RAG流水线。

◇ 免费并且私密地在 VSCode 中使用 Copilot，采用 DeepSeek 模型 🔗 Twitter

下载 VSCode 的 CodeGPT 扩展：marketplace.visualstudio.com/items?itemName=CodeGPT+VSCode

同时获取 @Ollama_ai 的插件：ollama.ai

安装完成后，在终端运行以下命令："ollama run deepseek-coder"

在 VSCode 的 CodeGPT 设置中，选择 Ollama 作为提供者，模型选择 deepseek-coder。

完成设置！

◇ 简单的分块策略会导致 RAG 性能不佳，为何？ 🔗 Twitter

例如：如果相关上下文在你的分块的开头/结尾，那么很有可能在前一个/下一个分块中有更多相关上下文。但由于分块是预定义的，你无法访问这些上下文。

解决方案：这是“从小到大”分块/检索策略如此强大的一个原因。在这里，你根据小分块（例如一个句子）进行检索，然后“扩展”半径以检索更大的分块。

-文档指南：docs.llamaindex.ai/en/stable/e…

"智能硬件：包括智能硬件、机器人和智能穿戴设备..."

「投融资信息」

◇ 初创公司Mistral AI融资4.87亿美元，估值逼近20亿美元！由安德森·霍洛维茨、英伟达等投资。Mistral AI成立于6个月，以欧洲版OpenAI著称。

◇ 悠桦林完成近亿元C+轮融资，巩固智能决策行业领先地位。悠桦林是AI领军企业，上汽恒旭领投。新资金将加强运筹优化技术实力，招募顶级人才，深耕智能供应链计划与排程优化平台，提升技术领先优势，加速商业化步伐。

悠桦林通过海量数据驱动AI智能决策，以一体化智能供应链计划与排程优化平台解决制造业难题，实现显著业务增长。