阿里通义上新：AI终于能做真正的PPT了！还免费

2024-11-13 00:00

这年头，哪有人上班不发疯的（doge）。

就拿PPT来说，赵晓卉 PPTSD 这词儿一出，那真是戳到了打工人心坎上。

对啊，PPT是什么高贵的东西啊！都大模型时代了，就没有哪个AI能又好又快地帮我搞定这事儿吗！

还真别说，打工人是会心疼打工人的。就在编辑们孜孜不倦寻找解放双手的大模型工具的日常中，诶嘿，最近还真又挖到了新神器

通义直接在网页版里上新了效率版块，功能很直给：实时记录、阅读助手，还有PPT创作。

其中，PPT创作属于是新鲜出炉。

简单来说，主打一个功能是大模型给的，但并没多大 AI味。

最关键的是，免费。

这咱不得抓紧测试一波

拒绝PPTSD

具体来说，通义PPT创作主要提供了两种PPT制作方式。

一句话主题生成PPT：

如果你啥思路没有，只有一句话主题，那么可以把主题当成Prompt直接扔给大模型。

当然，如果你已经有完整的思路大纲，它也支持最多10万字的超长文本输入。

上传文件生成PPT：

文档、音视频文件都支持。

那么就，先给又菜又爱玩的手残党同事们，搞一份《黑神话：悟空》攻略（PPT版）吧。

提示词很简短，就是：《黑神话：悟空》游戏攻略。

一份像模像样的PPT大纲秒速生成：

哪里看不顺眼可以上手修改，懒人党也可以直接下一步选模板。

在不提供任何背景资料的情况下，通义生成的PPT能达到什么样的效果？

点击生成PPT ，等待不到1分钟，答案即刻揭晓。

应该是基于通义大模型的联网搜索能力，生成的游戏介绍里，《黑神话》的制作方、游戏引擎等重点信息都没出错。

不过大模型本身看上去并没有被剧透，在具体游戏内容上，有点脑洞大开。

但话术组织，设计排版，还真可圈可点。

单看这文案，确实没什么AI味儿，说得上是言之有物。

人机协作修改起来也很方便：

点击文本框既能直接修改文字，也可以一键召唤大模型帮忙一起优化文案。

配图同样可以交给AI生成。

不会写提示词也没关系，通义PPT内置咒语书，点击即用，也可以作为参考。

看样子，日常用来糊弄老板妥妥够用了（不是）。

上传文件生成PPT

咳咳，还是回到正经用途上，如果喂给通义PPT更详细的文档资料，它又会表现如何？

比如，投喂一份内部培训资料，让通义PPT来帮忙搞定培训PPT。

效果上be like：妈妈再也不用担心我开会前做不完PPT。

PPT生成的内容和上传文件关联性很高，基本上把文档重点都划出来了，直接拿来用问题也不大。

简单总结一下，通义这波上新的PPT创作，具有以下几个优点：

言之有物：做到了生成文本更像人话（去AI味），并且不是片汤话，能结合用户需求和上传文件输出有信息量的PPT内容。

模板丰富：提供了各个不同场景、行业适用的PPT模板，设计美观，大学生到上班族都能用。

智能编排：提供了全流程智能编排的能力，可在线实时调整PPT模板编排、PPT配图智能生成、PPT文本智能改写等。

进一步扒拉了一下，通义PPT背后的基础模型是通义千问大模型2.5，相比上一版本，Qwen 2.5的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%，性能超越GPT-4 Turbo。

在对长文档的支持方面，通义PPT支持1000万字长文档，包括PPT、PDF和网页。

多模态方面，支持上传最长6小时的音频、视频，也可以输入链接导入线上音视频。

文生图功能，则是引入了通义万相的能力。

三合一通义效率

值得一提的是，与PPT创作共同存在于通义效率版块的，还有另外两个功能：

实时记录，以及阅读助手。

不说不知道，这两者其实都是通义用户的老朋友。

实时记录，原通义听悟，是音视频内容方面的AI助手。

应用场景聚焦课堂记录、会议记录，能完成的工作，包括语音转文字、发言人区分、智能总结等。

界面非常简洁，选择语言（能识别中、英、日三种语言），确定需不需要实时翻译成中文，即可开始在线录音。

外教课or国际会议，不用愁了。

在通义实时记录，录音是实时的，语音转文字是实时的，英文/日语录音转译成中文是实时的。

连边转文字边修正错别字，也是实时的。

是真的很实时（手动狗头）。

不仅可以很好地区分发言人，根据不同发言人整理核心观点，而且，用户可以边听边选中文段，自己划重点。

边开会边做会议纪要，不是梦。

整个界面的右侧板块，是用来写写画画自个儿做笔记的部分。

当录音结束后，这一板块会划分成三个区域：

导读：对录音内容进行AI总结，包括摘要、章节速览、待办事项等；

脑图：根据录音内容整理出思维导图，帮助快速掌握会议要点和脉络；

笔记：顾名思义，是录音过程中用户自己记录下的内容。

关于实时记录，最后来划个重点：支持每天20小时的录制撰写时长，使用免费！还是免！费！

阅读助手，功能等同于原来的通义智文。

上来就先告诉你，与实际记录一样，它同样是免费的。

在阅读助手，各种格式的文档/论文/图书，包括PDF（含扫描件）、word、图片、HTML、Markdown、EPUB、Mobi，无论是网页链接还是播客链接，都能被精准速读。

而且，超多格式伴随着超大容量

文档，可以是长达1000万字的；音频视频，可以是6小时起步的。

非常Nice。

上手测试过程中，我们喂给了它两本书，分别是193页、英文版的《我们赖以生存的隐喻》，和500页、中文版的《埃隆马斯克传》。

首先，很关键的一个功能是阅读助手支持全文翻译，翻译速度还很快，几乎不用等。

对经常读外文文献的朋友们来说，真的非常友好。

其次，AI提炼出的导读部分，也会翻译成中文呈现。

这一部分由全文概述、关键要点、速度导览等组成；如果丢给它的是论文，还会有论文速读（核心要点总结）、论文总结（文章优点、方法创新点、未来展望），帮助用户快速理解内容。

如果嫌弃导读还是太长？

没关系，指路旁边的脑图，分分钟厘清主要脉络。

更有意思的是，在阅读助手里，用户能针对原文划词解读，辅助理解关键点。

可以选择在板块底部的对话框，问出所有你不明白不理解的文档相关问题。

这个功能约等于让死的论文活过来交流探讨。

如此这般，实时记录、阅读助手、PPT创作，形成了三合一的通义效率。

实时记录功能能够迅速捕捉并保存每一个重要信息；

阅读助手则是辅助位，帮助在知识中筛选、提炼，让用户短时间内掌握核心要义；

而PPT创作则能借用大模型的AI能力将散落的信息整理成富有逻辑性和视觉冲击力的展示材料。

这三者相辅相成，共同构成了一个从信息整理、阅读理解到内容创作的完整工作学习流程；每一步环环相扣，不管是面对工作还是学习，都能事半功倍。

大模型应用想卷，得靠技术和体验

上面提到的三个功能，都可以在PC端丝滑使用。

多说一嘴，除了PPT创作，另外两个功能还能在手机端体验。

我们希望通过这些工具帮助用户节省时间，提升工作学习效率，激发无限创意。通义效率产品经理王晓明表示，未来围绕工作学习场景，通义会持续帮用户用AI技术提效。

通义效率背后，正是基于强大的通义大模型。

阿里旗下通义千问大模型聚焦开源路线，家族阵容庞大，是国内的头部梯队玩家，在多个全球评测榜单上也常常名列前茅。

通义近期发布了全球性能最强的开源模型Qwen2-72B，该模型提升了代码、数学、推理、指令遵循、多语言理解等能力。多个国内外榜单显示，Qwen2-72B成为排名第一的中国大模型，也是全球最强的开源模型。

长期耕耘得来的技术优势，为通义效率提供了源源不断的创新动力。

而三合一整合后推出的通义效率，精准地围绕工作学习流程，将信息整理、阅读理解到内容创作这三大功能进行了无缝打通，形成了一个高效的工作学习闭环。

这一闭环不仅能够激发用户的创意思维，还能够显著提升工作效率。

更为重要的是，通义效率率先将这些功能全部实现在PC端，真正做到了需求在哪里，效率就在哪里发挥作用。

这种以用户需求为导向的设计理念，使得通义效率在提升用户工作效率的同时，也极大地增强了用户体验。

当然了，换个视角来看，通义上线效率的背后，其实反映了市场的选择和趋势

大模型的应用正在朝着智能化、个性化、一站式、高效率、少人工的方向发展。

这正是大模型在应用层面的本质体现。

随着大模型日益融入大众的日常生活，用户在入门上手之后，追求的便是更加卓越的体验。

如果技术不够先进，体验不够优秀，那么就容易被用户和市场所抛弃。

因此，大模型的应用落地和推广，必须走向更实用、更好用的方向。

实际上，我们正在见证这一趋势的发生，通义效率的选择，就是最好的证明之一。

它告诉我们，应用落地和推广，只有真正满足用户需求，提供优质体验的产品，才能在AI 2.0的模型与应用大潮中站稳脚跟。