- 发布日期:2025-06-16 06:10 点击次数:119
豆包的"眼睛"升级了,目下让它看一眼APP 截图,就能奏凯给你生成代码!
话未几说,咱们奏凯给它上一个难度。
举例咱们先就地截取一张网站的图片:
再来到火山方舟的大模子广场,pick 一下最新的 Doubao-vision-pro-32k 版块:
(PS:该模子也不错在豆包 APP 中体验)
然后把刚才的截图"喂"给豆包,并附上一句毛糙的 Prompt:
帮我写代码,克隆这个 APP。
只见豆包先是秒看出这是一个音乐 APP 的界面,紧接着就唰唰唰地敲起了代码。
从代码的功能上来,包括了菜单栏、播放列表框架、播放列表列表框和现象栏。
模拟的播放列表中包含了几首歌曲的信息,包括标题、艺术家、时长和点赞数等。
况兼这些齐是在不到 30 秒内完成的。
如果念念收场更复杂的功能,咱们亦然不错无间用说的:
那无间帮我收场更复杂的音乐播放诓骗。
这一次,也只是耗时1 分钟,在原先代码的基础上,新增了戒指面板、播放按钮、更新进程条等内容。
嗯,目下开辟一个 APP,简直酿成截张图的事儿了。
这即是豆包最新发布的新模子——豆包 · 视觉泄露模子。
抽象来看,它的亮点不错归结为如下三点:
内容识别更强:复古 OCR、图像学问、手脚情怀、位置现象等,尤其对中国传统文化泄露更深。
泄露与推理增强:优化数学、逻辑、代码的推理与问答智商。
视觉形色良好:提供注意图像形色,可创作多种体裁内容,如产物先容、故事、视频剧本等。
更热切的少许,发布即大降价——0.003 元 / 千 tokens。
罕见于1 块钱不错处理284 张图片!
不外有一说一,毕竟实践大模子"视力"这事,不可只看单一的产物。
因此,接下来,咱们就组个擂台,望望哪个大模子的"目光"更好使。
大模子"视力"大比拼
咱们请出的打擂台选手,恰是目下大模子的顶流之一—— OpenAI 的GPT-4o。
比试律例也很毛糙,就是通过不同维度的试题,来望望作答的效用。
Round 1:复杂、凄沧物体识别
第一轮比试中,咱们先小试牛刀一下一个不常见的生果,请看图:
然后咱们辩认问一下两位选手:
图中的是什么东西?
△上图为豆包作答;下图为 GPT-4o 作答(下同)。
从回应内容上来看,二者天然齐回卤莽了,但本性各有不同。
豆包 · 视觉泄露模子回应愈加与金铃子紧密接头;而 GPT-4o 则是更倾向于金铃子与苦瓜的不同。
如果比试条目是与图中物体高度接头,那么巧合豆包 · 视觉泄露模子的回应更优质一些。
再来一张冷门的图像,请看题:
这是什么?
再来看一下两位选手的作答:
它们齐看出来这是一个冷门乐器,不外这一次,豆包 · 视觉泄露模子昭彰回应的要更精确一些——乐器叫作念 Mizmar。
不仅如斯,它还把其材质、文化本性等信息齐诠释了出来;而 GPT-4o 这边的回应,只可说是形色了能够。
这一轮,豆包 · 视觉泄露模子,Win!
Round 2:大众来找茬
要比视力,那"大众来找茬"这个游戏就十足不可错过啦 ~
请看题目:
找出 10 个不同点。
咱们来看一下两位选手的回应:
这一轮的比拼中,问题就比较昭彰了,两位选手齐莫得齐全给出正确谜底(部分正确)。
看来 AI 玩大众来找茬如故具备一定的挑战性。
Round 3:反向猜 Prompt
目下 AI 图片生成的智商可谓是挥洒自如,但当咱们看到一幅满意的作品,却苦于无法复刻 Prompt 时,又该若何办?
这谈题,是时候不错交给"会看"的大模子来处理了。
举例咱们就地来一张比较抽象的艺术作品:
然后辩认让豆包 · 视觉泄露模子和 GPT-4o 来猜一下它的 Prompt:
看这张图,帮我写一段能够再行生成雷同作品的 Prompt。
为了平正起见,咱们不弃取豆包和 ChatGPT 自带的生图功能,而是将两段 Prompt 交给第三方Midjourney来处理,放弃如下:
△上图:基于豆包的 Prompt;下图:基于 GPT-4o 的 Prompt
从复原度上来看,巧合豆包 · 视觉泄露模子给出的 Prompt,是愈加靠拢原作的那一个。
Round 4:数学竞赛大比拼
数学题目是测试大模子逻辑推颖悟商很好的表率。
因此,咱们奏凯上一齐AIME 数学竞赛题,望望够不够"开门"。
(AIME:好意思国数学邀请赛,是介于 AMC10、AMC12 及好意思国数学奥林匹克竞赛之间的一个数学竞赛。)
这谈题目翻译过来是这么的:
每天朝晨,Aya 会进行一段长度为 9 公里的分散,然后在一家咖啡店停留。当她以每小时 s 公里的恒定速率行交运,通盘这个词分散加上在咖啡店停留的时间一共需要 4 小时,其中包含在咖啡店停留的 t 分钟。当她以 s+2 公里每小时的速率行交运,通盘这个词进程(包括在咖啡店停留的时间)需要 2 小时 24 分钟。
假定 Aya 以 s+1/2 公里每小时的速率行走,求她在这种情况下(包括在咖啡店停留的时间)的总时间(以分钟为单元)。
这个任务的难度在于,AI 需要先准确识别晦涩的数学问题和公式,尔后再进行精确的推理。
接下来,咱们辩认来看下豆包 · 视觉泄露模子和 GPT-4o 的施展(转折滑动稽查):
这谈题目官方给出的正解是204 分钟。
而 GPT-4o 的放弃却并非如斯,因此,本轮豆包 · 视觉泄露模子大获全胜。
Round 5:平素实用任务
其委果平素职责、学习生涯中,如故存在好多需要 AI 看图来补助完成的任务。
举例索求复杂表格的数据,巧合就会让好多东谈主打扰,尤其是准确性方面。
因此,咱们终末一轮就以苹果第四季度财务回报中的一个表格来作念测试(转折滑动稽查):
帮我抽取并整理图中的数据,用汉文来表述。
先来看下豆包 · 视觉泄露模子的回应(转折滑动稽查):
不出丑出,豆包 · 视觉泄露模子相配明晰地将财报数据以表格的形势展现了出来,不错说是一目了然。
可是,不异的需求给到 GPT-4o 这边,天然数据是索求了出来,但在呈现方式上却有所欠缺,依然是经典的胪列式(转折滑动稽查):
在几轮"擂台比拼"事后不出丑出,豆包 · 视觉泄露模子在智商上照旧具备了一定的上风。
但"眼睛"的升级,还只是豆包大模子这次发布内容的一隅。
说、唱智商齐升级了
没错,除了"看"除外,"说"和"唱"的智商也升级了。
而这也正对应了豆包大模子的三大类:
假话语模子
语音大模子
视觉大模子
最初在假话语模子方面,豆包的通用模子 pro与小半年前比较:
抽象智商提高了 32%
数学智商提高 43%
专科学问提高 54%
代码智商提高 58%
其次是语音大模子方面,豆包 · 音乐模子目下不错奏凯生成3 分钟齐全音乐!
举例咱们在其 APP海绵音乐里输入一个毛糙的 Prompt:
三分钟音乐,沧桑,男声,民谣,岁月蹉跎。
来听一下效用:
生成三分钟音乐的难度,并非只是毛糙的堆叠时长,而是更多触及到的是前奏、主歌、副歌、间奏、尾奏等齐全结构。
不仅如斯,这也和视频生成雷同,对前后的一致性建议了更高的条目。
而从这个音乐片断中不从邡出,确乎是作念到了上述的条目,况兼如故复古改词的那种哦 ~
除了不错用 Prompt 来生成音乐除外,目下豆包 · 音乐模子还复古用图片来作曲了。
举例咱们"喂"给海绵音乐底下这张图:
这次的效用是这么的:
从音乐中不错听出,AI 是识别到了图里《黛玉葬花》的嗅觉,歌词和配乐充满了哀伤之情。
据悉,豆包 · 音乐模子目下复古多达到 17 种曲风、11 种神气,以及 6 种特征的音乐。
终末,在视觉模子方面,除了咱们刚才展示的豆包 · 视觉泄露模子除外,豆包 · 文生图模子也迎来了升级——
目下,一句话不错料理 P 图这件事了:
戴上眼镜。
不仅如斯,作念海报,亦然几句话的事,况兼如故能生成汉字的那种:
生成一张海报,主体是汉字"量子位",充满科技感和将来感。
由此可见,这一次,豆包大模子在"说"、"唱"、"看"三大维度上确乎是提高了不小的实力。
不看告白只看疗效
不外有一说一,实力是一方面,站在大模子诓骗为王确当下,巧合好用才是真实的硬酷好。
在把 AI 用起来这件事上,其实豆包亦然拿出了一份得益单。
最初从数据上来看,范围 12 月 18 日,豆包大模子日均 tokens 使用量照旧冲突4 万亿大关。
其次再看骨子落地,据悉豆包大模子照旧上岗科教、金融、医疗、企业工作和汽车等繁密行业,照旧与多个头部企业达成互助。
阛阓和用户对豆包的买账程度,可见一斑。
而在此进程中,"易落地"亦然一个关节点。
这就不得不提这次也不异迎来升级的两大法宝:左手" HiAgent ",右手"扣子"。
举例 HiAgent 提供超 100 个行业诓骗模板和 GraphRAG 技能,提高学问处理准确性,复古多模态交互与复杂场景需求,企业无需从零开辟即可快速上线。
再如扣子领有百万开辟者和丰富生态,复古 200 万智能体,障翳智能客服、内容营销等场景,极大裁减开辟与部署时间。
除此除外,它兼容小形态、网页等多种形势,复古及时语音交互与硬件集成,企业可糟塌收场 AI 智商无缝镶嵌。
一言蔽之,低门槛模板、雄壮的生态复古和多平台兼容,是使得 HiAgent 和扣子能够快速适配企业场景,收场高效落地的关节。
那么关于豆包这次繁密的升级,你对哪个更感兴致呢?接待体验事后回归疏导哦 ~
— 完 —
点这里� � 怜惜我,紧记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日相逢 ~
- 欧洲杯体育有用管理恒久困扰行业的账号与口令安全问题-开云(中国)kaiyun网页版登录入口2025-06-11
- 欧洲杯体育不忽略任何一个大要促进传播、赢得受众的新媒体花样-开云(中国)kaiyun网页版登录入口2025-06-11
- 欧洲杯体育郭安娜无怨无悔为郭沫若生下了四个男儿一个女儿-开云(中国)kaiyun网页版登录入口2025-06-08
- 欧洲杯体育现在你给它一个数字体格-开云(中国)kaiyun网页版登录入口2025-06-03
- 欧洲杯体育不知民生证券实验委员会主席汪锦岭奈何看?汪锦岭-开云(中国)kaiyun网页版登录入口2025-06-02
- 欧洲杯体育是红运向你抛下的橄榄枝-开云(中国)kaiyun网页版登录入口2025-06-01