
快科技5月6日音书,当天,火山引擎秘书,Doubao-Seed-2.0-lite升级新版块,这是豆包大模子家眷首款全模态清爽模子。
据先容,新版Doubao-Seed-2.0-lite撑捏视频、图像、音频、文本的原生和谐清爽,Agent、Coding与GUI才略也同步升级,进一步面向复杂业务场景增强多模态推理才略。
在视觉清爽方面,Doubao-Seed-2.0-lite持续大幅进步,在物理HiPhO、医疗MedXpertQA等高阶学科推理任务上,新版块施展已大幅卓越本年2月发布的Doubao-Seed-2.0-pro。
同期,该模子在细粒度感知BabyVision、WorldVQA,天博体育(TianboSports)官网以及具身清爽ERQA等关节畛域达到SOTA水平,更合乎企业在高价值场景中进行限制化部署。
加粗示意最优效果,下划线示意次优效果
张开剩余60%这次升级的一大重心是融入语音清爽才略,新版块可同期清爽多种输入模态,并完成跨模态采集推理,粗略平直处分那些必须“音画市欢”才略判断的复杂业务需求。
举例在视频清爽场景下,Z6尊龙凯时Doubao-Seed-2.0-lite不错采集分析视频画面与音频信息,精确判断视频中的视听一致性,也即是“看到的”和“听到的”是否匹配。
它还撑捏凭据当然谈话领导,在视频中精确定位特定事件发生的时辰点,并能高出多个时辰段索求关节陈迹,捏续跟踪东谈主物与事件发展,基于画面进行多步逻辑推理,复原事件关连与活动端倪。
音频才略方面,新模子撑捏19个语种的精确语音转写,以及中英文与其他14个语种互译。
此外,它还能捕捉语音中的情愫变化、环境配景声与音乐细节,输出更完好意思、更接近东谈主类领路的语义信息。
凭据公开评测集,Doubao-Seed-2.0-lite在语音识别、翻译等多项音频清爽基准上优于Gemini-3.1-Pro。
值得一提的是,Doubao-Seed-2.0-lite还深度适配OpenClaw、Hermes Agent等框架,强化深度搜索与Skill动态调用,可在实行任务历程中捏续千里淀劝诫,好意思满“越用越机灵”。
发布于:河南省Z6尊龙凯时官方网站