更新时间:2025-05-13 19:33:01 编辑:丁丁小编
来源:点击查看
简介
【太平洋科技快讯】5月13日,火山引擎在FORCE LINK AI 创新巡展上海站活动中,正式发布了一系列 AI 模型升级产品,包括豆包・视频生成模型 Seedance 1.0 lite、豆包 1.5・视觉深度思考模型以及豆包・音乐模型,旨在通过更全面的模型矩阵和更丰富的智能体工具,助力企业打通从业务到智能体的应用链路,加速智能化转型。
Seedance 1.0 lite:
此次发布的AI模型升级中,豆包视频生成模型系列的新成员——Seedance 1.0 lite尤为引人注目。作为该系列中的小参数量版本,Seedance 1.0 lite在技术上实现了两大突破:一是影视级的视频生成质量,二是视频生成速度的大幅提升,兼顾效果、速度和性价比。该模型支持文生视频和图生视频两种生成方式,视频生成时长可选择5秒或10秒,分辨率提供480P和720P两种选项。
Seedance 1.0 lite具备更精准的指令遵循能力,通过强大的语义理解能力,可以精细控制人物的外貌气质、衣着风格、表情动作等细节。此外,该模型在多主体动作解析、嵌入式文本响应、程度副词和镜头切换响应等方面也具有显著优势,能够生成更加自然、逼真的视频内容。
此外,Seedance 1.0 lite还支持丰富的影视级运镜技术,包括360度环绕、航拍、变焦、平移、跟随、手持等多种镜头语言,其生成的视频具备细腻高清的基础画质和影视级美感。在运动交互方面,该模型通过分析动作时序与空间关系,提升了人物和物体之间自然流畅的交互动作,使运动轨迹和受力反馈更加符合现实规律。
Seedance 1.0 lite模型的应用范围广泛,涵盖电商广告、娱乐特效、影视创作、动态壁纸等多个领域。例如在电商领域,该模型能够帮助商家快速生成高质量的营销视频素材,精准匹配产品展示和活动推广等场景,从而有效降低制作成本和周期。
豆包1.5:
豆包 1.5・视觉深度思考模型是一款激活参数仅 20B 的多模态模型。在 60 个公开评估基准中,该模型在 38 个方面取得了最佳成绩(SOTA),尤其在视频理解、视觉推理和 GUI Agent 能力方面表现突出。
在视频理解方面,豆包 1.5・视觉深度思考模型采用动态帧率采样技术,显著提升了视频时序定位的准确性。结合向量搜索功能,模型能够精确识别视频中与文本描述相匹配的片段,为视频内容的深入分析和检索提供了有力支持。
此外,该模型还具备视频深度思考能力。通过学习数万亿多模态标记数据,模型积累了丰富的视觉知识,并结合强化学习技术,显著增强了视觉推理能力。例如,在复杂的图形推理任务中,模型能够自主提出假设、进行推理验证,并在发现与假设不符时,不断反思并提出新的假设,直至得出正确答案。
值得一提的是,豆包 1.5・视觉深度思考模型还新增了 GUI Agent 功能。凭借其强大的 GUI 定位能力,该模型能够在 PC 端、端等多种不同环境中执行复杂的交互任务。例如,它可对新开发的 App 功能进行自动化测试,目前该功能已在字节跳动多款 App 产品的开发测试中得到应用。
豆包音乐模型: