百万用户通话新风潮：仅需50秒，无界AI让彩铃变身短视频

2024-05-24 AIGC 0

无界AI是由杭州超节点信息科技有限公司创立的国内领先的人工智能生成内容（AIGC）平台，专注于人工智能大模型在图像视频领域的生成创造，为用户提供先进且丰富的AIGC工具，满足不限于动漫、影视、短视频创作及设计等各行各业的图片与视频内容生产需求。自上线以来，无界AI平台已累计超过400多万C端、B端用户。

在无界AI的图片/视频生成、AI写真等项目场景中，他们已使用硅基流动研发的图片/视频生成推理引擎OneDiff来提升效率。其中，在AI定制视频彩铃项目中，他们在对比评测多个推理加速引擎后选择了OneDiff，取得了显著的加速效果和使用体验，最终顺利与浙江联通达成合作。

作者｜无界AI算法团队

1 团队背景

我们无界AI算法团队主要专注于三大方向：一是自研行业模型训练，包含文本、图片、视频和3D模型等内容的生成，其中还涉及对不同行业场景数据定制的图片/视频打标模型，不同类型image/video caption对训练和作画的影响，以及适配不同的训练技术；二是算法的预研、改进和落地，比如可控的图片/视频/3D生成和编辑，图片和视频的风格化，小样本对象或风格化身等；三是企业解决方案的定制，对于一些大B客户的需求，在以上模型和算法的基础上，我们会给出更完整的解决方案。

基于这些方向，我们做过不少行业Top企业合作的项目，比如与万事利合作的丝绸纹样大模型，与某快消品牌合作的“回到童年”儿童节营销活动和手绘新春红包的新活动，与vivo合作的用一张用户图片3分钟制作化身生成AI写真，与《神隐》发行方合作的用一张用户图片化身剧中角色，以及与浙江联通合作的AI定制视频彩铃等项目。

2 项目挑战与技术选型

无界AI产品的一项功能是图片生成视频，让用户能基于一张图片生成对应内容的一小段视频。基于这个功能，我们跟浙江联通碰撞出AI定制视频彩铃项目，用户上传一张自己的照片，AI生成用户在特定场景中的动态视频，这个项目在春节期间开放给用户使用，场景上是与春节相关的喜庆画面，也可用作拜年视频。

上线期间，浙江联通向用户推送了这个活动，因活动形式比较新颖，吸引了大量用户。大量的用户制作请求给我们的项目带来了巨大挑战：在有限的资源下，我们要尽量减少用户的等待时间，因此生成效率十分重要。此外，项目方对效果的要求也比较高，用户人脸出现在场景后的人脸相似性，场景图片合成后生成视频的动态合理性，人脸的高保真等都是不小的挑战。

推理加速是我们团队一直在关注的领域，比如之前的AITemplate、OneFlow等，我们是从社区知道的OneDiff，在它支持SVD后，就第一时间对OneDiff社区版进行了各种使用场景下的详细评测，包括效果的一致性和显存的变化。OneDiff相比TensorRT等其他开源或闭源框架优势明显，简单来说：

一是加速比上更稳定。在普通的作画场景，不同尺寸下并叠加一些控制，使用OneDiff平均有40%以上的性能提升。在特定场景，比如图生视频，生成4s的1024x576和1024x1024画幅视频时，带来了约100%的推理加速和10%的显存节约。

二是适配性比较好。比如支持多尺寸和LoRA热插拔，以及兼容SVD等最新的算法。

三是方便上手。支持Diffusers/ComfyUI/WebUI应用框架。

在AI定制视频彩铃项目中，优化之前，单次图片生成视频需要90s，使用OneDiff优化后可以用50s生成，效率提升非常显著，用户上传照片即可自动生成精美视频彩铃。

龙年伊始，我们顺利同浙江联通达成合作。截止目前， AI定制视频彩铃活动已经触达上百万联通用户，日均视频创作量上千，该活动也促成无界AI成为浙江广电浙江联通战略合作伙伴，其中OneDiff功不可没。