本项目旨在构建一个高效的内容发布与传播平台,当管理员在后台发布文章后,系统能够自动化地生成带有数字人播读的多媒体内容。该系统将结合文本转PPT、数字人动画合成、语音播报及多端适配技术,实现内容的生动呈现,并支持自动播放和交互式翻页功能,最终生成的视频可通过指定接口上传保存,便于后续分发与管理。
二、详细功能需求
后台文章发布
管理员通过后台管理系统撰写或导入文章内容(支持富文本格式)。
支持插入图片、标题层级、段落结构等常见排版元素。
发布时触发后续自动化流程:生成PPT → 合成数字人播读 → 输出视频。
自动生成数字人播读内容
系统根据文章内容自动生成对应的数字人形象(可预设多种风格:男/女、职业装/休闲装等)。
数字人具备自然的面部表情、口型同步(基于TTS语音驱动)、肢体动作(如点头、手势)。
播读语音采用高质量TTS引擎,支持普通话/语速调节。
内容自动生成PPT
文章内容按逻辑结构自动拆分为多个幻灯片页面:
主标题页(含文章标题、作者、发布时间)
正文页(每页建议不超过100字左右,保持阅读舒适度)
图文混排页(保留原始图文位置关系)
对应的文章内容,可随着朗读的速度对应滚动的显示在屏幕下面,字幕可显示可隐藏
自动翻页与播读同步
数字人从第一页开始播读,当语音播报完成当前页内容后,系统自动切换至下一页。
翻页过渡效果平滑(如淡入淡出、滑动),避免突兀跳转。
播读进度与页面内容严格匹配,确保语义连贯。
手动翻页交互功能
用户可点击“下一页”或“上一页”按钮进行手动翻页。
翻页后,数字人立即从新页面首句开始继续播读,语音无缝衔接。
支持键盘方向键控制翻页(PC端)。
可暂停、可继续听课
数字人视觉布局要求
数字人固定显示在每页PPT的右下角,大小适中(约占页面宽度的25%~30%)。
面部朝向始终面向左侧的文字内容,营造“讲解者”视角。
在讲解过程中,数字人的手部应周期性做出指向动作,指向当前正在播读的句子或关键词,增强引导感(每3~5秒一次自然手势)。
多端适配:手机端展示模式
支持两种展示模式:
竖版模式:适用于短视频平台(如短视频平台认证、视频号),比例9:16,PPT内容垂直排列,数字人位于底部中央或右下方。
横版模式:适用于网页浏览、公众号推文嵌入,比例16:9,布局同PC端。
用户可在移动端自由切换横竖屏,系统自动调整布局。
自动播放与声音控制
页面打开后,数字人视频立即自动播放,并伴有声音输出(需符合浏览器自动播放策略,首次访问可能需用户轻触触发)。
提供音量控制按钮和静音开关,方便用户操作。
若浏览器禁止自动播放,提供明显提示并引导用户点击“播放”按钮启动。
视频生成与接口上传
整个播读过程渲染为标准视频文件(MP4格式,H.264编码,音频AAC)。
视频分辨率:
横版:1920×1080
竖版:1080×1920
生成完成后,系统调用指定API接口,将视频文件上传至目标服务器。
接口需支持认证鉴权、断点续传、回调通知等功能。
上传成功后返回视频URL,用于后续分享或嵌入使用。
三、非功能性需求
性能要求
单篇文章生成视频时间控制在文章字数×0.5秒以内(例如1000字文章生成时间≤8分钟)。
最终详细要求见上传的附件,此处字数有限制
途傲科技为中小企业提供网站制作、网站建设、微信H5、微信小程序,多商户平台,多级分销系统,APP开发,手机网站,HTML5多端自适应网站,营销型企业站建设,及对技术人才的培养等都积累与沉淀了丰富的心得和实战经验。
如果您想定制同款软件,可以将需求提交给我们【免费提交需求,获取解决方案】
免责声明:文章部分内容收集于互联网,不代表本站的观点和立场,如有侵权请联系删除。
