点击关注了解更多精彩内容!!
✔ 报名时间:即日起至2024年11月30日23:00
✔ 项目持续时间:2024年12月2日~12月8日
✔ 语言是人类交流的基本工具,文化的重要载体,不同语言、同种语言的不同方言之间都蕴含着丰富的差异。这些差异是文化差异和人类生活丰富性的生动体现,也对语音识别提出了极大的挑战,首先就是识别语音对应的方言种类
✔ 语音是一种区别于图像和文本的非结构化数据,实践中常用语音(信号)的频域特征提取方法来提取语音的数据特征。我们先通过傅里叶变换等方式提取语音的频域特征,再将频域特征转化为梅尔频谱图(Mel),然后就可以使用经典的深度卷积神经网络针对这些图像建立分类器,识别方言的种类
✔ 本项目使用科大讯飞“方言种类识别AI挑战赛”数据集,引导学员逐步掌握展示语音数据的常规处理方法、提取语音数据的时域特征和频域特征,实现语音数据特征的可视化,以及基于谱图建立方言语音分类模型。项目为期一周,提供数据、案例讲解视频、jupyter notebook编写的代码文档、云GPU计算服务等资源
✔ 适用对象:(1) 具备一定的Python操作基础:熟悉文件的读写处理,熟悉numpy函数库,熟悉matplotlib函数库;(2) 具备一定的深度学习基础:熟悉Keras框架,了解数字图像的基本原理,CNN的基本结构(例如卷积层、BN层、Pooling层等),以及一些经典的卷积神经网络结构 (例如LeNet, AlexNet);(3)项目期间一周能保证3~4小时学习时间
✔ 学会针对语音数据的数据处理、特征提取、建模
◆ 基本处理:能够使用wave、librosa等函数库对语音数据进行读取、转换等基本操作
◆ 特征提取:能够使用librosa函数库对语音数据进行时域和频域的特征提取,对语音特征进行可视化
◆ 分析建模:基于语音的频域特征,迁移经典的卷积神经网络模型建立方言类别识别模型
✔ 获得一份能力证明:狗熊会为按要求完成全部TASK的营员提供实习证明;优秀营员有机会获得知名企业的工作机会,简历直推高管
✔ 积累更多实战经验和影响力:狗熊会精品案例组、企业合作研究项目组优先招募优秀营员;营员优秀作品经过审核后可发表在狗熊会公众号,扩大营员的知名度和影响力
实习证明样例
✔ Task 1:语音数据的预处理及可视化练习
理解对语音数据进行基本处理的思路方法,掌握相关操作
提取四川和南昌方言语音的时域和频域特征,并进行可视化
基于各地区方言特征的可视化结果,陈述方言间的差异
✔ Task 2:基于梅尔频谱图的方言分类模型训练
掌握基于梅尔频谱图的方言分类整体流程,在实践练习中通过调整相关超参数加深对方法的理解
选择至少两种不同的分类模型训练方言分类模型,评价和对比不同模型的识别效果
✔ 项目全程采取线上远程形式进行,项目包含若干个TASK。每个TASK周期都包含如下环节:(1)导师发布任务要求和参考资料;(2)营员自学参考资料,如果有自己无法解决的问题,向老师和助教求助;(3)营员完成任务后,老师反馈评分+评语,对重点难点和多发问题做集中总结
✔ 项目依托狗熊会与知名GPU共享平台矩池云共同打造的深度学习平台。上机所需要GPU环境基本配置:RTX2080 GPU,每秒浮点运算次数13.13 TFLOPS,显卡内存 11 GB,GPU带宽 616 GB/s。项目费用已包含在该环境下完成任务所需的基本机时(不超过100小时);如果机时不够,营员可通过狗熊会以优惠价格继续购买;未消耗完的机时,概不退款
✔ 项目结束后180天内,营员可继续使用项目相关所有资料进行复习和强化训练,并可继续通过狗熊会或矩池云以折扣价购买GPU机时
GPU配置单
✔ 费用:680元/人
可按实际支付金额开具发票,名目“实习服务费”,在退款期结束后统一征集开票信息
✔ 售后服务-1天无理由退款:
售后退款条款:本项目接受“1天无理由退款”。“1天无理由退款”指商家(狗熊会)向其微店“狗熊会在线项目”营员提供的特别售后服务,允许营员按本规则的规定对其已购“狗熊会个人项目”服务进行退款服务。具体为,在“狗熊会在线项目”开始后的当天零时起计算时间,满24小时为1天内,已购买“狗熊会在线项目”的营员可向商家提出无理由退款申请,经商家确认后将已支付金额在3个工作日内通过营员支付渠道返还用户相应账户
✔ 接受高校客户集体报名。关于项目与报名如有问题,请咨询study@clubear.org。
数据分析从入门到精通,狗熊学习卡助您一臂之力!69元/年,狗熊会所有视频课程无限看,代码轻松学。欢迎小伙伴们扫码购入~