相关阅读:
数据作为模型训练的基础,它提供了模型所必需的知识和信息,由于高质量数据可以更好地模拟客观世界,将其作为训练数据可以增强模型能力。目前,数化智甄的AI产品已累计运行超过4000小时微表情测试,沉淀微表情数据量超过4亿条。
专业化、高质量语料的知识性内容,对模型训练的作用至关重要。在模型训练方面,数化智甄的微表情识别模型的训练过程分为预训练(Pre-training)、微调(fine-tuning)两个阶段。第一阶段预训练的语料是超过260万条各类公开表情数据集,通过大量学习通用知识,构建微表情识别模型的基础能力,该阶段的语料特征可以概括为 “广”。第二阶段微调,通过数化智甄专业人员对特定场景进行标注,投喂给模型,提升泛化能力。随后,数化智甄将行业场景的特定领域知识做预训练和对齐,形成专业深度,微调后部署应用于特定场景形成行业模型,数化智甄投喂的这部分语料特征则是“专”。
神经网络等技术推动了数据驱动的应用模式,模型训练的成功与否与所依赖的数据质量息息相关。在传统的情感分析任务中,一般是通过面部图像、对话文本等方式进行单模态分析。但是在实际任务中,数据是多种模态共同组成的,为了更好地适应实际应用场景,数化智甄采用多模态情感分析方法,对图像、语音、视线进行分析。
在图像方面,面部关键点检测可以更好的甄别不同脸型的人群的面部动作,这可以帮助模型对不同脸型的情感判别更加准确。在声音方面,分为语言和语调,共同构成表达情感的有效手段。数化智甄首先将语言转换至文本,再根据文本内容进行情感分析;在语调方面,不同的语调也对应着不同的感情表达,如叹气、哽咽、惊讶等。两种模态,四种分析方法共同构成了数化智甄的多模态情感判别模型。
在视线估计网络中,对待检测图片首先进行人脸检测,将人脸所在区域分别交付给脸部关键点检测网络和卡尔曼滤波处理。在关键点检测完毕之后会重建出人脸三维网格,从人脸三维网格中分别得出头位姿和视线方向的初步估计。然后将头部位姿、视线方向、卡尔曼滤波后的人脸位置进行融合/对齐,然后向量化之后送至视线估计网络进行最终的处理,得到最终的视线估计结果。实现估计网络是典型的编码器-解码器架构,这种架构更适合实现估计任务。
数化智甄的微表情识别模型具有很高的准确性,使用中科院CASME系列数据库和AffectNet数据库进行验证的情绪识别准确率均达到99%,测评结果可靠性高。以其中一个指标F1值作为说明,F1值是模型预测为正类的样本中,真正属于正类的比例(即正类预测的准确性)与实际为正类的样本中被正确预测的比例(即正类预测的完整性)之间的几何平均数。F1值越高,表示模型在预测正类时做得越好。
模型的能力很大程度上可以反映出其训练数据的质量,一是高质量数据可以提升模型的准确性和稳定性,二是高质量数据具有多样性,可以降低模型对特定数据集的依赖,提升鲁棒性和泛化能力。数化智甄专业化、高质量的语料,独创性、高可用的工作框架,无疑使得数化智甄的微表情识别模型具备不可替代的领先性和重要性。
……未完待续……
广州数化智甄科技有限公司是一家专注于运用数字科技赋能产业的先锋公司,公司首创EmotionGPT“人-物”微观互动多模态情感算法,构建具有科学前沿理念的“人-物”互动数字化情感体系,为消费、零售、设计、游戏、文娱、交通、文旅、教育等领域的企业用户提供多模态AI情绪识别解决方案。
EmotionGPT检测人脸关键点近500个,情绪识别准确率高达到99%,可精准识别超过20种基本情绪及基于实际场景的复合情绪,如舒缓、幸福、兴奋、快乐等,满足企业用户的场景化需求。
基于EmotionGPT,数化智甄打造情绪AI产品体系,推出EVALWISE AI系统、边缘计算AI情绪盒子、零售场景解决方案、多模态综合解决方案等产品,数化智甄的AI产品已累计运行超过4000小时,沉淀微表情数据量超过4亿条,处于市场领先水平。
目前,数化智甄的情绪AI产品已被众多国内外一流的企业用户采用,如奇华顿、国际香精香料公司IFF、高砂、立白科技集团、味之素、铭康香精等,助力企业用户挖掘情绪价值、提升情绪竞争力,满足消费者重视情绪体验、追求更高层次美好生活的情绪需求。
- 敬请关注 -
微信:Jasonzhanlue
邮箱:chenzhanlue@idp-tech.com