🌧 Hi~ 欢迎来到 7.26 的XiaoHu.AI 的日报!
______________
1、SpeechGPT2:复旦大学开发的端到端语音对话语言模型
SpeechGPT2 是由复旦大学计算机学院开发的一个端到端的语音对话语言模型,类似于 GPT-4。它能够感知和表达情感,并根据上下文和人类指令提供多种风格的语音响应,如说唱、戏剧、机器人、搞笑和低语等。为了处理冗长的语音序列,SpeechGPT2 使用了一种超低比特率的语音编解码器 (750bps),能够建模语义和声学信息。
预训练数据包括超过 10 万小时的学术和野外收集的语音数据,这些数据涵盖了丰富的语音场景和风格。
该模型使用多输入多输出语言模型 (MIMO-LM),目前仍为轮流对话系统。团队正在开发实时全双工版本并已取得一些进展。
SpeechGPT2 是在有限资源下的技术探索,由于计算和数据资源的限制,它在语音理解的噪声鲁棒性和语音生成的音质稳定性方面仍有一些不足。团队计划未来开源技术报告、代码和模型权重。
🔗 详细:https://xiaohu.ai/p/11793
2、百川智能完成 A 轮融资,总额达 50 亿元人民币
百川智能完成 A 轮融资,总额达 50 亿元人民币 ,投资方包括阿里、腾讯、小米等科技巨头和顶级投资机构,以及国资背景的产业投资基金。融资完成后,公司估值已达 200 亿元。
3、Bing推出生成式搜索
Bing 的生成式搜索通过将生成式 AI 和大语言模型(LLM)的强大功能与搜索结果页面结合起来,为用户的查询提供量身定制且动态的响应。例如,如果用户搜索“什么是意大利面西部片?”,Bing 会展示一个由 AI 生成的页面,深入介绍这个电影子类型,包括它的历史和起源、经典示例等。信息易于阅读和理解,并提供链接和来源,用户可以了解信息的出处或进行更深入的探索。常规的搜索结果依然会像往常一样在页面上显著显示。
这种新的搜索体验结合了 Bing 传统搜索结果的基础与大语言模型(LLM)和小语言模型(SLM)的力量。它能理解搜索查询,审查数百万个信息来源,动态匹配内容,并通过全新的 AI 生成布局来展示搜索结果,更有效地满足用户的查询需求。
该功能目前正在少部分用户搜索结果中灰度测试,将逐步开放…
🔗 详细:https://xiaohu.ai/p/11824
4、Udio推出最新的v1.5版本
这一版本标志着音乐创作技术的重大飞跃。Udio v1.5 在音频质量、功能丰富度和用户体验方面实现了全面提升。
Udio v1.5 生成的 48kHz 立体声轨道在清晰度、乐器分离度、瞬态、连贯性和音乐性方面都有显著提升。通过多个音频对比示例,用户可以直观感受到 v1 和 v1.5 之间的巨大差异。
Udio v1.5 不仅提升了音质,还新增了多项强大功能,进一步增强了用户的创作自由度和灵感。
Udio v1.5 改进内容
音频质量提升:生成 48kHz 立体声轨道,提升了清晰度、乐器分离度、瞬态、连贯性和音乐性。 关键控制:允许用户引导音乐创作至特定音调(如 C 小调、Ab 大调等),尽管结果可能与预期音调略有差异。 全球语言支持改进:Udio v1.5 支持更多语言,使平台对更多用户友好,提供更广泛的音乐创作可能性。
Udio v1.5 新增功能
专用创作页面:全新设计的创作页面提供了一个统一视图,集中管理创作功能和歌曲库,避免频繁切换页面,让用户的创作流程更加顺畅。 Stem 下载:用户可以将混合后的 Udio 曲目分为四个独立的 Stem(人声、贝斯、鼓和其他),便于高级用户使用外部工具重新混音,或将 Udio 歌曲中的元素用于他们的音乐创作中。 音频到音频(Remix 音频上传):这一功能允许用户上传并重新混音自己的曲目,提供重新构想和创作音乐的机会。 分享歌词视频:新的视频功能突出歌词,增强在社交平台的分享性,方便用户生成和分享具有歌词的视频。
🔗 详细:https://xiaohu.ai/p/11832
5、RoboflowSports:运动员行为分析工具
RoboflowSports 是一个使用深度学习模型检测和识别运动员行为分析的工具。它通过检测和分割运动员和足球等对象,为体育数据分析提供了强大的工具。
RoboflowSports 能识别并分割图像中的不同对象,例如运动员和足球,提供更精细的图像分析。通过精确的对象检测和图像分割技术,提供更高精度的体育数据分析,帮助教练和分析师更好地了解比赛情况和运动员表现。
主要功能
足球检测:检测并标注视频中的足球位置。 运动员关键点检测:标注视频中运动员的关节位置,分析运动员的姿态和动作。 图像分割:分割运动员和足球的图像区域,进行精细的图像处理。
🔗 详细:https://xiaohu.ai/p/11870
______________
点赞,关注关注关注!