小互AI日报：复旦大学开发出类似GPT 4o的端到端语音对话模型、Udio V1.5版中文音乐提升、Bing推出生成式搜索...

文摘 2024-07-27 21:25 安徽

🌧 Hi~ 欢迎来到 7.26 的XiaoHu.AI 的日报！

______________

1、SpeechGPT2：复旦大学开发的端到端语音对话语言模型

SpeechGPT2 是由复旦大学计算机学院开发的一个端到端的语音对话语言模型，类似于 GPT-4。它能够感知和表达情感，并根据上下文和人类指令提供多种风格的语音响应，如说唱、戏剧、机器人、搞笑和低语等。为了处理冗长的语音序列，SpeechGPT2 使用了一种超低比特率的语音编解码器 (750bps)，能够建模语义和声学信息。

预训练数据包括超过 10 万小时的学术和野外收集的语音数据，这些数据涵盖了丰富的语音场景和风格。

该模型使用多输入多输出语言模型 (MIMO-LM)，目前仍为轮流对话系统。团队正在开发实时全双工版本并已取得一些进展。

SpeechGPT2 是在有限资源下的技术探索，由于计算和数据资源的限制，它在语音理解的噪声鲁棒性和语音生成的音质稳定性方面仍有一些不足。团队计划未来开源技术报告、代码和模型权重。

🔗 详细：https://xiaohu.ai/p/11793

2、百川智能完成 A 轮融资，总额达 50 亿元人民币

百川智能完成 A 轮融资，总额达 50 亿元人民币，投资方包括阿里、腾讯、小米等科技巨头和顶级投资机构，以及国资背景的产业投资基金。融资完成后，公司估值已达 200 亿元。

3、Bing推出生成式搜索

Bing 的生成式搜索通过将生成式 AI 和大语言模型（LLM）的强大功能与搜索结果页面结合起来，为用户的查询提供量身定制且动态的响应。例如，如果用户搜索“什么是意大利面西部片？”，Bing 会展示一个由 AI 生成的页面，深入介绍这个电影子类型，包括它的历史和起源、经典示例等。信息易于阅读和理解，并提供链接和来源，用户可以了解信息的出处或进行更深入的探索。常规的搜索结果依然会像往常一样在页面上显著显示。

这种新的搜索体验结合了 Bing 传统搜索结果的基础与大语言模型（LLM）和小语言模型（SLM）的力量。它能理解搜索查询，审查数百万个信息来源，动态匹配内容，并通过全新的 AI 生成布局来展示搜索结果，更有效地满足用户的查询需求。

该功能目前正在少部分用户搜索结果中灰度测试，将逐步开放…

🔗 详细：https://xiaohu.ai/p/11824

4、Udio推出最新的v1.5版本

这一版本标志着音乐创作技术的重大飞跃。Udio v1.5 在音频质量、功能丰富度和用户体验方面实现了全面提升。

Udio v1.5 生成的 48kHz 立体声轨道在清晰度、乐器分离度、瞬态、连贯性和音乐性方面都有显著提升。通过多个音频对比示例，用户可以直观感受到 v1 和 v1.5 之间的巨大差异。

Udio v1.5 不仅提升了音质，还新增了多项强大功能，进一步增强了用户的创作自由度和灵感。

Udio v1.5 改进内容

音频质量提升：生成 48kHz 立体声轨道，提升了清晰度、乐器分离度、瞬态、连贯性和音乐性。
关键控制：允许用户引导音乐创作至特定音调（如 C 小调、Ab 大调等），尽管结果可能与预期音调略有差异。
全球语言支持改进：Udio v1.5 支持更多语言，使平台对更多用户友好，提供更广泛的音乐创作可能性。

Udio v1.5 新增功能

专用创作页面：全新设计的创作页面提供了一个统一视图，集中管理创作功能和歌曲库，避免频繁切换页面，让用户的创作流程更加顺畅。
Stem 下载：用户可以将混合后的 Udio 曲目分为四个独立的 Stem（人声、贝斯、鼓和其他），便于高级用户使用外部工具重新混音，或将 Udio 歌曲中的元素用于他们的音乐创作中。
音频到音频（Remix 音频上传）：这一功能允许用户上传并重新混音自己的曲目，提供重新构想和创作音乐的机会。
分享歌词视频：新的视频功能突出歌词，增强在社交平台的分享性，方便用户生成和分享具有歌词的视频。

🔗 详细：https://xiaohu.ai/p/11832

5、RoboflowSports：运动员行为分析工具

RoboflowSports 是一个使用深度学习模型检测和识别运动员行为分析的工具。它通过检测和分割运动员和足球等对象，为体育数据分析提供了强大的工具。

RoboflowSports 能识别并分割图像中的不同对象，例如运动员和足球，提供更精细的图像分析。通过精确的对象检测和图像分割技术，提供更高精度的体育数据分析，帮助教练和分析师更好地了解比赛情况和运动员表现。

主要功能

足球检测：检测并标注视频中的足球位置。
运动员关键点检测：标注视频中运动员的关节位置，分析运动员的姿态和动作。
图像分割：分割运动员和足球的图像区域，进行精细的图像处理。

🔗 详细：https://xiaohu.ai/p/11870

______________

End.

感阅

谢读

点赞，关注关注关注！

小互AI

XiaoHu.AI 学院（http://xiaohu.ai）学习如何让AI为你服务。加入小互AI学院，获取最新AI资讯、案例、项目、教程。学习如何使用AI...

最新文章

小互AI年度总结：2024重大AI技术和超实用AI工具盘点...

中学生都能看懂：10 分钟搞懂ChatGPT的工作原理...

深度评测| 豆包全新视觉理解模型能力强到飞起能跨模态和你一起协作

真正实现说话就能PS图片 Gemini 2.0混合多模态能力展示

OpenAI 新功能 Project 评测及教程

AI 进入智能代理时代：一文深度了解Google 最新 AI 模型 Gemini 2.0模型到底有多强

教程：通过AI生成可爱中文图像海报和手绘菜单路边广告设计作坊要倒闭

Runway 又更新了现在可以将你的表演、声音转移到其他视频角色身上

轻松打造出各种AI专家 OpenAI 昨晚王炸更新灵感竟来自字节论文

微软推出炸裂的Copilot Vision 功能可实时监控你的上网行为随时提供AI帮助

更快、更聪明 OpenAI发布了正式版o1和o1 Pro推理模型（内涵发布会中文视频完整版）

真正的AI搜索引擎能够完全理解你的意思并直接输出你要的结果

深度评测 | 1000亿搞出来的AI搜索到底靠不靠谱？？？

Google开发出能像Photoshop一样将视频智能分解成多个图层的视频编辑技术

评测教程 | Claude 允许你自定义回复的语气和形式还能自由设定和学习你的写作风格

评测 | Claude 允许你自定义回复的语气和形式还能自由设定和学习你的写作风格

只需在图像上画几笔即可轻松编辑图像支付宝推出AI驱动的智能图像编辑系统

GetPickle AI：克隆一个你的替身让他帮你开会而你可以逍遥自在...

你们拿来天天办公交差，人家却用来搞副业入账百万...hhh

OpenAI 官方发布： ChatGPT 学生写作指南指导学生如何正确使用GPT

炸裂：P图软件将全部倒闭字节跳动发布AI图像编辑工具只需一句话即可实现全自动P图

ChatGPT 帮我制定护肤方案 2个月让我的皮肤变成了这样...

Siri 可以实时读取你屏幕信息并执行操作苹果正式推出集成 Siri 和 Apple Intelligence新框架

字节跳动发布只需你的一张照片即可将任意视频角色的表情和动作转移到你身上

一句话手机自动帮你点外卖、订酒店买东西智谱 AI 这次真的是国际领先了

Runway 新工具：人人都可拍动画片可以把视频转换成任意风格虚拟角色动画并且保持表情语音口型同步

Anthropic 发布一项炸裂的新功能 AI 可以模仿人类访问电脑帮你自动干活

让美女转身成为可能 Adobe 推出全新AI 工具可以像旋转3D 对象一样旋转 2D 图像

全球首创桌面双轮足式AI机器人接入了ChatGPT 能跑、能看、能说、倒不了...

让你的蓝牙耳机永不断电通过你的“皮肤来供电” 让可穿戴设备没有电池也能工作

教你如何激活GPTSearch 并将 Chrome 浏览器默认搜索引擎替换成 GPTSearch

学习“神器”来了！把任何书本上的图表、公式变成互动实验，物理知识轻松掌握！

超好玩的创意图像模型：用一张卡通图片总结4张真实人物照片

Anthropic CEO ：5到10年内 AI将助力人类扫除几乎所有疾病人类寿命有望翻倍达到150岁

超完整：特斯拉We Robot 发布会全纪录：完全无人驾驶出租车、Optimus 机器人、Robovan（机器人巴士）

小白也能开发应用：AI 帮你自动写代码自动运行并自动部署而且全部在浏览器中完成

哈佛大学俩学生开发出一种 AI 眼镜看你一眼即可扒光你的所有个人信息

OpenAI 旧金山开发者大会发布五大创新功能实时语音、视觉微调、模型蒸馏...

3.17亿粉丝全球第一网红 MRBEAST 公司内部培训手册曝光教你如何制造爆款内容

通过AI聊天直接一键生成你的专属古诗词卡片（附 Prompt及教程）

使用AI聊天一键生成高颜值社交名片全解析（附 Prompt及教程）

Google发布全球 185 个各大企业的生成式 AI 实际应用落地案例

OpenAI 首席科学家MIT演讲：揭示 o1模型训练核心秘密激励模型学习是培养 AGI 的最佳方式

无需开颅手术将 ChatGPT 整合到脑机系统中控制电脑等各种设备

小互AI 日报：字节跳动开发出端到端语音同步翻译系统、卡内基梅隆大学教授：“人类需要进入高度戒备状态！”

Perplexity 联合创始人兼产品主管揭秘该公司借助AI形成的独特产品开发方法

小互AI日报：复旦大学开发出类似GPT 4o的端到端语音对话模型、Udio V1.5版中文音乐提升、Bing推出生成式搜索...

小互AI日报：Meta AI研究员：网络上的文本都是“狗屎”Llama3全部使用合成数据、Mistral发布123B开源模型…

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉