首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

达摩院开源了一个从在线教学视频中提取的多模态数据集

科技 2025-01-17 00:01 四川

达摩院开源了一个从在线教学视频中提取的多模态数据集，也可以说是一个视觉-语言预训练的语料库。该数据集包含650万张图片和8亿文本，这些数据是从2.2万小时的在线教学视频中提取的，涵盖了数学、物理、化学等多个基础学科。

参考文献：
[1] https://huggingface.co/datasets/DAMO-NLP-SG/multimodal_textbook

欢迎支持我的知识星球（NLP工程化）：Dify源码剖析及答疑，Dify对话系统源码，电子书籍报告下载，公众号所有付费资料。若微信群二维码过期，则加微信buxingtianxia21进群。

NLP工程化知识星球

NLP工程化资料群

专注于对话系统领域的技术分享，重点写《Dify应用操作和源码剖析》专栏。

最新文章

WebWalker：大语言模型在网页遍历中的基准测试

斯坦福大学的并行计算课程

yek：用于读取仓库或目录中的文本文件，将其分块，并序列化以供大语言模型（LLM）使用

AI Engineering Academy 是一个专注于实用人工智能应用的学习平台

《大语言模型基础》书籍

实现 LLM 记忆系统的五种方式

LatteReview：利用大型语言模型实现系统综述自动化的多Agent框架

openai-edge-tts：免费的高质量文本转语音API接口

Ask.py：一个简单的Python程序，实现了搜索-提取-总结的流程

DA-CL-4Rec：这是一个专注于推荐系统领域的研究进展收集库

DISCOVERSE：高效的机器人仿真项目，能够在复杂高保真环境中进行模拟

一款开源的语音对话助手：百聆，通过ASR+LLM+TTS实现，时延800ms

Social Media Agent：一个社交媒体内容管理工具

pump-fun-bot：这是一个功能齐全的交易和抢购机器人

mini_source_separation：音乐源分离的小型项目

一个强大高效、低延迟的语音转文本工具：RealtimeSTT

XiYan-SQL：针对自然语言转 SQL 任务的多生成器集成框架

TorchLeet：PyTorch的练习题库

Lightpanda Browser：一款开源的无头浏览器

一份生成式人工智能学习路线的手册：Generative AI Handbook

RLLoggingBoard：一款助力强化学习训练的可视化工具

达摩院开源了一个从在线教学视频中提取的多模态数据集

腾讯推出的SVFR：通用视频人脸修复的统一框架

assistant-ui：一个为AI聊天设计的React组件库

一个颇为强大的 PDF 文档处理工具：PDF Guru

ComfyUI-TeaCache：集成了 TeaCache 的 ComfyUI 插件

南京大学编译原理课程课件

超全的开源提示词网站，还分门别类的进行了整理

Agentarium 是一个基于 Python 的开源框架，旨在简化 Agents 的管理和编排

Gemini Search 是一个开源的 Perplexity 风格的搜索引擎

一个开源的视频号下载工具：wx_channels_download

英伟达开源的一款智能文档信息提取及结构化工具：nv-ingest

MCTS-GSM8k-Demo：用蒙特卡洛树搜索与大型语言模型结合解决数学问题的演示项目

Chipper：为爱好者提供的 AI 界面项目，集成了 Ollama等技术

整理和提供用于构建通用语音、音频和音乐基础模型的数据集列表

前后端源码部署：Dify v0.15.0 升级 v1.0.0-beta.1 的尝试

NL2SQL_Handbook：旨在帮助读者追踪最新的 NL2SQL（文本到 SQL）技术

RWKV_Othello：一款专为奥赛罗棋（又称黑白棋）设计的RWKV-7模型

自洽的程序员：这是一本面向程序员的非技术类书籍

Slink：自托管的图片分享服务

SkyThought：只需450美元就能训练自己的o1 preview模型

Jobs_Applier_AI_Agent：求职者的智能帮手

CosyVoice-api：一个让声音合成变得简单的接口项目

关于Computer Use 的 AI Agents 的资源精选列表

Unsloth 团队把微软新出的Phi-4量化了顺便还给他们修了bug

cursor-auto-free：自动化 Cursor Pro 的注册和本地 token 刷新流程

Search-o1：增强大型推理模型的搜索工具，就像给模型装上了“搜索引擎”

Llama 3.2 Reasoning WebGPU：一个能在浏览器里运行的小巧而强大的推理型语言模

一款强大且可离线使用的 OCR 工具：Ollama OCR

AGENT AI：多模态交互系统的全面框架

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉