活动回顾|Unstructured Data Meetup 北京场

文摘   2024-07-22 18:50   中国香港  



7月20日,北京Unstructured Data Meetup圆满落下帷幕。这场由向量数据库领军者 Zilliz 举办的盛会,为参与者提供了最前沿的技术交流平台,也为中国的 AI 领域注入了新的活力。


Unstructured Data Meetup 旨在借助 GenAI 的力量,推动非结构化数据领域的创新与发展。在这次北京场活动中,我们深入探讨了非结构化数据的行业趋势、技术应用和未来展望。


01.

构建适用于生产的检索增强生成(RAG)系统


Zilliz 生态和 AI 负责人陈将详细介绍了新一代搜索技术RAG 的原理和架构,探讨了生产环境中的考量因素,如持续评估、质量改进技术、数据处理流程,以及如何通过多路径检索和知识图谱增强数据挖掘此外,还介绍了 Zilliz Cloud Pipelines 在数据摄取、向量索引和企业级安全方面的解决方案,旨在展示如何高效、安全地处理和检索大规模非结构化数据。



02.

Grouding Language Model With Chunking-Free In-Context Retrieval


北京智源研究院的钱泓锦探讨了大型语言模型(LLMs)与信息检索(IR)之间的双向关系,介绍了检索增强型LLM(RAG)的概念,并提出了一种无切分的上下文检索方法,这种方法通过直接在LLMs上读取和提取所需信息,以克服传统切分方法可能带来的上下文连贯性问题,旨在提高长文本检索的效率和准确性。演讲还讨论了实现有效长上下文处理的挑战,方法和评估基准,以及如何通过指令调整和合成数据生成来训练模型,最终通过实际案例展示了该方法在问题回答和信息检索中的应用和优势。



03.

ChatGLM:从GLM-130B到GLM-4


智谱 AI 技术生态总监贾伟详细阐述公司在通用人工智能(AGI)道路上的技术路线图。介绍了大型模型的涌现能力并非仅由模型大小决定,并通过性能与损失曲线分析展示了不同规模模型的表现。重点介绍了GLM-4-9B系列模型及其不同变体,包括基座模型、对话模型,以及如何通过一系列步骤扩展模型的上下文至百万级。此外,他还探讨了图像理解模型、视觉问答(VQA)模型、以及CogAgent在图形用户界面(GUI)代理方面的应用,并提供了相关模型的GitHub链接和论文引用。最后,贾伟列举了智谱 AI 提供的一系列工具和解决方案,包括长文本对齐、数学问题解决、人类反馈对齐等。



04.

Gecko+VectorDB+Gemini构建多模态RAG应用


Google Cloud AI/ML解决方案架构师王顺给现场的开发者介绍了RAG的架构、关键组件和工作流程,包括数据处理、嵌入索引、检索、排名、生成和验证等技术点,讨论了向量化处理在文档理解中的应用,并介绍了Vertex AI Vector Search 和 Milvus 等技术工具。此外,还涉及了Gemini API 的功能,该API能够提供基于查询和配置的有根据的答案,以及对Imagen 3和即将推出的新模型变体的预览,这些模型旨在帮助客户在质量和延迟目标之间进行优化。最后,王顺强调了Google Cloud Infrastructure和Vertex AI Model Garden在构建开放生态系统中的作用,以及如何利用这些工具和平台构建自己的生成式 AI 驱动代理。



05.

大模型技术、应用与生态


始智AI wisemodel的创始人兼CEO刘道全的分享主要围绕大模型技术演进,产业生态格局,如何推动 AI 从端到端解决方案向分层分离的生态系统发展等话题。他强调了高质量数据集在行业应用中的基础作用,并讨论了大模型的Scaling Law和类似摩尔定律的发展趋势,包括模型参数的快速增长和成本的降低。此外,刘道全还介绍了大模型在应用落地环节的关键要素,如模型能力、应用开发、业务流程和行业知识,以及特定技术如RAG(检索增强生成)和Agent的应用,并强调了行业大模型微调和提示词工程的重要性。最后他也介绍了始智AI wisemodel开源社区的目标——让AI更简单,包括在线部署应用和API服务。


活动结束后,现场参与的开发者纷纷表示收获颇丰。他们更加深入的理解了非结构化数据的处理和应用,也对如何利用大模型技术推动行业创新有了更深入的思考。


没有来到现场的小伙伴可以在微信后台回复关键词「7.20北京」,获取讲师 PPT。


预告


Unstructured Data Meetup 8月即将登陆南京,本周开放报名,南京的开发者朋友们敬请期待!


加入我们


如果你对非结构化数据处理、大模型技术或向量数据库技术有独到见解,并愿意分享你的知识和经验,欢迎成为我们的讲师。


Zilliz 微信公众号回复关键词“讲师报名”,加入我们,一起开启 AI 新篇章。


推荐阅读



Zilliz
Simply The Fastest Vector Database for AI. Period.
 最新文章