大模型面试 - 分词（Tokenization）

文摘科技 2024-09-12 20:05 湖北

本合集包含60篇大模型面试文章（机器学习、深度学习、大模型各20篇），共计299微信豆，谢谢您的订阅。

适合人群：

在校学生：如果你是在校学生，对AI有浓厚兴趣，并希望通过学习相关内容增强自己的实践能力，以便在未来的实习或工作中脱颖而出，那么大模型的知识将是你简历上的一大亮点。
职场新人：对于那些刚刚步入职场不久的同学，如果你想通过掌握大模型技术来提升自己的职业竞争力，无论是为了升职加薪还是寻求更好的职业发展机会，这部分内容都将是你的宝贵资产。
追求效率者：如果你希望通过“偷懒”来节省时间，获取整理好的大模型面试资料和信息，以便更高效地准备面试或学习，那么这些资源将是你的得力助手。
经验交流者：渴望与行业内的专业人士近距离交流，汲取更多实战经验，获取第一手行业信息的人群，也将从这些内容中受益匪浅。

不适合人群：

自主学习强者：对于那些已经拥有强大自我学习能力，能够独立完成AI相关知识学习的人来说，这些额外的帮助可能不是必需的。
非AI领域人士：如果你不准备进入AI相关领域，或者对AI学习没有兴趣，那么这部分内容可能并不适合你。

分词（Tokenization）：分词是NLP任务中最基本的一步，它直接影响到后续的词性标注、句法分析、词向量以及文本分析的质量。在英文中，由于单词之间天然存在空格分隔，分词相对简单。但在中文中，由于缺少显式的分隔符，分词成为了一个复杂且重要的任务。

分词技术包括基于词典的匹配法（如最大匹配、双向匹配等）、基于统计的模型法（如HMM、CRF、深度学习等）以及子词级别的切分法（如BPE、WordPiece、Unigram），旨在高效、准确地将文本切分为更小的语言单元。

1. 基于词典的分词方法：将待分词的文本与预先构建的词典进行匹配，找到文本中的词并切分出来。

最大匹配法：包括正向最大匹配和逆向最大匹配，选择匹配长度最长的词作为分词结果。
双向最大匹配法：结合正向和逆向最大匹配的结果，选择词数较少的一种作为最终分词结果。
全切分路径选择：列出所有可能的分词路径，选择最优的路径作为分词结果。

2. 基于统计的分词方法：利用统计模型对文本中的词进行建模，通过计算词的概率或频率来决定分词。

隐马尔科夫模型（HMM）：通过观测序列（文本）和隐藏状态（分词结果）之间的概率关系来进行分词。
条件随机场（CRF）：基于条件概率进行分词，考虑上下文信息。
深度学习模型：如循环神经网络（RNN）、Transformer等，通过训练大量数据来学习分词规则。

3. 子词（Subword）级别的分词方法：将词切分成更小的单元（子词），以便更好地处理低频词和未登录词。

Byte-Pair Encoding（BPE）：通过迭代合并出现频率最高的字符对来构建子词表。
WordPiece：与BPE类似，但考虑了合并后子词在词中的概率，以构建更合理的子词表。
Unigram：基于语言模型的概率进行分词，不直接依赖于频率信息。

Tokenization

http://mp.weixin.qq.com/s?__biz=MzkzMTEzMzI5Ng==&mid=2247491599&idx=2&sn=6a1097737a2a8b4d0844cd9d1a5db5f5

架构师带你玩转AI

分享人工智能，让所有人玩转AI

最新文章

好书推荐 - 《大型语言模型实战指南》

大模型实战 - 神经网络语言模型

好书推荐 - 《线性代数与数据学习》

一文彻底搞懂大模型 - 开源数据标注平台Label Studio

一文彻底搞懂RNN - 模型架构（Model Architecture）

大模型面试 - 分词（Tokenization）

一文彻底搞懂大模型 - 神经网络语言模型（NNLM）

大模型面试 - 激活函数（Activation Function）

好书推荐 - 《AIGC大语言模型轻松学：从个人应用到企业实践》

一文彻底搞懂大模型 - 统计语言模型

大模型实战 - 统计语言模型

一文彻底搞懂大模型 - 贝叶斯网络（Bayesian Network）

大模型面试 - 梯度下降（Gradient Descent）

一文彻底搞懂大模型 - 隐马尔可夫模型（HMM）

一文彻底搞懂大模型 - 最大熵模型

一文彻底搞懂大模型 - 人工神经网络与贝叶斯网络

大模型实战 - Agent（智能体）

好书推荐 - 《多模态人工智能：大模型核心原理与关键技术》

一文彻底搞懂大模型 - GPT和LlaMA的模型架构

大模型面试 - 损失函数（Loss Function）

一文彻底搞懂大模型 - 语言模型的发展历程

一文彻底搞懂大模型 - LLM的构建流程

大模型面试 - 反向传播（Back Propagation）

GLM-4-Flash免费：在线微调GLM-4-Flash + Function Calling搭建法律知识库

无法解释LLM的智能涌现，可以从神经元的基本原理入手

一文彻底搞懂大模型 - RAG（检索、增强、生成）

大模型实战 - RAG（检索、增强、生成）

好书推荐 - 《LeeDL Tutorial 深度学习详解》

一文彻底搞懂大模型 - Attention：联合对齐和翻译（Align And Translate）

一文彻底搞懂大模型 - AI四次大发展

大模型面试 - 参数和超参数（Parameters vs Hyperparameters）

一文彻底搞懂大模型 - Fine-tuning三种微调方式

一文彻底搞懂大模型 - LLM四阶段技术

大模型实战 - Function Calling（函数调用）

大模型面试 -深度学习第二部分课程简介

好书推荐 - 《大规模语言模型：从理论到实践》

一文彻底搞懂大模型 - Prompt Engineering（提示工程）

大模型面试 - 大模型的奠基者（Transformer）

一文彻底搞懂大模型 - Agent（智能体）

一文彻底搞懂大模型 - Prompt Engineering、Function Calling、RAG、Fine-tuning

大模型面试 - 残差神经网络（ResNet）

glm-4-long 1M（约150-200万字）上下文：解锁超长文本处理

大模型实战 - Fine-tuning（LoRA + LLaMA-Factory）

一文彻底搞懂Fine-tuning - 训练和推理（Training vs Inference）

大模型面试 - 图神经网络（GNN）

Transformer动画讲解 - 注意力工作原理（Q、K、V）

大模型实战 - Embedding（Word2Vec、Text2Vec）

一文彻底搞懂Fine-tuning - 参数高效微调（Parameter-Efficient Fine-Tuning）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉