面试题: 大模型中的tokenize方法有哪些?

文摘   2024-12-29 23:28   河南  
点击下方卡片,关注“自动驾驶之星
这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入Introduction
主要的方法有BPE、Word-piece、Sentence-Piece、Unigram等算法 其中各算法的主要思路如下,大家的主要目的是生成subword,只是出发点可能不同。 


BPE:对字节对进行编码,首先将词拆分为多个字母,按照字母出现的高低频率不算找到词频最高、且连续的两个字母进行合并,直到达到目标词数。

Word-piece: 和BPE算法类似,其选择使得语言模型概率最大的相邻subword加入词表而不是下一最高的频率字节对。
Sentence-Piece: 一个支持多语言tokenize的包,它以unicode方式编码字符,并将所有不同的输入(中文、德语等不同语言)都转化为unicode字符,解决了多语言编码方式不同的问题。
Unigram: 该方法是从一个包含足够多字符串或词元的初始集合开始,迭代地删除其中的词元,直到达到预期的词表大小。

各大模型用到的方法总结如下:

知识星球,新年优惠券重磅来来袭!,结识一群志同道合的小伙伴一起成长。









知识星球,新人优惠券来袭,结识一群志同道合的小伙伴一起成长。


下一个风口会不会是生成式AI 与具身智能的时代,我们特意创建了生成式AI与具身智能交流社区,关于大模型,机器人的相关业界动态,学术方向,技术解读等等都会在社区与大家交流,欢迎感兴趣的同学加入我们(备注具身智能)!   

自动驾驶之星知识星球主打自动驾驶量产全技术栈学习,并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括端到端大模型,VLM大模型,BEV 障碍物/车道线/Occ 等的学习资料!

生成式AI与具身智能知识星球,我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容,本知识形象并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括生成式AI大模型,具身智能,业界资料整理等的学习资料!


自动驾驶之星是面向自动驾驶&智能座舱量产向相关的交流社区,欢迎大家添加小助手加入我们的交流群里,这里有一批奋斗在量产第一线的小伙伴等你的加入!

👇点个“赞”和“在看”吧

自动驾驶之星
自动驾驶之星,是一个以自动驾驶\x26amp;智能座舱量产交流为主的社区。这里有自动驾驶\x26amp;智能座舱量产第一线的前沿动态,有一群奋斗在自动驾驶\x26amp;智能座舱量产第一线的小伙伴在分享他们的量产经历。期待你的加入!希望每个人在这个浪潮中都能成为自动驾驶之星!
 最新文章