BPE:对字节对进行编码,首先将词拆分为多个字母,按照字母出现的高低频率不算找到词频最高、且连续的两个字母进行合并,直到达到目标词数。
Word-piece: 和BPE算法类似,其选择使得语言模型概率最大的相邻subword加入词表而不是下一最高的频率字节对。
Sentence-Piece: 一个支持多语言tokenize的包,它以unicode方式编码字符,并将所有不同的输入(中文、德语等不同语言)都转化为unicode字符,解决了多语言编码方式不同的问题。
Unigram: 该方法是从一个包含足够多字符串或词元的初始集合开始,迭代地删除其中的词元,直到达到预期的词表大小。
各大模型用到的方法总结如下:
知识星球,新年优惠券重磅来来袭!,结识一群志同道合的小伙伴一起成长。
下一个风口会不会是生成式AI 与具身智能的时代,我们特意创建了生成式AI与具身智能交流社区,关于大模型,机器人的相关业界动态,学术方向,技术解读等等都会在社区与大家交流,欢迎感兴趣的同学加入我们(备注具身智能)!
自动驾驶之星知识星球主打自动驾驶量产全技术栈学习,并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括端到端大模型,VLM大模型,BEV 障碍物/车道线/Occ 等的学习资料!
生成式AI与具身智能知识星球,我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容,本知识形象并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括生成式AI大模型,具身智能,业界资料整理等的学习资料!
👇点个“赞”和“在看”吧