适合人群:
在校学生:如果你是在校学生,对AI有浓厚兴趣,并希望通过学习相关内容增强自己的实践能力,以便在未来的实习或工作中脱颖而出,那么大模型的知识将是你简历上的一大亮点。
职场新人:对于那些刚刚步入职场不久的同学,如果你想通过掌握大模型技术来提升自己的职业竞争力,无论是为了升职加薪还是寻求更好的职业发展机会,这部分内容都将是你的宝贵资产。
追求效率者:如果你希望通过“偷懒”来节省时间,获取整理好的大模型面试资料和信息,以便更高效地准备面试或学习,那么这些资源将是你的得力助手。
经验交流者:渴望与行业内的专业人士近距离交流,汲取更多实战经验,获取第一手行业信息的人群,也将从这些内容中受益匪浅。
不适合人群:
自主学习强者:对于那些已经拥有强大自我学习能力,能够独立完成AI相关知识学习的人来说,这些额外的帮助可能不是必需的。 非AI领域人士:如果你不准备进入AI相关领域,或者对AI学习没有兴趣,那么这部分内容可能并不适合你。
分词(Tokenization):分词是NLP任务中最基本的一步,它直接影响到后续的词性标注、句法分析、词向量以及文本分析的质量。在英文中,由于单词之间天然存在空格分隔,分词相对简单。但在中文中,由于缺少显式的分隔符,分词成为了一个复杂且重要的任务。
分词技术包括基于词典的匹配法(如最大匹配、双向匹配等)、基于统计的模型法(如HMM、CRF、深度学习等)以及子词级别的切分法(如BPE、WordPiece、Unigram),旨在高效、准确地将文本切分为更小的语言单元。
1. 基于词典的分词方法:将待分词的文本与预先构建的词典进行匹配,找到文本中的词并切分出来。
最大匹配法:包括正向最大匹配和逆向最大匹配,选择匹配长度最长的词作为分词结果。
双向最大匹配法:结合正向和逆向最大匹配的结果,选择词数较少的一种作为最终分词结果。
全切分路径选择:列出所有可能的分词路径,选择最优的路径作为分词结果。
2. 基于统计的分词方法:利用统计模型对文本中的词进行建模,通过计算词的概率或频率来决定分词。
隐马尔科夫模型(HMM):通过观测序列(文本)和隐藏状态(分词结果)之间的概率关系来进行分词。
条件随机场(CRF):基于条件概率进行分词,考虑上下文信息。
深度学习模型:如循环神经网络(RNN)、Transformer等,通过训练大量数据来学习分词规则。
3. 子词(Subword)级别的分词方法:将词切分成更小的单元(子词),以便更好地处理低频词和未登录词。
Byte-Pair Encoding(BPE):通过迭代合并出现频率最高的字符对来构建子词表。
WordPiece:与BPE类似,但考虑了合并后子词在词中的概率,以构建更合理的子词表。
Unigram:基于语言模型的概率进行分词,不直接依赖于频率信息。