法律修音机(Legal Studio)是一个具有全球视野的法律科技自媒体,也是个高质量的交流社区,致力于传播全球法律科技的前沿资讯和深度内容,让好产品和好内容被看见。
目前,AI 主导着包括法律行业在内各行各业的讨论,在各个领域加速落地。
为帮助法律人了解这个快速发展的领域,法律修音机整理了 60 个与 AI 相关的关键术语,进行集合放送,希望能对行业有所助益。
注:随着 AI 不断发展,本文将会持续更新,欢迎关注 Legal Studio 法律科技智库👇
https://www.feishu.cn/community/article/wiki?id=7384712700309274628
人工智能
Artificial Intelligence
计算机科学的一个分支,专注于计算机系统的理论、开发和设计,AI 系统可以模拟人类的智能,思考或执行通常需要人类智能的任务。
通用人工智能
Artificial General Intelligence,简称 AGI
一种 AI 的理论形式,可以理解、学习、应用知识和执行任务,就像人类一样好或者比人类更好。目前,我们离 AGI 还很远。
大数据
Big Data
规模非常大、结构复杂的数据集,传统的数据处理技术难以处理。
云计算
Cloud Computing
通过互联网提供计算资源(如服务器、存储和网络)的服务模式。
大语言模型
Large Language Model,简称 LLM
一种深度学习算法或机器学习模型,基于海量数据,使用监督学习、强化学习等技术训练,可以执行各种自然语言处理任务,包括阅读、总结、翻译、分类、预测和生成文本单词或者句子,以对话的方式作出回复。
自然语言处理
Natural Language Processing,简称 NLP
人工智能和计算机科学的一个分支,可以使计算机或软件能够理解和阅读文本、语音等数据形式的书面和口头语言,包括意图和情感。
机器学习
Machine Learning
人工智能的一个分支,“教导”AI 系统以模仿人类行为的方式去执行任务、理解概念或解决问题,而且自动学习和改进。随着使用越来越多数据进行训练,AI 将逐渐变得更加准确。
神经网络
Neural Network
一种模拟人脑的机器学习手段,由相互连接的神经元组成,包括同时进行多层训练的能力。神经网络技术通常由数百万个处理节点组成,是深度学习的核心。
深度学习
Deep Learning
一种机器学习技术,使用神经网络来模拟人类大脑,通过多层训练来处理数据并进行预测。
算法
Algorithm
在 AI 的语境下,算法是指一组指令或编程,告诉计算机该做什么,让机器学会自行操作,以解决特定问题或执行特定任务。
知识图谱
Knowledge Graph
一种结构化的知识表示形式,将不同实体之间的关系表示为图形。
强化学习
Reinforcement Learning
一种训练 AI 模型的机器学习技术,AI 系统将通过反复试验并结合自身的行动和输出反馈,进行交互式学习。
自监督学习
Self-Supervised Learning
一种机器学习形式,通过给模型输入非结构化数据,然后 AI 自动生成数据标签。由于模型可以通过自我训练从而区分输入的不同部分,因此自监督学习也被称为预测式学习。
监督式学习
Supervised Learning
一种机器学习形式,在模型训练过程中由人类手动纠错,教导模型如何识别某个概念或主题(如特定类型的文档)。
无监督式学习
Unsupervised Learning
一种机器学习形式,让模型采用深度学习技术来检测数据,无需对标注数据进行人工干预。
半监督式学习
Semi-Supervised Learning
一种机器学习形式,其中一部分数据是被人工干预标注过的。也就是说,半监督式学习是监督式学习和无监督式学习的混合体。
持续主动学习
Continuous Active Learning
人工智能的一种应用,AI 系统可以通过监督式学习,学会辨别不同程度的响应式和非响应式的文档或概念,然后在不需要持续人类监督的情况下学会自我纠正。
模型
Model
一种基于特定数据集的 AI 工具或算法,可以基于给定的相同信息,做出类似人类专家做出的决策,在决策过程中没有人为干预。例如,GPT-4 是一种 AI 模型。
基础模型
Foundational Model
使用大量未标注数据训练的 AI 模型,通常已通过自监督学习,可以通过最小程度的微调去准确执行广泛任务,包括自然语言处理、图像分类、回答问题等。
垂直大模型
Vertical Large Model
针对特定领域的垂直模型,比如法律、医疗、财务、教育等。
多模态人工智能
Multimodal AI
一种 AI 系统,除文本外,还能处理多类型的数据,比如图像、音频或视频,以生成输出。
数据集
Data Set
用来训练 AI 的数据集合,包括用于训练的数据集,以及用于测试的数据集。
参数
Parameters
模型在训练过程中学习的知识或变量的比特,可以理解为各个概念之间的联系。在训练期间调整参数,可以从特定输入中获得预期输出。一般来说,训练使用的参数越多,模型能理解复杂概念并将其连接在一起的能力就越强。可以说,参数越多,AI 模型就越先进。
Token
在自然语言处理语境下,token 指的是一种将书面语言形成语义单位的字符序列。将语言流分解成单词或句子等有意义的元素的过程,就叫做 token 化。
垃圾进,垃圾出
Garbage In, Garbage Out
一种说法,意思是 AI 系统的表现只能与用来训练它所使用的数据一样好。如果 AI 系统是用不准确、有偏见或过时的数据训练的,那么它的输出也将反映这些缺点。
幻觉
Hallucination
毒性
Toxicity
AI 模型产生的有害或有偏见的内容量。
提示词
Prompt
给 AI 模型或机器学习算法提供的指令,旨在生成特定的输出。
提示工程
Prompt Engineering
识别和使用正确的提示,以从 AI 工具中产生有用或理想结果的技术手段。
思维链
Chain of Thought,简称 CoT
一种用于设计提示的方法,除了有任务的输入和输出外,还包含推理的中间步骤。
嵌入
Embedding
一种将单词、图像和声音等媒体介质,转化为机器学习模型和算法可以理解的值的方法。这些值也被称为“向量“,相关性较高的单词(如“笔”和“纸”)会彼此接近。嵌入使得 AI 可以创建这些矢量,形成模型内关系的命脉。
对齐
Alignment
将一个预训练好的模型适应于新任务的过程。通过使用一些特定的技术来调整模型的参数,使模型在新任务上的表现更好。与微调相比,对齐通常只需要在一个比较小的数据集上进行调整,而且不需要过多的迭代。
微调
Fine-tuning
在一个预训练好的模型基础上,根据特定场景调整模型的过程,使得模型在新任务上的表现更好。微调的常见用法,包括更改模型的样式或提高可靠性等。与对齐相比,微调需要更多的数据和调整,同时也需要更多的计算资源。
检索增强生成
Retrieval Augmented Generation,简称 RAG
通过为模型提供更多的外部信息、上下文,让模型在指定的知识库中创建输出。
助手模式
Assistant Mode
Assistant 模式可以通过自然语言处理技术与用户进行交互,能够处理较简单的任务,属于辅助/增强工具,比如 FAQ、生成简单、固定结构的文案和图片等。
代理模式
Assistant Mode
Agent 模式能够根据环境变化和目标要求,在更少的监督下,更自主地做出决策和行动,从互动中学习并采取积极主动的步骤。通过对问题进行有效拆解,AI 可以自主决策,实现更加复杂的任务,比如自动驾驶。
生成式人工智能
Generative AI,简称 GenAI
一类 AI 系统,基于大模型,以文本、图像、音频等形式独立创建独特的、新颖的内容。与传统的 AI 系统不同,生成式 AI 超越了识别模式,还可以作出预测,一些先进的生成式 AI 并不受限于其训练的数据集,还可以通过自我学习,回答那些包含没有受过训练的信息的问题 —— 这被称为「零样本学习」。
零样本学习
Zero-Shot Learning
AI 系统学习如何响应问题、创建新内容或者对以前没有训练过的数据进行分析的能力。
数据挖掘
Data mining
从大量数据中提取有价值信息和知识的过程。
上下文窗口
Context Window
大模型的工作记忆,即 AI 在做出决定时可以同时考虑的信息量。目前,较前沿的模型具有高达 100,000 至 200,000 个 tokens 的上下文窗口,而 1 个 token 等于若干个字符。
黑匣子
Black Box
一种形容,指的是 AI 如何做出决策的过程对人类来说是不透明的。
图形处理单元
Graphics Processing Unit,简称 GPU
一种高效的计算机处理器,可以用于在计算机屏幕上渲染图形,在训练需要大量处理能力的 AI 系统和大模型方面至关重要。
机器人流程自动化
Robotic Process Automation,简称 RPA
一种业务流程自动化的形式,也称为软件机器人技术,允许人类使用自动化技术来快速、无错误地定义一组指令,以执行大量、重复性的人类任务。虽然 RPA 技术与 AI 技术有相似之处,而且经常会被放在一起讨论,但 RPA 技术不是 AI 的一种形式。
聊天机器人
Chatbot
一种可以与用户“对话”的计算机程序。其中,一般的聊天机器人基于预先写好的答案或流程来回答问题,但不能偏离这些内容;AI 机器人则更加智能,可以从数据库中提取信息,并且可以随着时间的推移学习更多信息。
虚拟助手
Virtual Assistant
一种基于生成式 AI 的应用程序,可以在没有人类干预的情况下与用户进行对话。
Transformer
Transformer 是一种基于自注意力机制开发的深度学习模型,主要用于处理序列数据,它通过并行计算和自注意力机制解决了传统序列模型(如循环神经网络 RNN)的长距离依赖问题,并在自然语言处理(NLP)以及计算机视觉(CV)等领域取得了显著的性能提升。
GPT
一种预训练语言模型,全称为 Generative Pre-trained Transformer,OpenAI 公司各代大语言模型的前缀。例如,GPT-4 是其第四代 GPT 模型。其中,GPT-1 于 2018 年 6 月发布,GPT-2 于 2019 年 2 月发布,GPT-3 于 2020 年 6 月发布,GPT-3.5 于 2022 年 3 月发布,GPT-4 于 2023 年 3 月发布,GPT-4o 于 2024 年 5 月发布。
Bert
一种预训练语言模型,全称为 Bidirectional Encoder Representations from Transformers,Google AI 研究院推出。该模型强调不再像以往一样采用传统的单向语言模型,或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的 masked language model(MLM)的方法,从而可以生成深度的双向语言表征。
LLaMA
Meta 于 2023 年 2 月发布的大语言模型。
ChatGPT
OpenAI 推出的生成式 AI 聊天机器人,基于 GPT-3.5、GPT-4 等大语言模型。
OpenAI o1(代号“草莓”)
OpenAI 于 2024 年 9 月发布的生成式 AI 大模型。OpenAI o1 比以前的版本更智能,但速度慢得多。OpenAI 表示,该模型“可以在科学、编码和数学方面,通过复杂的任务进行推理,并解决比以前的模型更难的问题。”
Claude
Anthropic 开发的大模型系列。首个 Claude 模型于 2023 年 3 月发布,最先进的模型 Claude 3 Opus 于 2024 年 3 月发布。
Gemini/Bard
Bard 是谷歌推出的生成式 AI 聊天机器人。2023 年 2 月谷歌将 Bard 改名为 Gemini。
网络抓取
Web Scraping
从网站中提取数据,通常是大量数据,并使用这些提取出来的数据来训练 AI 模型,为 AI 工具生成输出提供信息。
Common Crawl
一个非营利组织,通过收集从互联网上自动找到和索引的网页来构建网络数据存储库。公众可以免费访问这些数据,AI 开发人员则经常使用这些数据来训练各种 AI 模型。
合成数据
Synthetic Data
由在原始数据上训练的 AI 模型创建的数据,旨在模仿原始数据的属性和结构,典型例子是 Cosmopedia。
数据安全
Data Security
保护数据不被未经授权的访问、使用或披露。
深度造假
Deepfake
利用深度学习技术创建的令人信服的合成媒体数据,比如图片、视频或音频剪辑等。
人工智能伦理
Ethics of artificial intelligence
研究 AI 相关的道德和伦理问题的学科。
Human-in-the-Loop
一种协作方法,在构建算法的训练和测试阶段将人工输入与 AI 和机器学习系统相结合。
更多 AI 术语,持续更新中......
欢迎联系
法律修音机(Legal Studio)是一个具有全球视野的法律科技自媒体,也是个高质量的交流社区,致力于传播全球法律科技的前沿资讯和深度内容,让好产品和好内容被看见。
自成立第一天起,法律修音机 Legal Studio 就致力于推出法律科技相关的教育资源。随着 AI 浪潮席卷法律行业,我们也希望帮助整个行业为 AI 即将随处可见的世界做好准备。
目前,我们构建了一个【法律科技智库】,并被飞书官方社区收录,访问量已经 1W+👇
🔗 智库地址:
https://www.feishu.cn/community/article/wiki?id=7384712700309274628
注:付费用户请联系法律修音机主理人,开通智库(飞书版)权限,解锁更多内容。
更多合作方案
⬇️⬇️⬇️
最后,如果你对法律科技尤其是「AI+法律」感兴趣,希望及时了解相关资讯,或者有产品或活动想在社区推广,又或者希望参与到社区的共建中,欢迎联系法律修音机主理人。添加微信请备注:姓名-工作单位-职位。