法律人应该知道的人工智能词汇表 2.0

文摘 2024-10-10 07:02 上海

法律修音机（Legal Studio）是一个具有全球视野的法律科技自媒体，也是个高质量的交流社区，致力于传播全球法律科技的前沿资讯和深度内容，让好产品和好内容被看见。

目前，AI 主导着包括法律行业在内各行各业的讨论，在各个领域加速落地。‍‍‍‍‍

为帮助法律人了解这个快速发展的领域，法律修音机整理了 60 个与 AI 相关的关键术语，进行集合放送，希望能对行业有所助益。

注：随着 AI 不断发展，本文将会持续更新，欢迎关注 Legal Studio 法律科技智库👇‍

https://www.feishu.cn/community/article/wiki?id=7384712700309274628

人工智能

Artificial Intelligence

计算机科学的一个分支，专注于计算机系统的理论、开发和设计，AI 系统可以模拟人类的智能，思考或执行通常需要人类智能的任务。

通用人工智能

Artificial General Intelligence，简称 AGI‍

一种 AI 的理论形式，可以理解、学习、应用知识和执行任务，就像人类一样好或者比人类更好。目前，我们离 AGI 还很远。

大数据

Big Data

规模非常大、结构复杂的数据集，传统的数据处理技术难以处理。

云计算

Cloud Computing

通过互联网提供计算资源（如服务器、存储和网络）的服务模式。

大语言模型

Large Language Model，简称 LLM

一种深度学习算法或机器学习模型，基于海量数据，使用监督学习、强化学习等技术训练，可以执行各种自然语言处理任务，包括阅读、总结、翻译、分类、预测和生成文本单词或者句子，以对话的方式作出回复。

自然语言处理

Natural Language Processing，简称 NLP

人工智能和计算机科学的一个分支，可以使计算机或软件能够理解和阅读文本、语音等数据形式的书面和口头语言，包括意图和情感。

机器学习

Machine Learning

人工智能的一个分支，“教导”AI 系统以模仿人类行为的方式去执行任务、理解概念或解决问题，而且自动学习和改进。随着使用越来越多数据进行训练，AI 将逐渐变得更加准确。

神经网络

Neural Network

一种模拟人脑的机器学习手段，由相互连接的神经元组成，包括同时进行多层训练的能力。神经网络技术通常由数百万个处理节点组成，是深度学习的核心。

深度学习

Deep Learning

一种机器学习技术，使用神经网络来模拟人类大脑，通过多层训练来处理数据并进行预测。

算法

Algorithm

在 AI 的语境下，算法是指一组指令或编程，告诉计算机该做什么，让机器学会自行操作，以解决特定问题或执行特定任务。

知识图谱

Knowledge Graph

一种结构化的知识表示形式，将不同实体之间的关系表示为图形。

强化学习

Reinforcement Learning

一种训练 AI 模型的机器学习技术，AI 系统将通过反复试验并结合自身的行动和输出反馈，进行交互式学习。

自监督学习

Self-Supervised Learning

一种机器学习形式，通过给模型输入非结构化数据，然后 AI 自动生成数据标签。由于模型可以通过自我训练从而区分输入的不同部分，因此自监督学习也被称为预测式学习。

监督式学习

Supervised Learning

一种机器学习形式，在模型训练过程中由人类手动纠错，教导模型如何识别某个概念或主题（如特定类型的文档）。

无监督式学习

Unsupervised Learning

一种机器学习形式，让模型采用深度学习技术来检测数据，无需对标注数据进行人工干预。

半监督式学习

Semi-Supervised Learning

一种机器学习形式，其中一部分数据是被人工干预标注过的。也就是说，半监督式学习是监督式学习和无监督式学习的混合体。

持续主动学习

Continuous Active Learning

人工智能的一种应用，AI 系统可以通过监督式学习，学会辨别不同程度的响应式和非响应式的文档或概念，然后在不需要持续人类监督的情况下学会自我纠正。

模型

Model

一种基于特定数据集的 AI 工具或算法，可以基于给定的相同信息，做出类似人类专家做出的决策，在决策过程中没有人为干预。例如，GPT-4 是一种 AI 模型。

基础模型

Foundational Model

使用大量未标注数据训练的 AI 模型，通常已通过自监督学习，可以通过最小程度的微调去准确执行广泛任务，包括自然语言处理、图像分类、回答问题等。

垂直大模型

Vertical Large Model

针对特定领域的垂直模型，比如法律、医疗、财务、教育等。

多模态人工智能

Multimodal AI

一种 AI 系统，除文本外，还能处理多类型的数据，比如图像、音频或视频，以生成输出。

数据集

Data Set

用来训练 AI 的数据集合，包括用于训练的数据集，以及用于测试的数据集。

参数

Parameters

模型在训练过程中学习的知识或变量的比特，可以理解为各个概念之间的联系。在训练期间调整参数，可以从特定输入中获得预期输出。一般来说，训练使用的参数越多，模型能理解复杂概念并将其连接在一起的能力就越强。可以说，参数越多，AI 模型就越先进。

Token

在自然语言处理语境下，token 指的是一种将书面语言形成语义单位的字符序列。将语言流分解成单词或句子等有意义的元素的过程，就叫做 token 化。

垃圾进，垃圾出

Garbage In, Garbage Out

一种说法，意思是 AI 系统的表现只能与用来训练它所使用的数据一样好。如果 AI 系统是用不准确、有偏见或过时的数据训练的，那么它的输出也将反映这些缺点。

幻觉

Hallucination

AI 系统在收到一个问题或提示词时，可能会输出一个错误、虚构但令人信服的答案，而且它确信这是正确的。

毒性

Toxicity

AI 模型产生的有害或有偏见的内容量。

提示词

Prompt

给 AI 模型或机器学习算法提供的指令，旨在生成特定的输出。

提示工程

Prompt Engineering

识别和使用正确的提示，以从 AI 工具中产生有用或理想结果的技术手段。

思维链

Chain of Thought，简称 CoT

一种用于设计提示的方法，除了有任务的输入和输出外，还包含推理的中间步骤。

嵌入

Embedding

一种将单词、图像和声音等媒体介质，转化为机器学习模型和算法可以理解的值的方法。这些值也被称为“向量“，相关性较高的单词（如“笔”和“纸”）会彼此接近。嵌入使得 AI 可以创建这些矢量，形成模型内关系的命脉。

对齐

Alignment

将一个预训练好的模型适应于新任务的过程。通过使用一些特定的技术来调整模型的参数，使模型在新任务上的表现更好。与微调相比，对齐通常只需要在一个比较小的数据集上进行调整，而且不需要过多的迭代。

微调

Fine-tuning‍

在一个预训练好的模型基础上，根据特定场景调整模型的过程，使得模型在新任务上的表现更好。微调的常见用法，包括更改模型的样式或提高可靠性等。与对齐相比，微调需要更多的数据和调整，同时也需要更多的计算资源。

检索增强生成

Retrieval Augmented Generation，简称 RAG

通过为模型提供更多的外部信息、上下文，让模型在指定的知识库中创建输出。

助手模式

Assistant Mode

Assistant 模式可以通过自然语言处理技术与用户进行交互，能够处理较简单的任务，属于辅助/增强工具，比如 FAQ、生成简单、固定结构的文案和图片等。

代理模式

Assistant Mode

Agent 模式能够根据环境变化和目标要求，在更少的监督下，更自主地做出决策和行动，从互动中学习并采取积极主动的步骤。通过对问题进行有效拆解，AI 可以自主决策，实现更加复杂的任务，比如自动驾驶。

生成式人工智能

Generative AI，简称 GenAI

一类 AI 系统，基于大模型，以文本、图像、音频等形式独立创建独特的、新颖的内容。与传统的 AI 系统不同，生成式 AI 超越了识别模式，还可以作出预测，一些先进的生成式 AI 并不受限于其训练的数据集，还可以通过自我学习，回答那些包含没有受过训练的信息的问题 —— 这被称为「零样本学习」。

零样本学习

Zero-Shot Learning

AI 系统学习如何响应问题、创建新内容或者对以前没有训练过的数据进行分析的能力。

数据挖掘

Data mining

从大量数据中提取有价值信息和知识的过程。

上下文窗口

Context Window

大模型的工作记忆，即 AI 在做出决定时可以同时考虑的信息量。目前，较前沿的模型具有高达 100,000 至 200,000 个 tokens 的上下文窗口，而 1 个 token 等于若干个字符。

黑匣子

Black Box

一种形容，指的是 AI 如何做出决策的过程对人类来说是不透明的。

图形处理单元

Graphics Processing Unit，简称 GPU

一种高效的计算机处理器，可以用于在计算机屏幕上渲染图形，在训练需要大量处理能力的 AI 系统和大模型方面至关重要。

机器人流程自动化

Robotic Process Automation，简称 RPA

一种业务流程自动化的形式，也称为软件机器人技术，允许人类使用自动化技术来快速、无错误地定义一组指令，以执行大量、重复性的人类任务。虽然 RPA 技术与 AI 技术有相似之处，而且经常会被放在一起讨论，但 RPA 技术不是 AI 的一种形式。

聊天机器人

Chatbot

一种可以与用户“对话”的计算机程序。其中，一般的聊天机器人基于预先写好的答案或流程来回答问题，但不能偏离这些内容；AI 机器人则更加智能，可以从数据库中提取信息，并且可以随着时间的推移学习更多信息。

虚拟助手

Virtual Assistant

一种基于生成式 AI 的应用程序，可以在没有人类干预的情况下与用户进行对话。

Transformer

Transformer 是一种基于自注意力机制开发的深度学习模型，主要用于处理序列数据，它通过并行计算和自注意力机制解决了传统序列模型（如循环神经网络 RNN）的长距离依赖问题，并在自然语言处理（NLP）以及计算机视觉（CV）等领域取得了显著的性能提升。

GPT

一种预训练语言模型，全称为 Generative Pre-trained Transformer，OpenAI 公司各代大语言模型的前缀。例如，GPT-4 是其第四代 GPT 模型。其中，GPT-1 于 2018 年 6 月发布，GPT-2 于 2019 年 2 月发布，GPT-3 于 2020 年 6 月发布，GPT-3.5 于 2022 年 3 月发布，GPT-4 于 2023 年 3 月发布，GPT-4o 于 2024 年 5 月发布。

Bert

一种预训练语言模型，全称为 Bidirectional Encoder Representations from Transformers，Google AI 研究院推出。该模型强调不再像以往一样采用传统的单向语言模型，或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的 masked language model（MLM）的方法，从而可以生成深度的双向语言表征。

LLaMA

Meta 于 2023 年 2 月发布的大语言模型。

ChatGPT

OpenAI 推出的生成式 AI 聊天机器人，基于 GPT-3.5、GPT-4 等大语言模型。

OpenAI o1（代号“草莓”）

OpenAI 于 2024 年 9 月发布的生成式 AI 大模型。OpenAI o1 比以前的版本更智能，但速度慢得多。OpenAI 表示，该模型“可以在科学、编码和数学方面，通过复杂的任务进行推理，并解决比以前的模型更难的问题。”

Claude

Anthropic 开发的大模型系列。首个 Claude 模型于 2023 年 3 月发布，最先进的模型 Claude 3 Opus 于 2024 年 3 月发布。

Gemini/Bard

Bard 是谷歌推出的生成式 AI 聊天机器人。2023 年 2 月谷歌将 Bard 改名为 Gemini。

网络抓取

Web Scraping

从网站中提取数据，通常是大量数据，并使用这些提取出来的数据来训练 AI 模型，为 AI 工具生成输出提供信息。

Common Crawl

一个非营利组织，通过收集从互联网上自动找到和索引的网页来构建网络数据存储库。公众可以免费访问这些数据，AI 开发人员则经常使用这些数据来训练各种 AI 模型。

合成数据

Synthetic Data

由在原始数据上训练的 AI 模型创建的数据，旨在模仿原始数据的属性和结构，典型例子是 Cosmopedia。

数据安全

Data Security

保护数据不被未经授权的访问、使用或披露。

深度造假

Deepfake

利用深度学习技术创建的令人信服的合成媒体数据，比如图片、视频或音频剪辑等。

人工智能伦理

Ethics of artificial intelligence

研究 AI 相关的道德和伦理问题的学科。

Human-in-the-Loop

一种协作方法，在构建算法的训练和测试阶段将人工输入与 AI 和机器学习系统相结合。

更多 AI 术语，持续更新中......

欢迎联系

自成立第一天起，法律修音机 Legal Studio 就致力于推出法律科技相关的教育资源。随着 AI 浪潮席卷法律行业，我们也希望帮助整个行业为 AI 即将随处可见的世界做好准备。

目前，我们构建了一个【法律科技智库】，并被飞书官方社区收录，访问量已经 1W+👇

🔗 智库地址：

https://www.feishu.cn/community/article/wiki?id=7384712700309274628

与此同时，我们还组建运营了一个【法律科技社区】，平时分享法律科技和 AI 相关的前沿信息，并进行高质量的讨论。截至目前，社区已经有 1500+ 实名制入群的朋友，包括法律科技从业者、律师、法务、法学院师生、其他领域的创业者和投资人等，背景非常多元。

💡了解更多：

🎟️法律科技专栏：

👉Legaltech Insight：仅包含前沿资讯

👉Legal Studio 法律科技智库（专业版）：包含前沿资讯，以及深度洞察和创新案例

注：付费用户请联系法律修音机主理人，开通智库（飞书版）权限，解锁更多内容。

更多合作方案

⬇️⬇️⬇️

最后，如果你对法律科技尤其是「AI+法律」感兴趣，希望及时了解相关资讯，或者有产品或活动想在社区推广，又或者希望参与到社区的共建中，欢迎联系法律修音机主理人。添加微信请备注：姓名-工作单位-职位。

点击关注「法律修音机」，你将会感受到一个朋克的灵魂，且每篇文章都有惊喜。

http://mp.weixin.qq.com/s?__biz=MzUzOTcwMTE5OQ==&mid=2247489159&idx=1&sn=c9c10b7f0ffe02d0d1d27d518d54e69c

法律修音机

做天下生意，吊四方胃口。

最新文章

律师行业如何拥抱 AI ？来自 4 家顶级律所的经验教训

2024 年第四十六期法律科技周报（11.11-11.17）

秘塔 AI 搜索+知识库：每家律所，每个律师，都可以拥有一个强大的 AI

赛博法律指北｜法律 AI 通识课 .pptx

2024 年第四十五期法律科技周报（11.4-11.10）

Sam Altman：如果现在创办一家新公司，我会选择开发「AI 律师」

硅谷创业教父最新预测：写作将成为 AI 时代精英技能，思维能力加速分化

法律 AI 独角兽 Harvey 总法律顾问：Harvey 如何使用 Harvey

智库上新｜全球法律科技融资/并购数据库（更新至 2024.10）

🥇2024 年 10 月法律科技月刊

2024 年第四十四期法律科技周报（10.28-11.3）

2024 年第四十三期法律科技周报（10.21-10.27）

新加坡最高法院大法官：AI 时代，初级律师必须具备的法律技能

法天使双 11 优惠：智能合同审查全新上线，现在下单加送会员 1 个月

深度了解「AI+法律」市场现状，法律修音机整理了 160 份研究报告

行业研究｜融资 1.35 亿，估值超 10 亿美元的法律 AI 公司，帮 1000 家律所追回了 15 亿赔偿金

首届「法律科技市集」即将在京举办！诚挚邀请优秀机构一起共建🤗

谷歌再次出手！合同起草初创公司 Genie AI 完成 1780 万美元 A 轮融资

要标准，不要 AI 🥊标准合同库 Law Insider 收购 NDA 开源项目 oneNDA

大模型评估公司 Vals AI 将与法律科技公司、律所联合开展 AI 基准研究

2024 年第四十二期法律科技周报（10.14-10.20）

YC S24 法律 AI 公司汇总：AI 只是一个技术手段，场景才是核心

全方位了解法律 AI 监管趋势：40+ 法院 AI 监管规定库，正式上线🤗

飞书旗舰版免费用🤩Legal Studio 法律科技社区上线啦！欢迎加入→

2024 年第四十一期法律科技周报（10.7-10.13）

一键处理 4w 字长文本、真的会推理，慧多宝法律 AI 让我轻松躺平🤓

关于法律科技任何问题，问它就行了🤏

1300000000$！2024 年 Q3，28 家法律科技公司融资 90 亿

法律人应该知道的人工智能词汇表 2.0

重磅！法律 AI 公司 EvenUp 完成 1.35 亿美元 D 轮融资，估值 10 亿美金

全面了解法律科技市场：13,000+ 法律科技公司数据库，正式上线🤗

2024 年第四十期法律科技周报（9.30-10.6）

智库上新｜全球法律科技融资/并购数据库（更新至 2024.9）

【融资】2024 年 Q3 法律科技融资新闻汇总

🥇2024 年 9 月法律科技月刊

2024 年第三十九期法律科技周报（9.23-9.29）

观摩法律科技产品大赛：什么样的产品，才能从律师手里赚到钱？

时代变了！Rocket Lawyer 获开创性许可，非律师也能提供法律服务了

「自研」还是「采购」？世界上最大的律所推出 AI 合同自动化试点项目

腾讯元器+公众号：每家律所，每个律师，都可以拥有自己的 AI

2024 年第三十八期法律科技周报（9.16-9.22）

强强联合！金山云与法狗狗科技达成战略合作共拓法律+人工智能新边界

「合同数据」争夺战已开启！三家新锐的 CLM 公司被巨头收购了🤔

2024 年全球法律科技一手资讯，持续更新中：■■■■■■■□□□

2024 年第三十七期法律科技周报（9.9-9.15）

市场需求驱动+产学研创新环境，欧洲法律科技市场正在崛起⤴️

5400 亿 token 专业法律数据！又双叒叕出现一个“法律大模型”

美国法官解释用 AI 判案：AI 输出存在不确定性，是好事还是坏事？

司法部：全国共 400 万专业法律服务人员，还不包括法律咨询公司

400 万！律师行业要变天了🤯

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉