法律人应该知道的人工智能词汇表 2.0

文摘   2024-10-10 07:02   上海  


法律修音机(Legal Studio)是一个具有全球视野的法律科技自媒体,也是个高质量的交流社区,致力于传播全球法律科技的前沿资讯和深度内容,让好产品和好内容被看见。


目前,AI 主导着包括法律行业在内各行各业的讨论,在各个领域加速落地。


为帮助法律人了解这个快速发展的领域,法律修音机整理了 60 个与 AI 相关的关键术语,进行集合放送,希望能对行业有所助益。


注:随着 AI 不断发展,本文将会持续更新,欢迎关注 Legal Studio 法律科技智库👇


https://www.feishu.cn/community/article/wiki?id=7384712700309274628




人工智能

Artificial Intelligence

计算机科学的一个分支,专注于计算机系统的理论、开发和设计,AI 系统可以模拟人类的智能,思考或执行通常需要人类智能的任务。


通用人工智能

Artificial General Intelligence,简称 AGI

一种 AI 的理论形式,可以理解、学习、应用知识和执行任务,就像人类一样好或者比人类更好。目前,我们离 AGI 还很远。


大数据

Big Data

规模非常大、结构复杂的数据集,传统的数据处理技术难以处理。


云计算

Cloud Computing

通过互联网提供计算资源(如服务器、存储和网络)的服务模式。


大语言模型

Large Language Model,简称 LLM

一种深度学习算法或机器学习模型,基于海量数据,使用监督学习、强化学习等技术训练,可以执行各种自然语言处理任务,包括阅读、总结、翻译、分类、预测和生成文本单词或者句子,以对话的方式作出回复。


自然语言处理

Natural Language Processing,简称 NLP

人工智能和计算机科学的一个分支,可以使计算机或软件能够理解和阅读文本、语音等数据形式的书面和口头语言,包括意图和情感。


机器学习

Machine Learning

人工智能的一个分支,“教导”AI 系统以模仿人类行为的方式去执行任务、理解概念或解决问题,而且自动学习和改进。随着使用越来越多数据进行训练,AI 将逐渐变得更加准确。


神经网络

Neural Network

一种模拟人脑的机器学习手段,由相互连接的神经元组成,包括同时进行多层训练的能力。神经网络技术通常由数百万个处理节点组成,是深度学习的核心。


深度学习

Deep Learning

一种机器学习技术,使用神经网络来模拟人类大脑,通过多层训练来处理数据并进行预测。


算法

Algorithm

在 AI 的语境下,算法是指一组指令或编程,告诉计算机该做什么,让机器学会自行操作,以解决特定问题或执行特定任务。


知识图谱

Knowledge Graph

一种结构化的知识表示形式,将不同实体之间的关系表示为图形。


强化学习

Reinforcement Learning

一种训练 AI 模型的机器学习技术,AI 系统将通过反复试验并结合自身的行动和输出反馈,进行交互式学习。


自监督学习

Self-Supervised Learning

一种机器学习形式,通过给模型输入非结构化数据,然后 AI 自动生成数据标签。由于模型可以通过自我训练从而区分输入的不同部分,因此自监督学习也被称为预测式学习。


监督式学习

Supervised Learning

一种机器学习形式,在模型训练过程中由人类手动纠错,教导模型如何识别某个概念或主题(如特定类型的文档)。


无监督式学习

Unsupervised Learning

一种机器学习形式,让模型采用深度学习技术来检测数据,无需对标注数据进行人工干预。


半监督式学习

Semi-Supervised Learning

一种机器学习形式,其中一部分数据是被人工干预标注过的。也就是说,半监督式学习是监督式学习和无监督式学习的混合体。


持续主动学习

Continuous Active Learning

人工智能的一种应用,AI 系统可以通过监督式学习,学会辨别不同程度的响应式和非响应式的文档或概念,然后在不需要持续人类监督的情况下学会自我纠正。


模型

Model

一种基于特定数据集的 AI 工具或算法,可以基于给定的相同信息,做出类似人类专家做出的决策,在决策过程中没有人为干预。例如,GPT-4 是一种 AI 模型。


基础模型

Foundational Model

使用大量未标注数据训练的 AI 模型,通常已通过自监督学习,可以通过最小程度的微调去准确执行广泛任务,包括自然语言处理、图像分类、回答问题等。


垂直大模型

Vertical Large Model

针对特定领域的垂直模型,比如法律、医疗、财务、教育等。


多模态人工智能

Multimodal AI

一种 AI 系统,除文本外,还能处理多类型的数据,比如图像、音频或视频,以生成输出。


数据集

Data Set

用来训练 AI 的数据集合,包括用于训练的数据集,以及用于测试的数据集。


参数

Parameters

模型在训练过程中学习的知识或变量的比特,可以理解为各个概念之间的联系。在训练期间调整参数,可以从特定输入中获得预期输出。一般来说,训练使用的参数越多,模型能理解复杂概念并将其连接在一起的能力就越强。可以说,参数越多,AI 模型就越先进。


Token

在自然语言处理语境下,token 指的是一种将书面语言形成语义单位的字符序列。将语言流分解成单词或句子等有意义的元素的过程,就叫做 token 化。


垃圾进,垃圾出

Garbage In, Garbage Out

一种说法,意思是 AI 系统的表现只能与用来训练它所使用的数据一样好。如果 AI 系统是用不准确、有偏见或过时的数据训练的,那么它的输出也将反映这些缺点。


幻觉

Hallucination

AI 系统在收到一个问题或提示词时,可能会输出一个错误、虚构但令人信服的答案,而且它确信这是正确的。


毒性

Toxicity

AI 模型产生的有害或有偏见的内容量。


提示词

Prompt

给 AI 模型或机器学习算法提供的指令,旨在生成特定的输出。


提示工程

Prompt Engineering

识别和使用正确的提示,以从 AI 工具中产生有用或理想结果的技术手段。


思维链

Chain of Thought,简称 CoT

一种用于设计提示的方法,除了有任务的输入和输出外,还包含推理的中间步骤。


嵌入

Embedding

一种将单词、图像和声音等媒体介质,转化为机器学习模型和算法可以理解的值的方法。这些值也被称为“向量“,相关性较高的单词(如“笔”和“纸”)会彼此接近。嵌入使得 AI 可以创建这些矢量,形成模型内关系的命脉。


对齐

Alignment

将一个预训练好的模型适应于新任务的过程。通过使用一些特定的技术来调整模型的参数,使模型在新任务上的表现更好。与微调相比,对齐通常只需要在一个比较小的数据集上进行调整,而且不需要过多的迭代。


微调

Fine-tuning

在一个预训练好的模型基础上,根据特定场景调整模型的过程,使得模型在新任务上的表现更好。微调的常见用法,包括更改模型的样式或提高可靠性等。与对齐相比,微调需要更多的数据和调整,同时也需要更多的计算资源。


检索增强生成

Retrieval Augmented Generation,简称 RAG

通过为模型提供更多的外部信息、上下文,让模型在指定的知识库中创建输出。


助手模式

Assistant Mode

Assistant 模式可以通过自然语言处理技术与用户进行交互,能够处理较简单的任务,属于辅助/增强工具,比如 FAQ、生成简单、固定结构的文案和图片等。


代理模式

Assistant Mode

Agent 模式能够根据环境变化和目标要求,在更少的监督下,更自主地做出决策和行动,从互动中学习并采取积极主动的步骤。通过对问题进行有效拆解,AI 可以自主决策,实现更加复杂的任务,比如自动驾驶。


生成式人工智能

Generative AI,简称 GenAI

一类 AI 系统,基于大模型,以文本、图像、音频等形式独立创建独特的、新颖的内容。与传统的 AI 系统不同,生成式 AI 超越了识别模式,还可以作出预测,一些先进的生成式 AI 并不受限于其训练的数据集,还可以通过自我学习,回答那些包含没有受过训练的信息的问题 —— 这被称为「零样本学习」。


零样本学习

Zero-Shot Learning

AI 系统学习如何响应问题、创建新内容或者对以前没有训练过的数据进行分析的能力。


数据挖掘

Data mining

从大量数据中提取有价值信息和知识的过程。


上下文窗口

Context Window

大模型的工作记忆,即 AI 在做出决定时可以同时考虑的信息量。目前,较前沿的模型具有高达 100,000 至 200,000 个 tokens 的上下文窗口,而 1 个 token 等于若干个字符。


黑匣子

Black Box

一种形容,指的是 AI 如何做出决策的过程对人类来说是不透明的。


图形处理单元

Graphics Processing Unit,简称 GPU

一种高效的计算机处理器,可以用于在计算机屏幕上渲染图形,在训练需要大量处理能力的 AI 系统和大模型方面至关重要。


机器人流程自动化

Robotic Process Automation,简称 RPA

一种业务流程自动化的形式,也称为软件机器人技术,允许人类使用自动化技术来快速、无错误地定义一组指令,以执行大量、重复性的人类任务。虽然 RPA 技术与 AI 技术有相似之处,而且经常会被放在一起讨论,但 RPA 技术不是 AI 的一种形式。


聊天机器人

Chatbot

一种可以与用户“对话”的计算机程序。其中,一般的聊天机器人基于预先写好的答案或流程来回答问题,但不能偏离这些内容;AI 机器人则更加智能可以从数据库中提取信息,并且可以随着时间的推移学习更多信息。


虚拟助手

Virtual Assistant

一种基于生成式 AI 的应用程序,可以在没有人类干预的情况下与用户进行对话。


Transformer

Transformer 是一种基于自注意力机制开发的深度学习模型,主要用于处理序列数据,它通过并行计算和自注意力机制解决了传统序列模型(如循环神经网络 RNN)的长距离依赖问题,并在自然语言处理(NLP)以及计算机视觉(CV)等领域取得了显著的性能提升。


GPT

一种预训练语言模型,全称为 Generative Pre-trained Transformer,OpenAI 公司各代大语言模型的前缀。例如,GPT-4 是其第四代 GPT 模型。其中,GPT-1 于 2018 年 6 月发布,GPT-2 于 2019 年 2 月发布,GPT-3 于 2020 年 6 月发布,GPT-3.5 于 2022 年 3 月发布,GPT-4 于 2023 年 3 月发布,GPT-4o 于 2024 年 5 月发布。


Bert

一种预训练语言模型,全称为 Bidirectional Encoder Representations from Transformers,Google AI 研究院推出。该模型强调不再像以往一样采用传统的单向语言模型,或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的 masked language model(MLM)的方法,从而可以生成深度的双向语言表征。


LLaMA

Meta 于 2023 年 2 月发布的大语言模型。


ChatGPT

OpenAI 推出的生成式 AI 聊天机器人,基于 GPT-3.5、GPT-4 等大语言模型。


OpenAI o1(代号“草莓”)

OpenAI 于 2024 年 9 月发布的生成式 AI 大模型。OpenAI o1 比以前的版本更智能,但速度慢得多。OpenAI 表示,该模型“可以在科学、编码和数学方面,通过复杂的任务进行推理,并解决比以前的模型更难的问题。”


Claude

Anthropic 开发的大模型系列。首个 Claude 模型于 2023 年 3 月发布,最先进的模型 Claude 3 Opus 于 2024 年 3 月发布。


Gemini/Bard

Bard 是谷歌推出的生成式 AI 聊天机器人。2023 年 2 月谷歌将 Bard 改名为 Gemini。


网络抓取

Web Scraping

从网站中提取数据,通常是大量数据,并使用这些提取出来的数据来训练 AI 模型,为 AI 工具生成输出提供信息。


Common Crawl

一个非营利组织,通过收集从互联网上自动找到和索引的网页来构建网络数据存储库。公众可以免费访问这些数据,AI 开发人员则经常使用这些数据来训练各种 AI 模型。


合成数据

Synthetic Data

由在原始数据上训练的 AI 模型创建的数据,旨在模仿原始数据的属性和结构,典型例子是 Cosmopedia。


数据安全

Data Security

保护数据不被未经授权的访问、使用或披露。


深度造假

Deepfake

利用深度学习技术创建的令人信服的合成媒体数据,比如图片、视频或音频剪辑等。


人工智能伦理

Ethics of artificial intelligence

研究 AI 相关的道德和伦理问题的学科。


Human-in-the-Loop

一种协作方法,在构建算法的训练和测试阶段将人工输入与 AI 和机器学习系统相结合。


更多 AI 术语,持续更新中......






欢迎联系


法律修音机(Legal Studio)是一个具有全球视野的法律科技自媒体,也是个高质量的交流社区,致力于传播全球法律科技的前沿资讯和深度内容,让好产品和好内容被看见。


自成立第一天起,法律修音机 Legal Studio 就致力于推出法律科技相关的教育资源。随着 AI 浪潮席卷法律行业,我们也希望帮助整个行业为 AI 即将随处可见的世界做好准备。


目前,我们构建了一个【法律科技智库】,并被飞书官方社区收录,访问量已经 1W+👇



🔗 智库地址:

https://www.feishu.cn/community/article/wiki?id=7384712700309274628


与此同时,我们还组建运营了一个【法律科技社区】,平时分享法律科技和 AI 相关的前沿信息,并进行高质量的讨论。截至目前,社区已经有 1500+ 实名制入群的朋友,包括法律科技从业者、律师、法务、法学院师生、其他领域的创业者和投资人等,背景非常多元。

💡了解更多:

🎟️法律科技专栏:
👉Legaltech Insight:仅包含前沿资讯
👉Legal Studio 法律科技智库(专业版):包含前沿资讯,以及深度洞察和创新案例


注:付费用户请联系法律修音机主理人,开通智库(飞书版)权限,解锁更多内容。


更多合作方案

⬇️⬇️⬇️


最后,如果你对法律科技尤其是「AI+法律」感兴趣,希望及时了解相关资讯,或者有产品或活动想在社区推广,又或者希望参与到社区的共建中,欢迎联系法律修音机主理人。添加微信请备注:姓名-工作单位-职位。



点击关注「法律修音机」,你将会感受到一个朋克的灵魂,且每篇文章都有惊喜。

法律修音机
做天下生意,吊四方胃口。
 最新文章