NiFi ：1 初识这把“十年一剑”的利器

文摘科技 2024-08-05 08:20 上海

文｜庞德公

编辑｜郭嘉

--->更多内容，请移步“鲁班秘笈”！！<---

“现在AI和数据处理密不可分，80%的企业可以利用Apache NiFi轻松解决复杂的数据问题，快速完成场景建设。犹如花上百来块钱在家享受一顿不亚于五星级西餐厅的法式大餐。对于全栈式的数据分析师或者数据应用的Java研发工程师，NiFi让其摆脱复杂的数据工程，而是将精力放在分析和应用的创新之上。而NiFi的GUI也着实令人赏心悦目！”

—小编

Apache NiFi

说到数据平台，很多人的第一反应要么是ETL/ELT，要么是Spark或Hadoop，要么是Flink，要么是各式各样的湖仓技术，例如Delta Lake。小编多年来根据不同的业务场景规划落地不少数据平台，很清楚的明白维护一套数据处理套件成本不菲。先不说调度引擎、运算引擎、数据治理引擎和存储引擎，光是数据质量和产出效益就让很多企业管理者头疼，况且现代化的技术体系都依托云原生，这也是不小的一块投入。就算下定决心建设数据平台，技术路线抉择和人才储备则是另一大难题。要知道如何选择最合适的技术至关重要，和2B产品线的生死掌握在靠谱的产品经理手中一样。

现在AI时代已经到达，如何快速且以较低的成本进行数据处理和微治理则十分重要。毕竟现在的节奏越来越快，从商业的角度，小投入，快应用，螺旋式的加大投资成为很多人的选择。回顾过去十年，加之最近在数据领域的咨询量增加，小编认为是时候介绍一下NiFi，让它能够得到最对等的尊重。回顾这十年，NiFi走得很稳，正如它的官网所介绍的一样，NiFi是强大、可靠、简单易用的处理和分发数据的系统。

Apache NiFi是Apache软件基金会的一个软件项目，旨在自动化软件系统之间的数据流。它利用提取、转换、加载（ETL）的概念，基于美国国家安全局（NSA）之前开发的“NiagaraFiles”软件，该软件也是其现在名称的一部分——NiFi 的来源，它在2014年NSA技术转让计划的开源的清单里面。

简单而言Apache NiFi是一款开源的数据流处理工具，提供了强大的数据采集、传输、转换和处理能力。它可以帮助用户轻松地构建可扩展、高度可配置的数据流处理管道，支持从各种来源（包括本地磁盘、网络、传感器等）获取数据，并将其路由、转换、过滤和聚合后输出到各种目标（包括 Hadoop、HDFS、Kafka、Solr等）。同时，Apache NiFi 还提供了直观的可视化界面，帮助用户快速构建和管理数据流处理任务。

Apache NiFi的体系结构基于可插拔的Processor、Controller Service和自定义Extension，使其能够快速适应不同的场景和需求，同时保持高性能和可靠性。NiFi的里层还依托Java虚拟机，建立在Spring基础上。根据处理流量的大小，决定了其对系统资源的占用情况以及是否需要硬件支持。

如上图所示，NiFi支持单机和集群模式。在分布式部署的情况下，ZK作为分布式一致性的中间件。每个节点都建立在JVM的基础上，中间是各种处理数据的Processor，底层则是NiFi的数据存储仓库以及数据监管机制。

上图为数据流工程的一部分，可以进行分领域设计。简单、干净和高可靠。

数据模型

NiFi的整体框架下，数据模型被建模为FlowFile，请记住这个术语。它由内容（Content）和属性（Attribute）两部分组成。毕竟在物理世界，任何的数据消息都是由消息体和头部信息组成。一系列的处理组件在相同的规范下互相连接形成处理管道。数据会沿着管道进行流动形成数据流。同时，NiFi的组件很丰富，截止到1.27的版本已经接近400+。<不够用，没问题，可以自己定义。>

每个组件都是FlowFile进，FlowFile出。每份数据都会从流的开始传输到流的结束。默认情况下，它使用已NiFi的存储介质作为机制，例如本地磁盘，因此NiFi对于I/O的要求比较高。

FlowFile Content存储着数据主体信息，可以理解为文本内容，可以是Json格式，也可以是二进制文件等等。而FlowFileAttribute则是添加到每个FlowFile文件上面的Key-Value对，也即为键值对。

这些属性的有一部分是NiFi系统给每个FlowFile加上（例如FlowFile创建时间、FlowFile大小、uuid等等），也可以使用户自行添加的属性对，还可以是由Processor（每个处理节点）自己设置，用来标明这些数据的特定属性或状态。

每个流的数据都可以在NiFi GUI可视化直观的跟踪和显示，尤其可以追溯每份数据处理的链路图，比如源头和处理的组件，类似数据的血缘追踪。

鲁班号导读火热上线!!

------>敬请移步“鲁班秘笈”！<------

http://mp.weixin.qq.com/s?__biz=MzkzNDM4MDQyMg==&mid=2247486801&idx=1&sn=61e019bc400ce2e1556670d835ddfd0b

鲁班模锤

基于开源技术生态，跟踪与普及人工智能、隐私计算、区块链以及数据空间的最新技术。着力于数据治理自动化，依托语料库构建数据可信流通方案，为所有企业提供平等的数据增益服务。

最新文章

神经网络与2024诺贝尔物理奖

利用语料来透析（“哲学思考”） “数字孪生” 上

WordLlama：在消费级GPU上奔跑的“瘦子”

AI新思考：“浴火重生”的草莓模型

Apple发布iPhone16和Apple Intelligence

突发：Runway删库跑路，备受瞩目的Stable Diffusion v1.5不见了！

优雅谈大模型：白话ZeRO 下

Jamba前生今世：1.5开源来袭

AI架构系列：去其形而留其意

ViT篇外：NVIDIA Llama-3.1-Minitron 4B

FlashAttention3：再次深度挖掘硬件潜力

Grok 2携AI图片生成重生

TorchChat：Ollama的潜在对手

优雅谈大模型：Python编程篇

AIGC中数据治理的“科林格里奇困境”

泡沫还是机遇？复盘18个月的AI装备竞赛

三个臭皮匠与一个诸葛亮：覆盖率与正确率的博弈

NiFi ：1 初识这把“十年一剑”的利器

Flux：Midjourney的新图像模型挑战者

Apple在Swift中引入同态加密

Meta再下一城：SAM 2

“年轻的”IMO选手：扫荡“围棋”后，开始扫荡“数学”

新版PyTorch：AI任务加速与Intel GPU集成

优雅谈大模型：白话ZeRO 上

Llama 3.1和xAI的超集群加速AI军备竞赛

LLama3.1 405B即将来袭：开源首次超越GPT-4o

优雅谈大模型：“System2”与“System 1”

本周当之无愧：小模型周

百万专家小专家：“N个小皮匠”？！

SpreadsheetLLM：微软对Excel编码的“摊膀伏”

LLM基础模型系列：Prefix-Tuning

FlashAttention3：“苗条”的就是比较好！

数据跨境法案：美国篇下

MobileLLM：“苗条”的模型比较好！

白话无人驾驶：2 运动规划

白话无人驾驶：1风暴来袭

优雅谈大模型：白话向量数据库

RWKV: 与Transformer和Mamba掰掰手腕的小家碧玉

LLM基础模型系列：Prompt-Tuning

LLM基础模型系列：Fine-Tuning总览

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉