2012年,静悄悄的发生了一件大事,在大规模图像识别ILSVRC大赛中,AlexNet以极大的优势取得了第一名。这是第一次神经网络的方法击败了其他的方法,掀开了这一次AI浪潮的序幕。随后每一年的冠军,都是使用了深度神经网络,如VGG,GoogLeNet,ResNet, 今天还在很多视觉领域的场合使用。可以说,这一次AI浪潮,是深度神经网络的崛起,是深度学习deep learning方法的胜利。
简单介绍一下神经网络和深度学习。神经网络并不算新东西,其实已经有几十年的历史了,是一种从带标签的数据集中,自动学习特征分布的方法。只是以前由于数据集和算力的限制,和训练方法的缺陷,没有取得很好的效果。但随着时代发展,算力的提升,以ImageNet为代表的海量数据集的出现,和训练方法的进步,可以训练更深的神经网络,早期的AlexNet只有7层已经一骑绝尘,后来VGG,GoogLeNet, ResNet不断加深,已经达到几十层,上百层的深度,效果也在飞速提升,这是所谓“深度学习”,其实就是指的是神经网络的层数很多,可以更好拟合非线性特征,通过海量数据集有监督的学习,获得比人工设计特征更好的效果,而且无需专家知识,是一种通用的方法。
深度神经网络起初主要在视觉领域发展,如图像识别、物体检测、实体分割、人脸识别等,崛起了“CV四小龙”,即商汤、旷视、云从、依图,现在已经风头不再,还有依托摄像头视频监控行业真正赚钱的海康、大华。
后来NLP自然语言处理领取出现了同样基于深度学习的Attention, Transformer方法,对语音识别、文本生成、对话方面带来划时代的影响,这两年风头正劲的ChatGPT大模型,就是结合强化学习、人机对齐等新方法的成果。
由于深度学习对计算机视觉的巨大提升,Waston也纳入了CV方面的能力,常见的图像识别、物体检测都在官网上有demo,但跟DeepQA并无联动。主推的还是DeepQA的能力,这期间出现了很多奇葩的内部项目,这里列举几个:
找朋友:
从社交媒体中,匹配条件合适的男女,听着是不是很像现在相亲网站干的事?
一些交友软件的推荐朋友也是类似的算法。
同理,还有个类似的,将客户和最适合的销售代表link起来,气场相似的人容易建立信任关系,这确实是个不错的主意。
2. 性格分析:
Waston有个能力Personality Insights, 类似个性画像,是从社交媒体,从几十个维度分析一个人的性格,2011年挪威有个枪击案的枪手,被Waston分析出来性格偏激反社会。
这种分析从技术上讲没什么疑义,但从伦理上讲有很大问题。
如果一个人被分析出有问题,但还没有实施过激行为,应该如何处理呢?有部科幻片叫《少数派报告》,大帅哥汤姆克鲁斯主演,讲可以预测一个人将要犯罪,就提前干预抓起来,现实生活中可不能这样,人不能因为还没有发生的事情受惩罚。但要等到发生后再处理,损失怎么办呢?人受伤或失去生命怎么办呢?
3. PowerAI Vision: 这个不是奇葩项目,是IBM中国研究院的产品,市场口径也戴着Waston的帽子,现在还能查到https://www.ibm.com/docs/zh/mvi/1.1.1?topic=overview, 不过已经随着中国研究院CRL在2021年的关闭,这个产品也定格到了2021年。
AI Vision是一个可以很容易的定制训练图片分类和目标检测的工作流平台。
当时我经常看到研究院的科学家在外部活动中,作为CRL的典型案例讲解,当时的研究院院长林咏华女士(现智源研究院副院长/总工)在讲CRL的成果时,少不了介绍这个。
本质上讲AI Vision是无代码的标记、finetune、推理API平台,工作流做的很好,一切操作在页面上都可以实现。介绍开始时上传少量图片,标记几十张,1小时就可以finetuen一个模型,讲解完毕就可以看到效果,客户觉得自己也行了,上上下下都很高兴,虽然离生产实践还差很远。里面的技术实现,说实话我觉得以CRL的名声来说有些名不副实,我曾借个机会看到后台的文件,其实是打包了一个FasterRCNN目标检测的基础模型,通过页面操作,对这个基础模型进行 finetune,充其量是不错的工程实现,但谈不上太高的学术价值。
4. Pepper机器人:
这是一款深度整合了DeepQA的实体机器人,可以实现自由对话以及一些任务,图中就是小姐姐在问一些菜品的做法,Pepper听懂了,并以手势、图文和语音的形式进行解释,交流很流畅。
像不像现在商场、银行导购、咨询类的机器人,但交互性要好很多。
5. 儿童伙伴小恐龙Cognitoy,利用Waston的自然语言处理技术及认知 计算资源推出一系列支持 Wi-Fi 功能 并连接至云端的创新互动玩具。支持完全语音识别,孩子们最常提出的问题包括“天空为什么是蓝色的?”或者“太阳为什么是黄色的? ”使用Waston的恐龙玩具能够完美地回答这些问题。
这个支持Wi-Fi 功能并连接至云端的恐龙玩具通过扫描由 Elemental Path整理和构建的不断演进的知识库来回答问题。
现在很多儿童玩具采用大模型实现,只能说,IBM又起大早赶晚集。
6. BlueMind自训练优化平台:这是个很有技术含量的产品,由CSTL中国系统实验室(前一阵不幸解散)独立开发。
训练过模型的同志们都知道,要训练好一个模型,涉及的因素很多,数据集的大小、标签分布、选择的神经网络结构、若干主要超参的调节,多少有些玄学的味道。事实上,深度学习算法工程师曾经有一阵被称为“调参侠”,意思是创新性不多,大多数对现有的基础模型,拿新数据进行finetune,改改超参,看看ROC曲线是不是好点,如果不好,就再改改。
其实这种情况现在也很多,只是现在的模型五花八门,要选择合适的基础模型也得需要看不少paper和评测。
Bluemind的目标用户是企业里负责模型训练的算法工程师,能够大幅自动化的对超参进行优化,并检测中梯度爆炸、标签分布不均匀、过拟合、欠拟合、不收敛之类的常见问题,本人亲测好使,调出来的ImageNet分类模型,准确率比当时的SOTA还高。
但问题是什么呢?第一,BM是个软件,本身不限平台,但开发团队隶属STG实验室,主要还得为销售Power小型机助力,所以宣传上成为小型机的一个增值产品,限制了在更广泛的X86平台的销售,而X86+英伟达GPU是事实上的标准平台;
第二,目标用户是企业里的算法团队,隐含意思是,算法团队自己做模型的能力不够,这多少有点让用户自己打脸的意思,算法团队心里知道这是个好东西但不能表现得太想要,否则难免让人怀疑自己的水平。这种遮遮掩掩、半推半就、欲拒还迎、拉拉扯扯的过程,消耗的人力、财力、时间,可能已经比BM本身的售价高了。
BlueMind这中国销售并不理想,也无法融入到WW的产品线中,随着2017年Power小型机业务跟浪潮的合并,开发小组也受到影响,主要开发成员出走,成立了TZLF,拿了风投继续朝这个方向发展,后来被LY收购,也算平安上岸,但这个很有价值的产品,也烟消云散了。
我跟开发组的核心成员熟识,有些人内心我是当师傅看待的,对这个结果深感惋惜。人到中年,深刻体会到,世界本就是不公平的,我们看到、听到、感受到的,甚至不是真实的。付出不一定有回报,努力不一定成功,看到不一定能做到。通向罗马的道路很多,但有的人生在罗马,而大部分人生为骡马。时代的风潮才是最大的力量,风口上的猪都能飞上天,而浪潮褪去才看到谁在裸泳。作为普通人,只能抱着信念,顺势而为,做自己认为有价值的事情,莫负青春,莫负光阴。
2015年,押了重注的面向医疗的Waston Health成立。IBM的前CEO罗睿兰(Virginia Rometty)把Watson Health 称之为“登月计划”。这个方向又是无比正确——为了避免痛苦,逃避死亡,所有人都愿意付出大量的金钱。想想你去医院时那种无助的心情和对健康的渴望,想想你为了避免亲人的痛苦和逝世,愿意付出的代价。
多少富人愿意为长寿、保持青春一掷千金,为了避免死亡不惜抛弃一切,他们的信条是:人人生而平等,而有的人比别人更平等。
也许只有死亡才是最大的平等。
下集预告:Waston向这个信条发起悲壮的挑战。
往期精选