再也不嘲笑你了

文摘   2024-12-19 09:41   辽宁  
会使用搜索引擎是学习生物信息的基本要求,如果不会使用就不建议学习了。因为在学习过程中会遇到很多报错信息,这些都需要自己能够通过搜索引擎来寻找答案。此外,还需要通过搜索引擎找到最新的信息,每个人不仅要求有信息检索能力,还要有信息过滤分析判断的能力。以前我经常笑话别人使用搜索引擎像聊天一样,万万没想到,几年不到,倒反天罡,现在使用搜索就是要会聊天。



第一代搜索引擎

信息检索一直是一个重要的课题,在互联网时代最开始有黄页功能,后来逐渐出现了搜索引擎。以前我们都是用搜索引擎来找资料。常用的有Google,百度,bing,搜狗,360等等这些搜索引擎。这代搜索引擎是一个简洁的网页,大大的搜索框,输入关键字然后就返回很多网页结果。

这些结果根据内部的匹配算法来进行排名,一般最前面的就是关联度最高的。当然也有一些开曼群岛的中文互联网大企业开发了竞价排名,出价最高的排名最靠前。这就导致了当你搜索"考研"这个关键字,前五页可能都是考研培训机构,这其实还好了,这能算是“谋财”。但你如果搜索身体哪不舒服了,直接给你一些骗子医院,在配合上它的地图导航,自动驾驶,直接带你一路向西了。

所以,在使用搜索引擎的时候还是需要注意。在这代搜索引擎中,采用了“正则匹配”的原则,也就是需要输入“关键字”,不能输入太多内容,字数越少,结果越多。关键字越精确,结果越精确。

第二代搜索引擎

现了移动互联网时代出现了App,信息可以不通过网页来发布,都集中在App中,我们既可以使用移动端的搜索引擎App,也可以在一些App中直接搜索,例如下载微信,抖音,小红书,知乎等都可以在内部独立搜索内容。这样就分散了之前搜索引擎的市场。不过这种方式依然还是通过关键字来搜索。
当然,也支持图片搜索,比如可以识别植物,还开发了购物搜索,直接拍照就能找到商品链接地址。
“聊天式”搜索
记得前几年在做培训时我发现真很多人不会用搜索引擎,不知道输入关键字。在搜索框中直接聊天。输入一大堆字,然后找不到结果。
比如软件一个报错信息,需要筛选报错信息的关键字内容。不能将自己用户名以及路径名全部输入搜索框,这些信息不属于“公共部分”,因此不容易找到结果。当时我还“嘲笑”怎么和搜索引擎聊天了。
万万没想到,只不过几年居然倒反天罡了,现在的搜索引擎就得是聊天式的。

全新一代搜索

其实从Siri那时候开始就可以使用聊天工具,比如想问它“唐朝是哪年建立的”,就可以返回结果。只不过当时的工具依然是先将语音转换为文字,在提权关键字返回答案。

而今天的搜素引擎完全变了,不能只输入关键字,而就需要会聊天,才能得到满意的答案。

现在的搜素引擎都加入了大语言模型,能够生成式的返回结果,不仅仅帮你搜索,还能帮你创作,你只需要把需要的内容表达清晰就行。而且还具备了上下文功能,也就是你与它聊天,之前的内容它都能记住。比如chatgpt,bing copilot,豆包AI,kimi,百度文心一言,阿里通义千问等。

没想到新时代的百度依然不忘初心啊,第一时间就加入了“医学报告解读”功能,看来百度还是有医疗基因。

如何使用聊天式搜索学习生物信息

既然有这么好的工具,那么如何才能用起来呢。
首先要选择合适的工具,因为有些工具用不了,需要自己掌握一些方法,比如chatgpt。也可以选择一些能用的,不如豆包AI可以用。如果可以使用微软copilot,推荐这款,因为微软是openai大股东,微软的各种copilot使用的大语言模型就是openai的。
这里用不了,我选择用百度AI助手和Kimi做一下测试。
首先让它帮我写一个bwa比对的脚本,写的挺好。

#!/bin/bash# 定义输出文件名output_file_name="output.bam"# 定义参考基因组和输入的fastq文件reference_genome="my_reference_genome.fa"read1="read1.fastq"read2="read2.fastq"# 定义线程数threads=8# 建立参考基因组索引bwa index -a bwtsw $reference_genome# 使用BWA-MEM进行比对bwa mem $reference_genome $read1 $read2 | samtools view -bS -o ${output_file_name%.bam}.tmp.bam -# 排序和索引BAM文件samtools sort ${output_file_name%.bam}.tmp.bam -o $output_file_namesamtools index $output_file_name

然后又让它帮我解决一个报错信息。

/usr/bin/ld: cannot find -lcrypto

也可以正确回答,表现还可以。

基因学苑
生物云计算专家
 最新文章