会使用搜索引擎是学习生物信息的基本要求,如果不会使用就不建议学习了。因为在学习过程中会遇到很多报错信息,这些都需要自己能够通过搜索引擎来寻找答案。此外,还需要通过搜索引擎找到最新的信息,每个人不仅要求有信息检索能力,还要有信息过滤分析判断的能力。以前我经常笑话别人使用搜索引擎像聊天一样,万万没想到,几年不到,倒反天罡,现在使用搜索就是要会聊天。
第一代搜索引擎
信息检索一直是一个重要的课题,在互联网时代最开始有黄页功能,后来逐渐出现了搜索引擎。以前我们都是用搜索引擎来找资料。常用的有Google,百度,bing,搜狗,360等等这些搜索引擎。这代搜索引擎是一个简洁的网页,大大的搜索框,输入关键字然后就返回很多网页结果。
这些结果根据内部的匹配算法来进行排名,一般最前面的就是关联度最高的。当然也有一些开曼群岛的中文互联网大企业开发了竞价排名,出价最高的排名最靠前。这就导致了当你搜索"考研"这个关键字,前五页可能都是考研培训机构,这其实还好了,这能算是“谋财”。但你如果搜索身体哪不舒服了,直接给你一些骗子医院,在配合上它的地图导航,自动驾驶,直接带你一路向西了。
所以,在使用搜索引擎的时候还是需要注意。在这代搜索引擎中,采用了“正则匹配”的原则,也就是需要输入“关键字”,不能输入太多内容,字数越少,结果越多。关键字越精确,结果越精确。
第二代搜索引擎
全新一代搜索
其实从Siri那时候开始就可以使用聊天工具,比如想问它“唐朝是哪年建立的”,就可以返回结果。只不过当时的工具依然是先将语音转换为文字,在提权关键字返回答案。
而今天的搜素引擎完全变了,不能只输入关键字,而就需要会聊天,才能得到满意的答案。
现在的搜素引擎都加入了大语言模型,能够生成式的返回结果,不仅仅帮你搜索,还能帮你创作,你只需要把需要的内容表达清晰就行。而且还具备了上下文功能,也就是你与它聊天,之前的内容它都能记住。比如chatgpt,bing copilot,豆包AI,kimi,百度文心一言,阿里通义千问等。
没想到新时代的百度依然不忘初心啊,第一时间就加入了“医学报告解读”功能,看来百度还是有医疗基因。
如何使用聊天式搜索学习生物信息
# 定义输出文件名
output_file_name="output.bam"
# 定义参考基因组和输入的fastq文件
reference_genome="my_reference_genome.fa"
read1="read1.fastq"
read2="read2.fastq"
# 定义线程数
threads=8
# 建立参考基因组索引
bwa index -a bwtsw $reference_genome
# 使用BWA-MEM进行比对
bwa mem $reference_genome $read1 $read2 | samtools view -bS -o ${output_file_name%.bam}.tmp.bam -
# 排序和索引BAM文件
samtools sort ${output_file_name%.bam}.tmp.bam -o $output_file_name
samtools index $output_file_name
然后又让它帮我解决一个报错信息。
/usr/bin/ld: cannot find -lcrypto
也可以正确回答,表现还可以。