你有没有遇到过这样一个人,好像无所不能,无所不知,什么都不是问题?如果没有,那就乖乖地自强吧,毕竟自己学的东西别人抢不走。以下内容仅供不会编程语言,又想自强的同胞们。(当然,想立即得到答案的,那就直接微信留言,找百迈客呀

怎么从数据库中筛选关键基因(如何筛选目标基因)(1)

怎么从数据库中筛选关键基因(如何筛选目标基因)(2)

Q1做完全基因组重测序或者全外显子测序等,检测出来的所有变异是非常多的,当然过滤后的数据会小很多,用excel就能打开,但是如果想从所有变异中筛选感兴趣的目标基因或位点,结果文件太大(如下图,有些甚至1个G以上,当然这是特例),excel一直转圈圈或Excel只能打开前105万行,如何筛选目标基因或位点?

A1解决这个问题有2种方法,第1种方法用文本编辑器piloedit、ultraedit或者notepad 之类的软件,可以比较快速地打开比较大的文本文件(txt、excel、vcf文件等),且不会限制行数,可以control F检索相关基因或者位点的rs号。(如果没有文本编辑器的朋友们可以后台留言,小编可以共享噢

);这第2种方法先容小编卖个关子。

怎么从数据库中筛选关键基因(如何筛选目标基因)(3)

怎么从数据库中筛选关键基因(如何筛选目标基因)(4)

怎么从数据库中筛选关键基因(如何筛选目标基因)(5)

Q2需要筛选的基因或位点太多,如何批量提取?比如提取10个位点的信息,打开文件后使用excel的筛选功能进行筛选或者control F检索下,如果是几十个位点呢?当然能打开文件的话,可以使用VLOOKUP函数(这个网上讲的非常多,可自行百度)。如果文件太大了,打不开或者excel运行VLOOKUP函数一直转圈圈呢?

A2这个时候可以用小编上面问题的第2种方法,windows批处理命令。首先我们把所有位点单独放在一个文本里面,如下所示,一个位点一行:

然后,新建一个txt文件,可以命名为find(名字随便命名),输入以下内容,另存为.bat文件。下面这个批处理文件即是从1G多的Human_hg19.snp.all.LIST的原始文件中提取196个SNP位点(196sites.txt),提取出来的文件随便命名即可,比如c.txt。(友情提醒,如果文件类型是VCard文件,文件名后缀应写.vcf,不知道后缀怎么写的直接右键属性,常规里面有个文件类型按照那个写即可)

@echo off&setlocal EnableDelayedExpansion

for /f "delims=" %%a in ('type "196sites.txt"') do (

set t=%%~a

findstr /c:"%%~a" "Human_hg19.snp.all.LIST">>c.txt

for /f "delims=" %%i in ('findstr /c:"!t:~,8!" "Human_hg19.snp.all.LIST"') do ( set t2=%%~i

if not "%%~i"=="!t!" (

if "!t2:~,8!!t2:~-4!"=="!t:~,8!!t:~-4!" echo !t2! 1>>d.txt ) ))

pause

最后,双击find.bat文件,运行批处理文件即可得到提取结果c.txt。

运行界面和运行结果如下:

Q3:一个样本变异检测注释结果单独一个文件,没有合并到一起的,需要每个文档逐个去筛选?或者说如何简单粗暴地合并多个文件为一个文件?(PS:当然百迈客公司会同时提供单个和合并好的文件的。)

A3只需要在包含多个文件的文件夹内新建一个txt,输入下面的一行字,另存为.bat文件,双击运行。(如果后缀写.txt只合并txt文件,所以按所需合并文件类型更改相应后缀即可)

copy *.txt all.sample.txt

Q4如何快速得到一个文件夹中包含的所有文件?

A4DIR *.* /B >LIST.TXT (对,还是在相应文件夹下新建txt,输入,另存为.bat)

注:以上创建好的bat文件均可以直接用piloedit、ultraedit等重新编辑后保存使用。

一不小心,小编居然说了这么多,还有更过内容,下次再继续分享吧~

,