有几个事情要先问一下。
你做的是什么序列,蛋白的,还是某个基因的?
不同的对象,构建系统发育树的方法也不尽相同,即使同一个对象,也可以用不同的方法构建,最好的办法就是参考已有的比较权威的文章,参考他们使用的方法。系统发育树说到底也是种数学计算公式,你可以采用不同的计算方法,比如NJ法、MP法等等,同一种算法也可以设置各种不同的参数。
所以首先你要知道之间做的是什么东西,然后要看参考文献,看看别人一般是怎么做的。
至于序列,NCBI上的序列可以说是鱼龙混杂,我也上传过,说难听点简直就是想传就传,瞎编乱造一个序列都行(至少,测序结果的可靠性是很难保证的,NCBI员工也不可能帮你来验证),对其中的序列你要自己做好甄别工作,哪些序列是发表过文章的,是被大家所认可的,哪些则是unpublished之类的野鸡数据(我传的几个就是unpublished的野鸡数据- -)。
最后就是用软件的问题了,据说国内人喜欢用mega,因为它界面友好,还整合了alignment的功能,也就是自带了clustal,缺点是有些算法它没有,比如ML法(好像就只有NJ、ME、MP三种算法),老外常用phylip软件包,因为是研究者自己开发的,所以制作很粗糙,界面还是DOS系统那样的提示符,也没有alignment功能,要额外下一个clustal软件,使用很不方便,但它可以做ML法的计算。
软件使用看下网上教程即可。
哦,提醒一句,这活做好了可不轻松,这事儿不能说太细。有人曾委托我们实验室帮他们做了个细菌的16s序列的系统发育树,付了万把块钱,这点钱还嫌少了,忒烦。
要做系统发育树的话,在NCBI上BLAST没有用啊,BLAST是用来搜序列的。
你要做系统发育,首先得把已有的序列做多序列对位(alignment),然后拿着序列对位的结果,再用软件做系统发育树。而且你还要考虑你手头序列的亲缘关系来选择合适的算法。