×
语言研究

编程语言哪家强?4种数据分析领域语言优缺点对

导读:编程语言的好坏及排行之争由来已久。“PHP是世界上最好的语言”,这是一个流传于程序员圈子的梗。

笔者无意加入“哪门语言更好”的战争。每门语言的诞生,都有其特定的背景和需求,都能解决相应的问题,脱离需求和背景争论哪门语言更好是没有意义的。

最重要的是,我们需要搞清楚到底要解决什么问题,这样才能更方便地找到对应的工具。

作者:赵志强 刘志伟

来源:华章科技

数据分析领域(包括量化投资),编程语言具有两大作用,一个是科学计算、统计等算法层面,主要用于业务的相关研究;另一个是系统应用开发,主要用来搭建基础IT设施,比如数据库、交易平台等。

Matlab和R主要用于业务层面的研究工作。C++和Java则主要是用于系统搭建工作。业务研究和系统搭建的区别还是很明显的,每类语言适应的场景都不太一样,否则也没有必要存在那么多种语言了。比如,使用Matlab搭建一个交易系统,那么其速度一定会慢得让人无法忍受。如果用C++或者Java做数据分析,那么其效率一定也会非常低。

至于Python,其优势在于作为一种胶水语言,其适用面非常广。换句话说,Python是可以同时完成数据分析和系统搭建两种工作的,而且性能和效率有着非常好的平衡。使用Python既可以编写机器学习的复杂模型,也可以搭建支撑亿级别访问量的网站系统,又或者搭建微秒级的程序化交易系统。

什么都能做,而且还能做得很不错,这是Python能够迅速流行的核心原因之一。

下面将对上面提到的部分常见的语言做一个简单的介绍。

01 Matlab

截至目前,在国内量化研究领域,Matlab的使用率应该是最高的。这个数据来源于Wind,在他们的量化接口中,Matlab的使用率是最高的,Python其次。但是Python是增长速度最快的。


Matlab作为商业软件,功能很全很强大,可靠性也很好。最早一批做科学计算和数据分析的,很多都是使用的Matlab。量化投资在国内刚出现的时候,Python和R的社区生态还没有像现在这样完善,所以很多量化投资的业内人士都更习惯于使用Matlab。

如果不考虑授权费用的问题,那么Matlab确实是一款非常好用的数据分析乃至量化投资分析的工具,毕竟有实力雄厚的公司在支持Matlab的开发,性能和工具包都能得到保证。

不过,Matlab与Python相比,除了费用问题之外,还存在很多缺陷,而且是无法弥补的缺陷。特别是涉及系统级别的开发时,比如交易系统、爬虫系统等。在这些领域,Matlab不仅缺少相应的库,而且速度非常慢,因此其很难在工业界得到广泛应用。

02 R

R是一个开源的数据分析软件。实际上,R的诞生,就是为了协助完成统计和数据分析。由于R在研究机构和大学非常流行,因此这些机构反过来也开发了大量相应的开源项目,这也使得R的各种统计功能和函数琳琅满目。


R很多常用的统计功能都经过了大量实践的检验,是非常完善和成熟的,比如,时间序列分析、经典统计模型、贝叶斯统计、机器学习等。R也有一些量化相关的库,比如quantmod。

当然,R也有它的缺点,比如,对于大量的数据处理,R还是力有不逮。由于R更多的是由统计界人士完成的,所以偏底层的数据管理并不是R的强项。

总体上讲,R的统计和数据分析相关功能非常强大,更适合做研究,不适合开发大型的系统。

03 C++

C++最大的好处就是性能强,速度极快。几乎所有需要高性能的科学计算功能都是基于C++或者Fortran开发的。比如,Python的底层其实就是用C语言实现的。


因为速度快,C++在高频交易领域也是独占一席。然而,在进行日常的数据分析和研究中使用C++其实是非常不方便的。因为C++语言偏底层,对编程人员的要求很高,同样的功能,开发难度高很多,调试起来也比较麻烦。

所以除非是在对性能有极高要求的地方,一般不推荐使用C++进行开发。

04 Python

Python语法非常易学易懂,很容易快速上手。很多人刚开始学习编程的时候,往往会选择从Python入手。

上一篇:印度山村教师开发出人工智能机器人,能说38种语
下一篇:没有了

Top