数据开放:别让能玩大数据的人找不到资源
作者:计算机的潜意识中国的车牌识别系统的现状是商业和私有化,无论你愿不愿意承认,开源远远不是主流。这一方面有历史发展的原因,另一个主要原因就是车牌数据的稀缺,研究者和团体很难找到开放的数据进行学习与研究。举个例子,在google和百度里搜索“车牌数据”,很少能得到有用的内容。而仅有的一些网站,车牌数据更是被明码标价。譬如,国内的一个网站“数据堂”对500张车牌图片的标价是300元RMB,见下图。
图1 数据堂,一个数据的交易网站,里面的车牌数据非常“昂贵”我对这样的标价的感觉是“匪夷所思”。不过这从另一方面说明了车牌数据是多么的不易弄到,相当稀缺。从反过来说,数据开放的价值也更为巨大。从一个车牌识别系统的核心来说,分为机器学习算法与车牌训练数据两个部分。目前机器学习算法已经相当成熟(有很多现成的开源库可以使用),但是,数据仍然是一个从0到1的问题。对于没有数据的人来说,开发一个车牌识别系统是“无米之炊”。而对于有数据的人来说,他们不想开发,也不愿将之分享。于是车牌识别界进入了一个怪圈:大量的人拥有数据但不利用这些数据,想利用这些数据的人找不到数据,而一些稍微能够利用这些数据的人,则赶紧开发一个系统,然后圈上一大笔钱,再然后把算法闭源,数据闭源,不断坐吃山空。从发展趋势来说,这些是不利于中国的车牌识别系统长远发展的。我在六个月前发布了EasyPR这个开源车牌识别系统,意图打破闭源体系的第一部分–代码体系,但是第二部分–数据仍然是未解决的问题。从某种程度上来说,实现了代码开源,那就OK了,为什么还要需要做数据开源?根本原因在于,决定你系统好不好的,不是取决于算法,而是取决于数据。这个论断,已经在“从机器学习谈起”里论述过。在很多地方已经体现的非常明显(例如搜索引擎),在很多地方即将体现(例如金融与社交)。随着我对EasyPR工作研究的进一步深入,我越来越发现两个重要的问题。一个是训练的数据永远不够,无法跟上算法的需要,另一个是不同识别系统使用的数据不同,无法进行比较。就第二点而言,哪怕是同一个系统,不同人开发的算法所针对的测试数据不一样,都无法进行比较。因此,如果想从根本上改变目前车牌识别系统的效果,让开源车牌识别系统可以发展的更加好,开放的数据集是必要的。这个数据集应该包括两个部分:一个是通用的测试系统效果的数据集用来横向比较不同系统或者纵向比较新老算法的区别差异,这些数据集不必非常多,但要有足够大代表性以及区分度;另一个是训练用的数据集,这些数据集用来提供足够多的训练数据,这个数据集要足够的大,足够的全。当然,要想收集这些数据是很困难的,尤其是一个人的情况,但众多集力就不会那么困难了。假设一个闭源的系统有100万的训练数据,那么只要我们有1000个人,每个人贡献1000张图片就可以超过它。但是,为了把大家的力量集合到一起,首先就不能基于商业目的。如果为了商业目的,那么主流的思想是竞争与垄断,而不是共享。因此必须非商业化。同时大家之间的关系应该是以学习,研究为主,这样才能够充分发挥网络协作的精神。毫无疑问,我一个人来是肯定不够的。但即便是一个团队,也很难收集与处理这么多的数据。因此,它应该是一个众筹项目。为了保证这样的一个过程,需要一个合理的协议来约束。这也是我在EasyPR中
数据开放:别让能玩大数据的人找不到资源 来自淘豆网m.daumloan.com转载请标明出处.