为什么不这样处理数据

我现在处理数据的方法是：

将数据以一条 log 的形式保存在一个文本文件中
根据不同的需要，用 python 脚本对采集到的数据进行一些格式上的处理
用 gnuplot 对数据进行可视化

以上三个步骤中，1 和 3 是不需要变化的。收集数据的代码是嵌在程序代码中的，而 gnuplot 脚本无非就那么几个模板，一旦定制好以后就不需要再更改。

唯一的变动点出现在第 2 步，比如我有两种需求：

控制 a 变量不变，观察 b、c 的变化
控制 b 变量不变，观察 a、c 的变化

我就要写两个 py 脚本，运行两遍来产生不同的数据格式。如果影响因子数量高达上百个的时候，我就要写几百个 py 脚本。通过元编程的方法可以解决这个问题，但在这样的情景中算不上优雅。

于是今天走在路上的时候我想到了数据库。第 2 步中存在变化点的原因在于 log 记录是非结构化的，所以需要用某种方法进行结构化，来满足用户观察数据的需求。如果数据以 row 的形式储存在 MySQL 中，那么就可以把查询的工作交给 MySQL 的解释器。

于是当我想要“控制 a 变量不变，观察 b、c 的变化”时，只要写下这句 SQL 语句即可：

SELECT b c FROM table_name GROUP BY a

既然如此，为什么不写一个工具将所有的中间过程隐藏起来呢？用户只需要在程序中增加一些 hook，然后用一个 XML 文件对一条记录的格式的进行简单的配置就行了。这样一来，用户每次在写一个新的程序时就不需要重复那些枯燥的工作了，比如“怎样打日志”和“如何进行数据展示”，而只需要专注于最重要的问题“如何观察数据”，SQL 丰富的语法保证了用户可以以任何角度来观察数据。用户甚至不需要会 SQL 语句，他只要在控制台输入：“我要控制 a 变量，观察 b、c 的变化”这样的自然语言，程序就会在后台产生相应的曲线。