我正在研究提供数据的.data
文件。如何打开.data
文件以查看数据的外观以及如何通过python以编程方式从.data
文件中读取?我有Mac OSX
注意:我正在使用的数据是针对其中一个KDD cup challenges
它在很大程度上取决于它的内容。它可以是二进制文件,也可以是文本文件。
如果是文本文件,则可以像打开任何文件一样打开它(f = open(filename,“r”))
如果它是二进制文件,您只需在open命令中添加“b”(open(filename,“rb”))。这里有一个例子:
Reading binary file in Python and looping over each byte
根据那里的数据类型,你可能想尝试通过csv阅读器(csv python模块)或xml解析库(其中一个例子是lxml)传递它
进一步从上面进入并查看页面格式为:
数据格式数据集使用与关系数据库中的文本导出格式类似的格式:
带有变量名称的一个标题行每个实例一行分隔符值列表之间存在缺失值(连续制表)
因此,请看这个答案:
parsing a tab-separated file in Python
我建议一次尝试处理一行而不是加载整个文件,但如果你有ram为什么不...
我怀疑它没有在崇高中打开,因为文件很大,但这只是猜测。
要快速了解文件可能包含的内容,您可以使用strings
或cat
在终端中执行此操作,例如:
$ strings file.data
要么
$ cat -v file.data
如果您忘记将-v
选项传递给cat,如果是二进制文件,您可能会弄乱终端,因此需要重置它:
$ reset