从 .xlsx 到 .csv 的文件转换是否会以 100% 保真度保留 type=General 或 type=Text 的单元格范围数据?

问题描述 投票:0回答:1

以下是匿名详细信息:

上下文:文本和数字数据的数据分析。典型的工作集是 1 到 150 列数据,大约 400K 行。

工作通常需要在 Excel 中合并文件。 Excel 是首选,因为没有授予 SQL 权限。所有数据均以 .xlsx 文件形式请求并给出。

使用 read_csv() 或 read_excel() 代替会是更高效的 Python 代码,但一列作为主键非常重要。此列有一些奇怪的值,这些值在不同的 Excel 数据类型下表现不同。这是一个常见的 Excel 问题,但将 Excel 太大的数据外包给 Python 会增加一层复杂性,StackOverflow 用户对此很熟悉(不是我,作为一个新用户)。

将文件转换为 .csv 是否会带来主键值损坏的风险,例如值“=###”或包含前导零的值、可能被 Excel 解释为日期的值等?通常,主键始终是 Excel 数据类型“常规”或“文本”。如果它不是这两种数据类型之一,则不应使用该数据。

如果是这样,如何管理? Python 仅对于某些工作流程是必要的,在这些工作流程中最好一次性处理所有数据,而不是对于 Excel 足够好的小型工作。

这对我来说是一个重要的问题,因为 90% 的工作任务需要将数据集合并为 Excel 文件。现在,read_excel 几乎与 Excel 中批处理作业一样慢。我们的目标是在可能的情况下通过使用 *.csv 来最大限度地提高效率,前提是在将 *.xlsx 转换为 *.csv 时不会导致任何数据丢失或损坏。

假设 Microsoft® Excel® for Microsoft 365 MSO(版本 2407 内部版本 16.0.17830.20210)64 位

我尝试保存一个大约 51242 行、3 列的文件。对于任何条目,该文件的主键值都不会丢失数据完整性。但这并不能保证,所以我希望中小企业能立即知道,当然,*.xlsx 到 *.csv 的转换是否可以更改值,如果可以,如何管理(如果可以的话)管理)。

excel csv file file-conversion
1个回答
0
投票

Excel 将显示的数据写入 CSV。您应该期望 CSV 显示与工作表的外观相同。

您可以使用VBA写入数据。它允许您完全控制数据外观。

一般情况下,您需要避免将数据存储在Excel工作簿中。仅将 Excel 用于其目的会更合理:可视化数据表示和大多数情况下通过手动操作轻松计算。

© www.soinside.com 2019 - 2024. All rights reserved.