我正在尝试使用xlrd读取Excel的合并单元格。
我的Excel :(请注意,第一列合并在三行中)
A B C
+---+---+----+
1 | 2 | 0 | 30 |
+ +---+----+
2 | | 1 | 20 |
+ +---+----+
3 | | 5 | 52 |
+---+---+----+
我想在本例中读取第一列的第三行等于2,但它返回''
。你知道如何获得合并单元格的价值吗?
我的代码:
all_data = [[]]
excel = xlrd.open_workbook(excel_dir+ excel_file)
sheet_0 = excel.sheet_by_index(0) # Open the first tab
for row_index in range(sheet_0.nrows):
row= ""
for col_index in range(sheet_0.ncols):
value = sheet_0.cell(rowx=row_index,colx=col_index).value
row += "{0} ".format(value)
split_row = row.split()
all_data.append(split_row)
我得到了什么:
'2', '0', '30'
'1', '20'
'5', '52'
我想得到什么:
'2', '0', '30'
'2', '1', '20'
'2', '5', '52'
我刚试过这个,它似乎适用于您的示例数据:
all_data = []
excel = xlrd.open_workbook(excel_dir+ excel_file)
sheet_0 = excel.sheet_by_index(0) # Open the first tab
prev_row = [None for i in range(sheet_0.ncols)]
for row_index in range(sheet_0.nrows):
row= []
for col_index in range(sheet_0.ncols):
value = sheet_0.cell(rowx=row_index,colx=col_index).value
if len(value) == 0:
value = prev_row[col_index]
row.append(value)
prev_row = row
all_data.append(row)
回国
[['2', '0', '30'], ['2', '1', '20'], ['2', '5', '52']]
它跟踪前一行的值,并在当前行的相应值为空时使用它们。
请注意,上面的代码不会检查给定单元格是否实际上是合并的单元格集的一部分,因此在单元格确实为空的情况下,它可能会复制先前的值。不过,它可能会有所帮助。
附加信息:
我随后找到了一个文档页面,其中讨论了merged_cells
属性,可用于确定包含在各种合并单元格范围内的单元格。文档说它是“版本0.6.1中的新功能”,但是当我尝试将它与pip
安装的xlrd-0.9.3一起使用时,我收到了错误
NotImplementedError:formatting_info = True尚未实现
我并不是特别倾向于开始追逐不同版本的xlrd来测试merged_cells
功能,但如果上述代码不足以满足您的需求并且您遇到与formatting_info=True
相同的错误,也许您可能会感兴趣。
您也可以尝试使用pandas https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html中提供的fillna方法
excel = pd.read_excel(dir+filename,header=1)
excel[ColName]=excel[ColName].fillna(method='ffill')
这应该用前一个值替换单元格的值
对于那些正在寻找处理合并单元格的人来说,OP的方式是,而不是覆盖非合并的空单元格。
基于OP的代码和@ gordthompson的答案以及@ stavinsky的评论提供的附加信息,以下代码适用于excel文件(xls,xlsx),它将读取excel文件的第一张表作为数据帧。对于每个合并的单元格,它将在此合并单元格表示的所有单元格上复制合并的单元格内容,如原始海报所要求的那样。请注意,xlrd的merged_cell功能对于“xls”文件仅在打开时传递'formatting_info'参数时才有效工作簿。
import pandas as pd
filepath = excel_dir+ excel_file
if excel_file.endswith('xlsx'):
excel = pd.ExcelFile(xlrd.open_workbook(filepath), engine='xlrd')
elif excel_file.endswith('xls'):
excel = pd.ExcelFile(xlrd.open_workbook(filepath, formatting_info=True), engine='xlrd')
else:
print("don't yet know how to handle other excel file formats")
sheet_0 = excel.sheet_by_index(0) # Open the first tab
df = xls.parse(0, header=None) #read the first tab as a datframe
for e in sheet_0.merged_cells:
rl,rh,cl,ch = e
print e
base_value = sheet1.cell_value(rl, cl)
print base_value
df.iloc[rl:rh,cl:ch] = base_value
我在没有现实的情况下尝试了以前的解决方案,但以下工作对我有用:
sheet = book.sheet_by_index(0)
all_data = []
for row_index in range(sheet.nrows):
row = []
for col_index in range(sheet.ncols):
valor = sheet.cell(row_index,col_index).value
if valor == '':
for crange in sheet.merged_cells:
rlo, rhi, clo, chi = crange
if rlo <= row_index and row_index < rhi and clo <= col_index and col_index < chi:
valor = sheet.cell(rlo, clo).value
break
row.append(valor)
all_data.append(row)
print(all_data)
我希望将来能为某人服务
openpyxl.worksheet.merged_cell_ranges
这个函数你可以得到像['A1:M1', 'B22:B27']
这样的数组,告诉你要合并的单元格。
openpyxl.worksheet.merged_cells
此功能显示单元格是否已合并