我正在处理大量数据,并且某些功能需要很长时间才能在计算机上运行。有没有办法查看该功能是否仍在运行,或者内核是否被冻结而不杀死单元?
下面的示例用于比较两个不同词典(不同名称的词典)中的公司名称作为关键字,并将名称中的单词列表作为值进行比较。一本词典中有650000个条目,另一本词典中有100000个条目。
示例:
def insert(df, entries):
try:
df.loc[max(df.index) + 1] = entries
except ValueError:
df.loc[0] = entries
def check_for_matching_phrases(dict1, dict2):
df = pd.DataFrame(columns=['filings_name', 'no_match_name', 'percent_match'])
for key1, value1 in dict1.items():
for key2, value2 in dict2.items():
matches = 0
for val_1 in value1:
if val_1 in value2:
matches += 1
denominator = len(min(value1, value2))
perc_match = matches / denominator
insert(df, [key1, key2, perc_match])
return df
您可以轻松地查看Jupyter笔记本中的内核是否仍处于活动状态。在浏览器窗口的右上角查看内核名称旁边的小圆圈?如果为纯黑色,则表示忙碌(下面的屏幕截图);如果为空闲,则将是空白的白色圆圈。将鼠标悬停在圆圈上也会明确告诉您状态。它不像进度条那样好,但确实可以给您一些指示。