data-science 相关问题

数据科学涉及以任何形式或形式从数据中提取知识或见解。它可以包含预测分析,通常需要进行大量的数据争论。请考虑在https://datascience.stackexchange.com/上发帖






所有超参数均被取出字符串,而不是其实际数据类型

i编写了以下快速API代码来培训分类模型: 但是,即使应该是整数,浮子或布尔人,所有超参数都被作为字符串接收。 快速API代码:

回答 1 投票 0





pandera验证获取所有有效的行

例如: Pandera模式看起来像下面:

回答 3 投票 0


我如何使用TQDM进度栏跟踪文本提取的进度

def process_documents(file_path, index_name): if not os.path.exists(file_path): raise FileNotFoundError(f"File not found: {file_path}") with open(file_path, 'rb') as file: file_content = file.read() document_ai_client = DocumentIntelligenceClient( endpoint=os.getenv("DOCUMENT_ENDPOINT"), credential=AzureKeyCredential(os.getenv("DOCUMENT_KEY")) ) model_id = "prebuilt-layout" all_text = [] poller = document_ai_client.begin_analyze_document( model_id, {"base64Source": file_content} ) result = poller.result() page_texts = defaultdict(list) for paragraph in result.paragraphs: role = paragraph.role if hasattr(paragraph, "role") else None page_num = paragraph.bounding_regions[0].page_number if paragraph.bounding_regions else "Unknown" if role not in ["pageHeader", "pageFooter", "pageNumber"]: page_texts[page_num].append(paragraph.content) file_name = os.path.basename(file_path) for page_num, paragraphs in page_texts.items(): combined_text = " ".join(paragraphs) all_text.append({ 'file': file_name, 'doc_num': 1, 'page_num': page_num, 'text': combined_text }) total_words = sum(len(entry["text"].split()) for entry in all_text) print(total_words)

回答 1 投票 0

如何管理深度学习模型中的内存消耗?

当我运行此代码时,运行时会话会自动关闭。 RAM 中没有剩余空间。因此会话自动关闭。我在 Google Colab 笔记本中使用 pytorch。我尝试过切换...

回答 1 投票 0

合并两个图像数据集

我有 6 个图像数据集,一个来自 Kaggle,另一个来自 Roboflow。我想使用全部 6 个数据集在 Google Colab 中训练模型。我可以在 Google Colab 中正常与他们合作吗?有哪些...

回答 1 投票 0

Python:从数据趋势中查找异常值

请注意,这篇文章不会与 SO 上的以下任何相关文章重复: 查找奇偶校验异常值 Python Python:查找列表中的异常值 使用 z 分数查找异常值 我得到了数据...

回答 2 投票 0

IntCastingNaNError:无法将非有限值(NA 或 inf)转换为整数

在执行此特定代码行时,我收到错误。需要将特定列的字符串数据类型转换为数值 data['性别'] = data['性别'].map( {'男': 1, '女': 0...

回答 1 投票 0

X (Twitter) 使用 twikit 进行网页抓取。如何验证auth_token是否过期?

我正在尝试使用 twikit python lib 来 webscrape X(以前称为 twitter)。 我无法验证 auth_token 是否过期。 这是供您参考的代码片段: 来自 twikit 我...

回答 1 投票 0

Pandas 多索引数据框 - 从多索引中的一个索引中选择最大值

我有一个具有年和月多重索引的数据框,如下所示 | |价值 年|月| | 1 | 3 1992 | 2 | 5 | 3 | 8 | ... | ... 1993 | 1 | 2 ...

回答 2 投票 0

时间序列预测的最佳算法?

我想向您询问一些关于时间序列预测问题的建议。特别是,我必须每天预测某个区域的总需水量,创建一个基于...

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.