data-science 相关问题

数据科学涉及以任何形式或形式从数据中提取知识或见解。它可以包含预测分析,通常需要进行大量的数据争论。请考虑在https://datascience.stackexchange.com/上发帖

所有超参数均被取出字符串,而不是其实际数据类型

i编写了以下快速API代码来培训分类模型: 但是,即使应该是整数,浮子或布尔人,所有超参数都被作为字符串接收。 快速API代码:

回答 1 投票 0





pandera验证获取所有有效的行

例如: Pandera模式看起来像下面:

回答 3 投票 0


我如何使用TQDM进度栏跟踪文本提取的进度

def process_documents(file_path, index_name): if not os.path.exists(file_path): raise FileNotFoundError(f"File not found: {file_path}") with open(file_path, 'rb') as file: file_content = file.read() document_ai_client = DocumentIntelligenceClient( endpoint=os.getenv("DOCUMENT_ENDPOINT"), credential=AzureKeyCredential(os.getenv("DOCUMENT_KEY")) ) model_id = "prebuilt-layout" all_text = [] poller = document_ai_client.begin_analyze_document( model_id, {"base64Source": file_content} ) result = poller.result() page_texts = defaultdict(list) for paragraph in result.paragraphs: role = paragraph.role if hasattr(paragraph, "role") else None page_num = paragraph.bounding_regions[0].page_number if paragraph.bounding_regions else "Unknown" if role not in ["pageHeader", "pageFooter", "pageNumber"]: page_texts[page_num].append(paragraph.content) file_name = os.path.basename(file_path) for page_num, paragraphs in page_texts.items(): combined_text = " ".join(paragraphs) all_text.append({ 'file': file_name, 'doc_num': 1, 'page_num': page_num, 'text': combined_text }) total_words = sum(len(entry["text"].split()) for entry in all_text) print(total_words)

回答 1 投票 0

如何管理深度学习模型中的内存消耗?

当我运行此代码时,运行时会话会自动关闭。 RAM 中没有剩余空间。因此会话自动关闭。我在 Google Colab 笔记本中使用 pytorch。我尝试过切换...

回答 1 投票 0

合并两个图像数据集

我有 6 个图像数据集,一个来自 Kaggle,另一个来自 Roboflow。我想使用全部 6 个数据集在 Google Colab 中训练模型。我可以在 Google Colab 中正常与他们合作吗?有哪些...

回答 1 投票 0

Python:从数据趋势中查找异常值

请注意,这篇文章不会与 SO 上的以下任何相关文章重复: 查找奇偶校验异常值 Python Python:查找列表中的异常值 使用 z 分数查找异常值 我得到了数据...

回答 2 投票 0

IntCastingNaNError:无法将非有限值(NA 或 inf)转换为整数

在执行此特定代码行时,我收到错误。需要将特定列的字符串数据类型转换为数值 data['性别'] = data['性别'].map( {'男': 1, '女': 0...

回答 1 投票 0

X (Twitter) 使用 twikit 进行网页抓取。如何验证auth_token是否过期?

我正在尝试使用 twikit python lib 来 webscrape X(以前称为 twitter)。 我无法验证 auth_token 是否过期。 这是供您参考的代码片段: 来自 twikit 我...

回答 1 投票 0

Pandas 多索引数据框 - 从多索引中的一个索引中选择最大值

我有一个具有年和月多重索引的数据框,如下所示 | |价值 年|月| | 1 | 3 1992 | 2 | 5 | 3 | 8 | ... | ... 1993 | 1 | 2 ...

回答 2 投票 0

时间序列预测的最佳算法?

我想向您询问一些关于时间序列预测问题的建议。特别是,我必须每天预测某个区域的总需水量,创建一个基于...

回答 1 投票 0

如何编码具有大量类别的项目特征以进行推荐

对于我正在研究的推荐问题,大约有50000个独特品牌和3级产品类别,level_1_cat(50个类别)、level_2_cat(100个类别)和level_3_cat(1000个

回答 1 投票 0

Azure 视频索引器 API:模糊完成后检查模糊作业状态时出现“USER_NOT_ALLOWED”错误

当前权限 我正在使用 Python 中的 Azure 视频索引器 API 来处理视频,特别是索引和模糊它们。虽然索引和模糊过程都成功运行...

回答 1 投票 0

长度参数无效

我想将数据帧的所有列转换为数字格式。 我使用 lapply - 像这样: data.frame(lapply(dat, 数字)) 但我从这段代码中得到一个错误: 长度参数无效 然而...

回答 2 投票 0

如何评估torch.pca_lowrank()返回的PCA的质量?

我使用以下代码: U, S, V = torch.pca_lowrank(A, q=self.n_components) 自身.V = V self.projection = torch.matmul(A, V) 如何计算累积百分比方差或任何其他

回答 2 投票 0

多类问题的 SHAP 图问题

我有以下代码: 从 xgboost 导入 XGBClassifier 导入形状 从 sklearn.preprocessing 导入 LabelEncoder # 对多类分类的标签进行编码 label_encoder = LabelEnco...

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.