text-processing 相关问题

机制化电子文本的创建或操作。

当 <a> 标签中有带有 href 属性的 标签时，如何拆分段落中的单词

我正在做一个网络抓取项目，当标签中有一个带有 href 属性的标签时，我想拆分段落中的单词。这是我尝试抓取的网页：... 我正在做一个网络抓取项目，当标签中有一个带有 href 属性的标签时，我想拆分段落中的单词。这是我尝试抓取的网页： https://witcher.fandom.com/wiki/Of_Banquets,_Bastards_and_Burials 我和 beautifulsoup 一起工作如果标签中有一个带有 href 属性的标签，我当前的代码将返回连接在一起的单词。只是提一下，我是一般的抓取和编程新手例如：这里是 html: <a href="/wiki/Dandelion/Netflix_series" title="Dandelion/Netflix series"> Jaskier </a> is in a tavern, writing down the excited account of a merchant who hired <a href="/wiki/Geralt_of_Rivia/Netflix_series" title="Geralt of Rivia/Netflix series"> Geralt </a> to slay a <a href="/wiki/Selkiemore" title="Selkiemore"> selkiemore </a> plaguing his shipments, only to watch in horror as the monster swallowed the Witcher whole. The merchant insists that Geralt could not have survived, but Jaskier knows better, and is proven right when Geralt himself walks into the tavern, covered head to toe in selkiemore guts, explaining that he had to slay it from the inside. The merchant hurriedly pays Geralt the agreed-upon fee, and the bar patrons clear a path for the reeking Witcher as he orders a tankard of beer to wash out his mouth. 这是我的代码：从保存的文件中读取 HTML 内容 with open("yahoo_data.html", "r", encoding="utf-8") as file: html_content = file.read() 使用 BeautifulSoup 解析 HTML soup = BeautifulSoup(html_content, 'html.parser') 杰洛特的时间线摘录第一段 div_tag = soup.find('div', {'style': 'float:right; width:33%; margin: 0 10px;'}) p_tag = div_tag.find_next('p') text = p_tag.get_text(strip=True) print(text+"\n") 输出为： Jaskieris 在一家酒馆里，写下了一位商人的兴奋记述，这位商人雇用了 Geraltto 杀死了一个困扰着他的货物的 elkiemore，结果却惊恐地看着这个怪物吞噬了整个猎魔人。商人坚持认为杰洛特不可能活下来，但贾斯基尔知道得更多，当杰洛特自己走进酒馆时，事实证明他是对的，杰洛特从头到脚都沾满了塞尔基莫尔的内脏，解释说他必须从内部杀死它。商人匆忙向 Geralt 支付了商定的费用，酒吧顾客为散发着恶臭的巫师让路，因为他点了一大杯啤酒来漱口。你可以看到组合词： aselkiemore困扰由 3 个不同的词组合而成： selkiemore 困扰我需要更系统的方法和更多的“pythonic”方法谢谢我尝试使用BeautifulSoup的get_text方法从网页的第一段中提取文本，但是当<a>标签中有一个带有href属性的标签时，结果是一个组合词。我原以为这些词是分开的，而不是合并的。我需要一个更系统的方法和一个更“pythonic”的解决方案来解决这个问题。

python web-scraping beautifulsoup split text-processing

回答 0 投票 0

如何正确地将流式文本拆分成段落？

说我可以为方法 realtimeSplitStream 提供 3 个参数，即 stream、minSplitLength、maxSplitLength 流一个一个地发出字符，字符可以是任何主流语言，例如en-US, zh-CN,

java string text-processing

回答 0 投票 0

查找在 2 列文件中出现次数最少的值

我有一个这种结构的动态生成的txt文件->代码[空格]链接这是一个简单的 15210 https://test1.com 4 https://test2.com 1020 https://testc.com 152 https://testz.com 152 https://t...

shell text-processing

回答 3 投票 0

按原样复制 1 个 docx 文件的标题并使用 Python docx 将其粘贴到其他 docx（包括字体样式和徽标/图像等）

如何使用 python docx 复制一个文件的标题并将其粘贴到其他文件？我已经写了一些代码，但它给出了一个错误。 ---------------------------------------------- --------...

python docx text-processing python-docx

回答 0 投票 0

如何仅使用 grep、awk 和/或 sed，使用 bash 过滤文本文件中的多行模式？

我有一个大文件集合（大约 500 万字），每个文件都是通过 xgrepping 从 PubMed 的一些 XML 文件中提取一些模式而制成的。我用 xgrep -tx "//PMID|//ArticleTitle|//Abstract|//MeshHeadi...

bash awk sed grep text-processing

回答 1 投票 0

如何在将连续日志文件复制和处理到另一个文件时停止将行附加到上一行

我正在尝试将用户名附加到正在连续写入的日志文件中的相应 ip 地址。但是新行被附加到之前呈现日志文件的行

bash shell unix awk text-processing

回答 1 投票 0

如何写一个逐个接收字符并以书页的形式显示的算法？

我的代码目前是逐个接收一本书的字符，并对其进行预处理，使其以如下形式显示。我去图书馆拿我最喜欢的棒球帽而不是我去... ...

c++ text-processing word-processor

回答 1 投票 0

如何在bash中使用sed替换一个字符串的第mth到nth次出现？

我一直在寻找一种简单的方法来屏蔽(即用*替换)每行中给定模式的第1到3次出现，使用sed。输入文本的格式是：$ cat input 1234 4321 2356 7890 3456 ....

sed text-processing

回答 3 投票 1

移除字符串，直到符合python中的条件。

我有这些字符串向量 text1 = " SPEECH Remarks at the European Economics and Financial Centre 欧洲央行副行长Luis de Guindos在欧洲经济和金融中心的讲话 ...

python nlp text-processing

回答 1 投票 -1

如何计算每个字符的出现次数，包括大写和小写？

我一直试图通过使用以下代码来计算一个字符在文件上出现的次数： sed 's.&\ng' 1.txt。

bash command-line text-processing

回答 1 投票 0

如何删除每行中连续重复的字符？

我在一个文件Acanthocephala;Palaeacanthocephala;Polymorphida;Polymorphidae;;Profilicollis;Profilicollis_altmani;Acanthocephala;Eoacanthocephala;Neoechinorhynchida;......中有以下几行。

bash text-processing

回答 4 投票 0

从给定的文本中识别出与领域相关的重要关键词。

我对NLP文本处理的领域比较陌生。我想知道如何从给定的文本中识别领域相关的重要关键词。例如，如果我要建立一个Q&A聊天机器人，它 ...

python nlp nltk chatbot text-processing

回答 1 投票 0

用python处理一个大文件(>60gb)

我有一个文本文件(>=60Gig)，里面的记录是这样的：{"index": {"_type": "_doc", "_id": "bLcy4m8BAObvGO9GALME"}}。{"message":"{"__": "用户/",{"pFlags/":{"联系/":true},{"flags/":2135,...。

python text-processing python-textprocessing

回答 1 投票 -3

具有多个输入的神经网络（keras，文本分类）。

我是机器学习的新手，对神经网络做了一些实验，也做了一些研究。我目前正试图做一个用于假新闻检测的迷你网络。我的数据有几个特征（...

python tensorflow keras neural-network text-processing

回答 1 投票 0

如何使用 xslt 缩进一个 html 列表？

如何在生成的 html 中平等地缩进每个生成的 "record "节点？ xml。报告日期房委会

html xml xslt xml-parsing text-processing

回答 1 投票 0

如何从xslt输出的html列表中删除多余的缩进？

我如何平均缩进下面的每个“记录”？较大文档中的xml片段： 2020-06-14 Fraser ...