机制化电子文本的创建或操作。
当 <a> 标签中有带有 href 属性的 <p> 标签时,如何拆分段落中的单词
我正在做一个网络抓取项目,当 标签中有一个带有 href 属性的 标签时,我想拆分段落中的单词。 这是我尝试抓取的网页:... 我正在做一个网络抓取项目,当 标签中有一个带有 href 属性的 标签时,我想拆分段落中的单词。 这是我尝试抓取的网页: https://witcher.fandom.com/wiki/Of_Banquets,_Bastards_and_Burials 我和 beautifulsoup 一起工作 如果 标签中有一个带有 href 属性的 标签,我当前的代码将返回连接在一起的单词。 只是提一下,我是一般的抓取和编程新手 例如: 这里是 html: <p> <br/> <a href="/wiki/Dandelion/Netflix_series" title="Dandelion/Netflix series"> Jaskier </a> is in a tavern, writing down the excited account of a merchant who hired <a href="/wiki/Geralt_of_Rivia/Netflix_series" title="Geralt of Rivia/Netflix series"> Geralt </a> to slay a <a href="/wiki/Selkiemore" title="Selkiemore"> selkiemore </a> plaguing his shipments, only to watch in horror as the monster swallowed the Witcher whole. The merchant insists that Geralt could not have survived, but Jaskier knows better, and is proven right when Geralt himself walks into the tavern, covered head to toe in selkiemore guts, explaining that he had to slay it from the inside. The merchant hurriedly pays Geralt the agreed-upon fee, and the bar patrons clear a path for the reeking Witcher as he orders a tankard of beer to wash out his mouth. </p> 这是我的代码: 从保存的文件中读取 HTML 内容 with open("yahoo_data.html", "r", encoding="utf-8") as file: html_content = file.read() 使用 BeautifulSoup 解析 HTML soup = BeautifulSoup(html_content, 'html.parser') 杰洛特的时间线 摘录第一段 div_tag = soup.find('div', {'style': 'float:right; width:33%; margin: 0 10px;'}) p_tag = div_tag.find_next('p') text = p_tag.get_text(strip=True) print(text+"\n") 输出为: Jaskieris 在一家酒馆里,写下了一位商人的兴奋记述,这位商人雇用了 Geraltto 杀死了一个困扰着他的货物的 elkiemore,结果却惊恐地看着这个怪物吞噬了整个猎魔人。商人坚持认为杰洛特不可能活下来,但贾斯基尔知道得更多,当杰洛特自己走进酒馆时,事实证明他是对的,杰洛特从头到脚都沾满了塞尔基莫尔的内脏,解释说他必须从内部杀死它。商人匆忙向 Geralt 支付了商定的费用,酒吧顾客为散发着恶臭的巫师让路,因为他点了一大杯啤酒来漱口。 你可以看到组合词: aselkiemore困扰 由 3 个不同的词组合而成: selkiemore 困扰 我需要更系统的方法 和更多的“pythonic”方法 谢谢 我尝试使用BeautifulSoup的get_text方法从网页的第一段中提取文本,但是当<a>标签中有一个带有href属性的<p>标签时,结果是一个组合词。我原以为这些词是分开的,而不是合并的。我需要一个更系统的方法和一个更“pythonic”的解决方案来解决这个问题。
说我可以为方法 realtimeSplitStream 提供 3 个参数,即 stream、minSplitLength、maxSplitLength 流一个一个地发出字符,字符可以是任何主流语言,例如en-US, zh-CN,
我有一个这种结构的动态生成的txt文件->代码[空格]链接 这是一个简单的 15210 https://test1.com 4 https://test2.com 1020 https://testc.com 152 https://testz.com 152 https://t...
按原样复制 1 个 docx 文件的标题并使用 Python docx 将其粘贴到其他 docx(包括字体样式和徽标/图像等)
如何使用 python docx 复制一个文件的标题并将其粘贴到其他文件?我已经写了一些代码,但它给出了一个错误。 ---------------------------------------------- --------...
如何仅使用 grep、awk 和/或 sed,使用 bash 过滤文本文件中的多行模式?
我有一个大文件集合(大约 500 万字),每个文件都是通过 xgrepping 从 PubMed 的一些 XML 文件中提取一些模式而制成的。我用 xgrep -tx "//PMID|//ArticleTitle|//Abstract|//MeshHeadi...
如何在将连续日志文件复制和处理到另一个文件时停止将行附加到上一行
我正在尝试将用户名附加到正在连续写入的日志文件中的相应 ip 地址。但是新行被附加到之前呈现日志文件的行
我的代码目前是逐个接收一本书的字符,并对其进行预处理,使其以如下形式显示。我去图书馆拿我最喜欢的棒球帽 而不是我去... ...
如何在bash中使用sed替换一个字符串的第mth到nth次出现?
我一直在寻找一种简单的方法来屏蔽(即用*替换)每行中给定模式的第1到3次出现,使用sed。输入文本的格式是:$ cat input 1234 4321 2356 7890 3456 ....
我有这些字符串向量 text1 = " SPEECH Remarks at the European Economics and Financial Centre 欧洲央行副行长Luis de Guindos在欧洲经济和金融中心的讲话 ...
我一直试图通过使用以下代码来计算一个字符在文件上出现的次数: sed 's.&\ng' 1.txt。
我在一个文件Acanthocephala;Palaeacanthocephala;Polymorphida;Polymorphidae;;Profilicollis;Profilicollis_altmani;Acanthocephala;Eoacanthocephala;Neoechinorhynchida;......中有以下几行。
我对NLP文本处理的领域比较陌生。我想知道如何从给定的文本中识别领域相关的重要关键词。例如,如果我要建立一个Q&A聊天机器人,它 ...
我有一个文本文件(>=60Gig),里面的记录是这样的:{"index": {"_type": "_doc", "_id": "bLcy4m8BAObvGO9GALME"}}。{"message":"{"__": "用户/",{"pFlags/":{"联系/":true},{"flags/":2135,...。
我是机器学习的新手,对神经网络做了一些实验,也做了一些研究。我目前正试图做一个用于假新闻检测的迷你网络。我的数据有几个特征(...
如何在生成的 html 中平等地缩进每个生成的 "record "节点? xml。 报告日期 房委会
我如何平均缩进下面的每个“记录”?较大文档中的xml片段: 2020-06-14 Fraser ...
使用定界符将数据框中的列中的各个字符串分开,并将子字符串添加到单独的列中
例如,我有一个数据框:df = pd.DataFrame({“ EmailAdd”:[“ pamelasilvera@gmail.com”,“ indiejesse.d@gmail.com”],“主题”:[“报告提交”,“会议更新“] ...
我想从XML标签 的值中删除空格和引号,在Linux上我的XML文件中(仅针对此标签而不是其他位置删除空格)。 XML示例内容看起来像...
我正在尝试编写一个函数,该函数采用字母的正方形网格并给定一个单词,以从单词列表中进行查找,它会水平,垂直或对角地搜索它(也向后看...]]
[希望您做的很好,我有一个数据文件(包含数千个结构化数据模式),如下所示:PARTNER =“ ABC” ADDRESS1 =“ ABC Country INN” DEPARTMENT =“ ABC Department” CONTACT_PERSON =“ ...