从多个URL中提取和计算关键字

问题描述 投票:0回答:1

我有一个项目,使用 R 从搜索查询生成的 URL 中提取关键字。然后,识别最常见的关键字,计算这些提取的关键字的 TF-IDF 等。

作为 R 新手,我尝试过以下方法。我使用了两个不同的链接然后我:

第 1 步:我使用以下代码进行了关键字提取:R 中的网页抓取和文本挖掘。我运行此代码两次,因为我通过更改代码中 getURL() 中的链接来提取 2 个 URL。 结果:每个 URL 都有 1 个 dtm 已提取

第 2 步:为了计算 tf-idf,我分析并使用了本文档中的第 3 章:http://tidytextmining.com/tfidf.html。我根据文档构建了我的数据模式:

  1. 将每个 dtm 转换为数据帧
  2. 向数据框中添加新列“站点名称/URL”和“术语总数”
  3. 将 link2 的数据帧附加到 link1,因为它们具有相同的列
  4. 然后我使用文档中的公式来计算“词频”,并使用函数 bind_tf_idf 来计算 tf-idf

目标是从搜索查询生成的 URL 中提取关键字。我已经使用以下代码生成了 URL:How to get google search results(请参阅下面的代码片段)

提取后,确定这些关键词出现的次数、最常用的关键词,然后计算这些关键词的 TF-IDF。

作为初学者,这是我能想到的最好的方法(虽然我确实尝试过),但我绝对认为有更好的方法来做到这一点,而不是为每个 URL 执行步骤 1 和步骤 2。

非常感谢您对此的帮助和/或反馈。

> search.term <- "tour package"
> quotes <- "FALSE"
> search.url <- getGoogleURL(search.term=search.term, quotes=quotes)
> links <- getGoogleLinks(search.url)
> links <- gsub('/url\\?q=','',sapply(strsplit(links[as.vector(grep('url',links))],split='&'),'[',1)) 
> links
 [1] "https://www.makemytrip.com/holidays-india/"                 
 [2] "https://www.makemytrip.com/holidays-india/"                 
 [3] "https://www.yatra.com/india-tour-packages"                   
 [4] "http://www.thomascook.in/tcportal/international-holidays"   
 [5] "https://www.yatra.com/holidays"                             
 [6] "https://www.travelguru.com/holiday-packages/domestic-packages.shtml"
 [7] "https://www.chanbrothers.com/package"                       
 [8] "https://www.tourmyindia.com/packagetours.html"               
 [9] "http://traveltriangle.com/tour-packages"                     
[10] "http://www.coxandkings.com/bharatdeko/"                     
[11] "https://www.sotc.in/india-tour-packages" 
r tf-idf text-extraction
1个回答
0
投票

如果您希望有效地从多个 URL 中提取和计算关键字,这里有一个实现此目标的分步过程。无论您是处理几个 URL 还是批量列表,此方法都可以无缝运行。


第 1 步:了解 URL 结构

URL 中的关键字通常可以在 URL 的路径段中找到。例如:

这里的关键词是“关键词提取技巧”。您希望隔离这些段,同时删除文件扩展名(例如,

.html
.php
)和不必要的部分(例如查询参数或域名)。


第2步:使用在线工具提取关键词

对于初学者或想要现成解决方案的人,**[

[URL 中的关键字][1]

](https://keywordsfromurls.com/)** 是一个为此目的而设计的免费、用户友好的工具。使用方法如下:

  1. 进入关键词提取工具页面。
  2. 将多个 URL 粘贴到文本框中。
  3. 单击提取关键字以获得干净的关键字列表。

第 3 步:优化 Slugs 以实现更好的 SEO

如果您的目标是优化 URL,您可以在同一站点上使用 [[Slug Generator]]2。该工具通过以下方式将文本转换为 SEO 友好的 slugs:

  • 将空格转换为连字符。
  • 删除特殊字符。
  • 确保小写格式。

第4步:对相关关键词进行分组

要有效组织提取的关键字,请使用 [[关键字分组工具]]3。它:

  • 按相似度对关键词进行聚类。
  • 帮助创建针对特定主题的重点内容。
  • 节省手动关键字分类的时间。

第5步:分析关键词密度

提取关键词并对其进行分组后,分析它们在内容中的密度至关重要。 [[关键字密度工具]]4可以:

  • 突出显示最常用的关键字。
  • 建议调整以更好的SEO优化。
  • 确保关键字的使用符合搜索引擎最佳实践。

第 6 步:自动化批量 URL 的处理

如果您正在处理大量 URL,请使用 Python 或其他编程语言自动化该过程。这是一个 Python 片段:

from urllib.parse import urlparse

urls = [
    "https://example.com/blog/keyword-extraction-tips.html",
    "https://example.com/guide/seo-tools.html"
]

def extract_keywords(url):
    path = urlparse(url).path
    keywords = path.strip("/").replace("-", " ").split("/")
    return " ".join(keywords).replace(".html", "").replace(".php", "")

for url in urls:
    print(extract_keywords(url))


  [1]: https://keywordsfromurls.com/
  [2]: https://keywordsfromurls.com/Slug-Generator.html
  [3]: https://keywordsfromurls.com/keywords-grouping.html
  [4]: https://keywordsfromurls.com/Keyword-Density-And-Wordcount-Tool.html
© www.soinside.com 2019 - 2024. All rights reserved.