如何使用OpenAI api对URL进行分类?

问题描述 投票:0回答:1

我正在尝试制作一个网址检测系统。 假设它将获取所有网址,并且我想要该列表中的所有博客文章网址 因为不同的网站有不同的 url 结构。如果我能消除ml就好了。我想要更简单的东西

例如:

https://example.com/2024/07/03/blog-title-slug -> 是

https://techcrunch.com/contact-us/ -> 否

以上是基本示例。系统将占用巨大的网址列表。并且应该返回特定的博客网址。

我的问题:

  1. 我如何使用 gpt 来有效地做到这一点。
  2. 还有其他流行的解决方案可以在生产级别做到这一点吗?
python url web-crawler openai-api
1个回答
-2
投票

幸运的是我一直在做同样的事情,尝试使用这个例子

import openai

openai.api_key = 'YOUR_OPENAI_API_KEY'

def classify_urls(urls):
    classified_urls = {'blog_posts': [], 'others': []}
    
    for url in urls:
        prompt = f"Is the following URL a blog post URL?\n\nURL: {url}\n\nAnswer with 'YES' or 'NO'."
        response = openai.Completion.create(
            engine="text-davinci-003",
            prompt=prompt,
            max_tokens=5,
            n=1,
            stop=None,
            temperature=0
        )
        
        answer = response.choices[0].text.strip().upper()
        
        if answer == 'YES':
            classified_urls['blog_posts'].append(url)
        else:
            classified_urls['others'].append(url)
    
    return classified_urls

urls = [
    "https://example.com/2024/07/03/blog-title-slug",
    "https://techcrunch.com/contact-us/"
]

classified_urls = classify_urls(urls)
print(classified_urls)

© www.soinside.com 2019 - 2024. All rights reserved.