我正在尝试制作一个网址检测系统。 假设它将获取所有网址,并且我想要该列表中的所有博客文章网址 因为不同的网站有不同的 url 结构。如果我能消除ml就好了。我想要更简单的东西
例如:
https://example.com/2024/07/03/blog-title-slug -> 是
https://techcrunch.com/contact-us/ -> 否
以上是基本示例。系统将占用巨大的网址列表。并且应该返回特定的博客网址。
我的问题:
幸运的是我一直在做同样的事情,尝试使用这个例子
import openai
openai.api_key = 'YOUR_OPENAI_API_KEY'
def classify_urls(urls):
classified_urls = {'blog_posts': [], 'others': []}
for url in urls:
prompt = f"Is the following URL a blog post URL?\n\nURL: {url}\n\nAnswer with 'YES' or 'NO'."
response = openai.Completion.create(
engine="text-davinci-003",
prompt=prompt,
max_tokens=5,
n=1,
stop=None,
temperature=0
)
answer = response.choices[0].text.strip().upper()
if answer == 'YES':
classified_urls['blog_posts'].append(url)
else:
classified_urls['others'].append(url)
return classified_urls
urls = [
"https://example.com/2024/07/03/blog-title-slug",
"https://techcrunch.com/contact-us/"
]
classified_urls = classify_urls(urls)
print(classified_urls)