如何获得干净的YouTube成绩单

问题描述 投票:0回答:1

我正在尝试获取视频字幕数据,因为我正在使用downsub。

我没有办法得到干净的字幕,没有HTML标签和时间戳,没有把它带到记事本并适当地做替换程序。

这是麻烦的,我想使用Python自动清洗过程。

https://colab.research.google.com/drive/1bbgbjbGF9bjzz3FISMfycSW4iHCj3pxk

我正在寻找一个非常简单的解决方案,任何人都可以通过Python的基本知识来理解。如果需要,我愿意使用API​​,但如果这需要很长时间,如果快速完成,手动清洁仍然只需要几分钟。自动化会很好;会减轻头痛。考虑到这一点,请提出一个好的和好的解决方案。

python youtube timestamp data-cleaning subtitle
1个回答
1
投票

已经对替换进行了一些更改,但是应该这样做:

import requests

down_url = "https://downsub.com/index.php?title=5+Am+Club+by+Robin+Sharma+%7C%7C+Review%2C+Takeaways+and+Discussion&url=ujcNaH9TaDy8U56iM_1ZReCKk1h83rjIvE7i146GYHUNIwZwKM02q9oUSieWkZ47Tw2OOJgFBvlU0he-sxkGIASxRnTcdMwE1QrZ3CAsyI5gLS6A0ovxFMmFJx5EAC5wtwexy0R1vzZfNdt6dBse3H-vOhq8xnqL-LdhSbiePZ5E_KEYrYuFzPvF2JpEARuCOA6XlqQQzV7iooSEObb9AejBkNj_uHhNnO0RVJ0E-pVAJjWLdjUnIdXGPkJUsd5Ceg5qeTVKjtBQhWyf6qCuwE_BAezDSDAF6DgLCFRnwc2Uc9onnorwYncvzIge1soln3FnkifpyHiPB3cK0h0f5yMUy-DJHervcQXQEHdUf-npkCzRgeba283yoN7orAovE0iaIihvFMectGYKT27eXLdrLdQQ3sUcWFqRB6SjZ8g"

data = requests.get(down_url).text


clean = ['<font color="#CCCCCC">',
         '<font color="#E5E5E5">',
         '<font color="#EEE">',
         '</font>',
         0,1,2,3,4,5,6,7,8,9,
         '::, --> ::,',]


for s in clean:
    data = data.replace(str(s), '')

data = data.replace('\n\n\n\n', '\n')

print(data)
© www.soinside.com 2019 - 2024. All rights reserved.