是否可以从任何 YouTube API 中提取自动(非用户)生成的视频转录?
截至 2019 年 8 月,您可以通过以下方法下载成绩单:
https://www.youtube.com/watch?v=[Video ID]
JSON.parse(ytplayer.config.args.player_response).captions.playerCaptionsTracklistRenderer.captionTracks[0].baseUrl
您可以参考这个帖子:How to get "transcript" in youtube-api v3
如果您使用 oAuth2 进行身份验证,您可以快速调用 此饲料:
http://gdata.youtube.com/feeds/api/videos/[VIDEOID]/captiondata/[CAPTIONTRACKID]
获取您想要的数据。检索可能的字幕轨道列表 具有 API v2 的 ID,您可以访问此提要:
https://gdata.youtube.com/feeds/api/videos/[VIDEOID]/captions
该 feed 请求还接受一些可选参数,包括 语言、最大结果等。有关更多详细信息,以及一个示例 显示字幕轨道列表的返回格式,参见 文档位于 https://developers.google.com/youtube/2.0/developers_guide_protocol_captions#Retrieve_Caption_Set
另外,这里有一些可能有帮助的参考:
1 安装
youtube-transcript-api
(https://github.com/jdepoix/youtube-transcript-api),例如:
pip3 install youtube_transcript_api
2 使用以下代码创建
youtube_transcript_api-wrapper.py
(部分基于 https://stackoverflow.com/a/65325576/2585501):
from youtube_transcript_api import YouTubeTranscriptApi
#srt = YouTubeTranscriptApi.get_transcript(video_id)
videoListName = "youtubeVideoIDlist.txt"
with open(videoListName) as f:
video_ids = f.read().splitlines()
transcript_list, unretrievable_videos = YouTubeTranscriptApi.get_transcripts(video_ids, continue_after_error=True)
for video_id in video_ids:
if video_id in transcript_list.keys():
print("\nvideo_id = ", video_id)
#print(transcript)
srt = transcript_list.get(video_id)
text_list = []
for i in srt:
text_list.append(i['text'])
text = ' '.join(text_list)
print(text)
3 创建包含 video_ids 列表的
youtubeVideoIDlist.txt
4
python3 youtube_transcript_api-wrapper.py
这里 yawl go 花了我 3 分钟来制作 https://github.com/CCwithAi/MVP-YouTube-Transcript-Scraper