从git / GitHub的历史记录中删除文件夹及其内容

问题描述 投票:244回答:7

我正在使用我的GitHub帐户上的存储库,这是我偶然发现的一个问题。

  • Node.js项目包含一个安装了几个npm软件包的文件夹
  • 包裹在node_modules文件夹中
  • 将该文件夹添加到git repository并将代码推送到github(当时没有想到npm部分)
  • 意识到你并不真的需要该文件夹成为代码的一部分
  • 删除了那个文件夹,推了它

在那个例子中,总git repo的大小约为6MB,其中实际代码(除了该文件夹之外的所有代码)只有大约300 KB。

现在我正在寻找的是从git的历史中删除该包文件夹的细节的一种方法,所以如果有人克隆它,他们不必下载6mb的历史记录,他们将获得唯一的实际文件截至上次提交时将为300KB。

我查找了可能的解决方案并尝试了这两种方法

Gist似乎在运行脚本之后起作用,它表明它摆脱了该文件夹,之后它显示了50个不同的提交被修改。但它没有让我推动那些代码。当我试图推动它时,它说Branch up to date,但显示50个提交被修改为git status。其他两种方法也没有帮助。

现在即使它显示它摆脱了该文件夹的历史记录,当我在我的localhost上检查该repo的大小时,它仍然是大约6MB。 (我也删除了refs/originalfolder,但没有看到回购邮件大小的变化)。

我要澄清的是,如果有一种方法可以摆脱提交历史(这是我认为发生的唯一事情),而且那些文件git保持假设一个人想要回滚。

让我们说一个解决方案是为此而呈现并应用于我的localhost但不能复制到该GitHub仓库,是否有可能克隆该repo,回滚到第一个提交执行技巧并推送它(或者这是否意味着git将仍然有所有这些提交的历史? - 又名.6MB)。

我的最终目标是基本上找到从git中删除文件夹内容的最佳方法,这样用户就不必下载6MB的东西,仍然可能有其他提交从未触及过模块文件夹(那很漂亮)他们中的所有人都在git的历史中。

我怎样才能做到这一点?

git github rebase git-rebase
7个回答
461
投票

如果你在这里复制粘贴代码:

这是一个从历史中删除node_modules的例子

git filter-branch --tree-filter "rm -rf node_modules" --prune-empty HEAD
git for-each-ref --format="%(refname)" refs/original/ | xargs -n 1 git update-ref -d
echo node_modules/ >> .gitignore
git add .gitignore
git commit -m 'Removing node_modules from git history'
git gc
git push origin master --force

git实际上做了什么:

第一行遍历同一树上的所有引用(--tree-filter)和HEAD(当前分支),运行命令'rm -rf node_modules'。此命令删除node_modules文件夹(-r,不带-r,rm不会删除文件夹),没有提示给用户(-f)。添加的--prune-empty删除无用(不改变任何东西)递归提交。

第二行删除对旧分支的引用。

其余的命令相对简单。


194
投票

我发现在其他答案中使用的--tree-filter选项可能非常慢,特别是在具有大量提交的大型存储库中。

这是我使用--index-filter选项从git历史记录中完全删除目录的方法,该选项运行得更快:

# Make a fresh clone of YOUR_REPO
git clone YOUR_REPO
cd YOUR_REPO

# Create tracking branches of all branches
for remote in `git branch -r | grep -v /HEAD`; do git checkout --track $remote ; done

# Remove DIRECTORY_NAME from all commits, then remove the refs to the old commits
# (repeat these two commands for as many directories that you want to remove)
git filter-branch --index-filter 'git rm -rf --cached --ignore-unmatch DIRECTORY_NAME/' --prune-empty --tag-name-filter cat -- --all
git for-each-ref --format="%(refname)" refs/original/ | xargs -n 1 git update-ref -d

# Ensure all old refs are fully removed
rm -Rf .git/logs .git/refs/original

# Perform a garbage collection to remove commits with no refs
git gc --prune=all --aggressive

# Force push all branches to overwrite their history
# (use with caution!)
git push origin --all --force
git push origin --tags --force

您可以使用以下命令检查gc之前和之后的存储库大小:

git count-objects -vH

38
投票

除了流行的答案above,我想为Windows系统添加一些注释。命令

git filter-branch --tree-filter 'rm -rf node_modules' --prune-empty HEAD
  • 完美无缺,无需任何修改!因此,你不能使用Remove-Itemdel或其他任何东西而不是rm -rf
  • 如果需要指定文件或目录的路径,请使用./path/to/node_modules等斜杠

20
投票

我找到的最好和最准确的方法是下载bfg.jar文件:https://rtyley.github.io/bfg-repo-cleaner/

然后运行命令:

git clone --bare https://project/repository project-repository
cd project-repository
java -jar bfg.jar --delete-folders DIRECTORY_NAME  # i.e. 'node_modules' in other examples
git reflog expire --expire=now --all && git gc --prune=now --aggressive
git push --mirror https://project/new-repository

如果要删除文件,请使用delete-files选项:

java -jar bfg.jar --delete-files *.pyc

5
投票

完成复制和粘贴配方,只需在测试后添加注释中的命令(用于复制粘贴解决方案):

git filter-branch --tree-filter 'rm -rf node_modules' --prune-empty HEAD
echo node_modules/ >> .gitignore
git add .gitignore
git commit -m 'Removing node_modules from git history'
git gc
git push origin master --force

在此之后,您可以从.gitignore中删除“node_modules /”行


5
投票

对于Windows用户,请注意使用"而不是'还添加了-f以强制命令,如果已经有另一个备份。

git filter-branch -f --tree-filter "rm -rf FOLDERNAME" --prune-empty HEAD
git for-each-ref --format="%(refname)" refs/original/ | xargs -n 1 git update-ref -d
echo FOLDERNAME/ >> .gitignore
git add .gitignore
git commit -m "Removing FOLDERNAME from git history"
git gc
git push origin master --force

3
投票

我使用git on windows从旧的C#项目中删除了bin和obj文件夹。小心

git filter-branch --tree-filter "rm -rf bin" --prune-empty HEAD

它通过删除git install文件夹中的usr / bin文件夹来破坏git安装的完整性。

© www.soinside.com 2019 - 2024. All rights reserved.