我有我的Git存储库,它在根目录下有两个子目录:
/finisht
/static
当这是在SVN,/finisht
在一个地方检查,而/static
在其他地方检查,如下:
svn co svn+ssh://[email protected]/home/admin/repos/finisht/static static
有没有办法用Git做到这一点?
编辑:从Git 2.19开始,这最终是可能的,这可以在这个答案中看到:https://stackoverflow.com/a/52269934/2988。
考虑提出这个答案。
注意:在Git 2.19中,仅实现了客户端支持,仍然缺少服务器端支持,因此它仅在克隆本地存储库时有效。另请注意大型Git托管服务商,例如GitHub,实际上并没有使用Git服务器,他们使用自己的实现,所以即使支持显示在Git服务器上,它也不会自动意味着它可以在Git托管服务器上运行。 (OTOH,因为他们不使用Git服务器,他们可以在它们自己的实现中更快地实现它,然后才能在Git服务器中显示它。)
不,这在Git中是不可能的。
在Git中实现类似的功能将是一项重大工作,这意味着无法再保证客户端存储库的完整性。如果您有兴趣,请在git mailinglist上搜索关于“sparse clone”和“sparse fetch”的讨论。
一般来说,Git社区的共识是,如果你有多个目录总是独立检出,那么这些实际上是两个不同的项目,应该存在于两个不同的存储库中。你可以使用Git Submodules将它们粘合在一起。
这是我为单个子目录稀疏结账的用例编写的shell脚本
localRepo=$1
remoteRepo=$2
subDir=$3
# Create local repository for subdirectory checkout, make it hidden to avoid having to drill down to the subfolder
mkdir ./.$localRepo
cd ./.$localRepo
git init
git remote add -f origin $remoteRepo
git config core.sparseCheckout true
# Add the subdirectory of interest to the sparse checkout.
echo $subDir >> .git/info/sparse-checkout
git pull origin master
# Create convenience symlink to the subdirectory of interest
cd ..
ln -s ./.$localRepo$subDir $localRepo
这将克隆特定文件夹并删除与其无关的所有历史记录。
git clone --single-branch -b {branch} [email protected]:{user}/{repo}.git
git filter-branch --subdirectory-filter {path/to/folder} HEAD
git remote remove origin
git remote add origin [email protected]:{user}/{new-repo}.git
git push -u origin master
我写了一个.gitconfig
[alias]
来执行“稀疏结账”。检查出来(没有双关语):
在Windows上运行cmd.exe
git config --global alias.sparse-checkout "!f(){ [ $# -eq 2 ] && L=${1##*/} L=${L%.git} || L=$2; mkdir -p \"$L/.git/info\" && cd \"$L\" && git init --template= && git remote add origin \"$1\" && git config core.sparseCheckout 1; [ $# -eq 2 ] && echo \"$2\" >> .git/info/sparse-checkout || { shift 2; for i; do echo $i >> .git/info/sparse-checkout; done }; git pull --depth 1 origin master;};f"
除此以外:
git config --global alias.sparse-checkout '!f(){ [ $# -eq 2 ] && L=${1##*/} L=${L%.git} || L=$2; mkdir -p "$L/.git/info" && cd "$L" && git init --template= && git remote add origin "$1" && git config core.sparseCheckout 1; [ $# -eq 2 ] && echo "$2" >> .git/info/sparse-checkout || { shift 2; for i; do echo $i >> .git/info/sparse-checkout; done }; git pull --depth 1 origin master;};f'
用法:
# Makes a directory ForStackExchange with Plug checked out
git sparse-checkout https://github.com/YenForYang/ForStackExchange Plug
# To do more than 1 directory, you have to specify the local directory:
git sparse-checkout https://github.com/YenForYang/ForStackExchange ForStackExchange Plug Folder
为了方便和存储,git config
命令被“缩小”,但这里是扩展的别名:
# Note the --template= is for disabling templates.
# Feel free to remove it if you don't have issues with them (like I did)
# `mkdir` makes the .git/info directory ahead of time, as I've found it missing sometimes for some reason
f(){
[ "$#" -eq 2 ] && L="${1##*/}" L=${L%.git} || L=$2;
mkdir -p "$L/.git/info"
&& cd "$L"
&& git init --template=
&& git remote add origin "$1"
&& git config core.sparseCheckout 1;
[ "$#" -eq 2 ]
&& echo "$2" >> .git/info/sparse-checkout
|| {
shift 2;
for i; do
echo $i >> .git/info/sparse-checkout;
done
};
git pull --depth 1 origin master;
};
f
您要做的事情称为稀疏结账,该功能已添加到git 1。7。0(2012年2月)。执行稀疏克隆的步骤如下:
mkdir <repo>
cd <repo>
git init
git remote add -f origin <url>
这将使用您的遥控器创建一个空的存储库,并获取所有对象但不检查它们。然后做:
git config core.sparseCheckout true
现在,您需要定义要实际检出的文件/文件夹。这是通过在.git/info/sparse-checkout
中列出来完成的,例如:
echo "some/dir/" >> .git/info/sparse-checkout
echo "another/sub/tree" >> .git/info/sparse-checkout
最后但并非最不重要的是,使用远程状态更新您的空仓库:
git pull origin master
您现在将文件系统上的some/dir
和another/sub/tree
文件“签出”(这些路径仍然存在),并且不存在其他路径。
你可能想看看extended tutorial,你应该阅读官方的documentation for sparse checkout。
作为一个功能:
function git_sparse_clone() (
rurl="$1" localdir="$2" && shift 2
mkdir -p "$localdir"
cd "$localdir"
git init
git remote add -f origin "$rurl"
git config core.sparseCheckout true
# Loops over remaining args
for i; do
echo "$i" >> .git/info/sparse-checkout
done
git pull origin master
)
用法:
git_sparse_clone "http://github.com/tj/n" "./local/location" "/bin"
请注意,这仍将从服务器下载整个存储库 - 只有结帐大小减少。目前,无法仅克隆单个目录。但是,如果您不需要存储库的历史记录,则可以通过创建浅层克隆来至少节省带宽。有关如何组合浅层udondan's answer和稀疏结账的信息,请参阅下面的clone。
您可以组合稀疏结帐和浅克隆功能。浅层克隆切断了历史记录,稀疏结账只会拉出与您的模式匹配的文件。
git init <repo>
cd <repo>
git remote add origin <url>
git config core.sparsecheckout true
echo "finisht/*" >> .git/info/sparse-checkout
git pull --depth=1 origin master
你需要最低限度的git 1.9来实现这个目的。仅使用2.2.0和2.2.2对自己进行了测试。
这样你仍然可以推动,这是git archive
无法实现的。
来自Git 2.19的git clone --filter
此选项实际上将跳过从服务器获取不需要的对象。还包括--filter=tree:0
from Git 2.20我们最终得到:
git clone \
--depth 1 \
--filter=blob:none \
--filter=tree:0 \
--no-checkout \
"file://$(pwd)/server_repo" \
local_repo \
;
cd local_repo
git checkout master -- mydir/
服务器应配置为:
git config --local uploadpack.allowfilter 1
git config --local uploadpack.allowanysha1inwant 1
扩展了Git远程协议以支持v2.19.0
中的此功能,并实际上跳过了获取不需要的对象,但当时没有服务器支持。但它已经可以在本地测试了。
命令细分:
--filter=blob:none
跳过所有的blob,但仍然取得所有tree objects--filter=tree:0
跳过不需要的树:https://www.spinics.net/lists/git/msg342006.html--depth 1
已经暗示--single-branch
,另见:How do I clone a single branch in Git?file://$(path)
需要克服git clone
协议恶作剧:How to shallow clone a local git repository with a relative path?--filter
的格式记录在man git-rev-list
上。
Git树上的文档:
测试一下
#!/usr/bin/env bash
set -eu
list-objects() (
git rev-list --all --objects
echo "master commit SHA: $(git log -1 --format="%H")"
echo "mybranch commit SHA: $(git log -1 --format="%H")"
git ls-tree master
git ls-tree mybranch | grep mybranch
git ls-tree master~ | grep root
)
# Reproducibility.
export GIT_COMMITTER_NAME='a'
export GIT_COMMITTER_EMAIL='a'
export GIT_AUTHOR_NAME='a'
export GIT_AUTHOR_EMAIL='a'
export GIT_COMMITTER_DATE='2000-01-01T00:00:00+0000'
export GIT_AUTHOR_DATE='2000-01-01T00:00:00+0000'
rm -rf server_repo local_repo
mkdir server_repo
cd server_repo
# Create repo.
git init --quiet
git config --local uploadpack.allowfilter 1
git config --local uploadpack.allowanysha1inwant 1
# First commit.
# Directories present in all branches.
mkdir d1 d2
printf 'd1/a' > ./d1/a
printf 'd1/b' > ./d1/b
printf 'd2/a' > ./d2/a
printf 'd2/b' > ./d2/b
# Present only in root.
mkdir 'root'
printf 'root' > ./root/root
git add .
git commit -m 'root' --quiet
# Second commit only on master.
git rm --quiet -r ./root
mkdir 'master'
printf 'master' > ./master/master
git add .
git commit -m 'master commit' --quiet
# Second commit only on mybranch.
git checkout -b mybranch --quiet master~
git rm --quiet -r ./root
mkdir 'mybranch'
printf 'mybranch' > ./mybranch/mybranch
git add .
git commit -m 'mybranch commit' --quiet
echo "# List and identify all objects"
list-objects
echo
# Restore master.
git checkout --quiet master
cd ..
# Clone. Don't checkout for now, only .git/ dir.
git clone --depth 1 --quiet --no-checkout --filter=blob:none "file://$(pwd)/server_repo" local_repo
cd local_repo
# List missing objects from master.
echo "# Missing objects after --no-checkout"
git rev-list --all --quiet --objects --missing=print
echo
echo "# Git checkout fails without internet"
mv ../server_repo ../server_repo.off
! git checkout master
echo
echo "# Git checkout fetches the missing directory from internet"
mv ../server_repo.off ../server_repo
git checkout master -- d1/
echo
echo "# Missing objects after checking out d1"
git rev-list --all --quiet --objects --missing=print
Git v2.19.0中的输出:
# List and identify all objects
c6fcdfaf2b1462f809aecdad83a186eeec00f9c1
fc5e97944480982cfc180a6d6634699921ee63ec
7251a83be9a03161acde7b71a8fda9be19f47128
62d67bce3c672fe2b9065f372726a11e57bade7e
b64bf435a3e54c5208a1b70b7bcb0fc627463a75 d1
308150e8fddde043f3dbbb8573abb6af1df96e63 d1/a
f70a17f51b7b30fec48a32e4f19ac15e261fd1a4 d1/b
84de03c312dc741d0f2a66df7b2f168d823e122a d2
0975df9b39e23c15f63db194df7f45c76528bccb d2/a
41484c13520fcbb6e7243a26fdb1fc9405c08520 d2/b
7d5230379e4652f1b1da7ed1e78e0b8253e03ba3 master
8b25206ff90e9432f6f1a8600f87a7bd695a24af master/master
ef29f15c9a7c5417944cc09711b6a9ee51b01d89
19f7a4ca4a038aff89d803f017f76d2b66063043 mybranch
1b671b190e293aa091239b8b5e8c149411d00523 mybranch/mybranch
c3760bb1a0ece87cdbaf9a563c77a45e30a4e30e
a0234da53ec608b54813b4271fbf00ba5318b99f root
93ca1422a8da0a9effc465eccbcb17e23015542d root/root
master commit SHA: fc5e97944480982cfc180a6d6634699921ee63ec
mybranch commit SHA: fc5e97944480982cfc180a6d6634699921ee63ec
040000 tree b64bf435a3e54c5208a1b70b7bcb0fc627463a75 d1
040000 tree 84de03c312dc741d0f2a66df7b2f168d823e122a d2
040000 tree 7d5230379e4652f1b1da7ed1e78e0b8253e03ba3 master
040000 tree 19f7a4ca4a038aff89d803f017f76d2b66063043 mybranch
040000 tree a0234da53ec608b54813b4271fbf00ba5318b99f root
# Missing objects after --no-checkout
?f70a17f51b7b30fec48a32e4f19ac15e261fd1a4
?8b25206ff90e9432f6f1a8600f87a7bd695a24af
?41484c13520fcbb6e7243a26fdb1fc9405c08520
?0975df9b39e23c15f63db194df7f45c76528bccb
?308150e8fddde043f3dbbb8573abb6af1df96e63
# Git checkout fails without internet
fatal: '/home/ciro/bak/git/test-git-web-interface/other-test-repos/partial-clone.tmp/server_repo' does not appear to be a git repository
fatal: Could not read from remote repository.
Please make sure you have the correct access rights
and the repository exists.
# Git checkout fetches the missing directory from internet
remote: Enumerating objects: 1, done.
remote: Counting objects: 100% (1/1), done.
remote: Total 1 (delta 0), reused 0 (delta 0)
Receiving objects: 100% (1/1), 45 bytes | 45.00 KiB/s, done.
remote: Enumerating objects: 1, done.
remote: Counting objects: 100% (1/1), done.
remote: Total 1 (delta 0), reused 0 (delta 0)
Receiving objects: 100% (1/1), 45 bytes | 45.00 KiB/s, done.
# Missing objects after checking out d1
?8b25206ff90e9432f6f1a8600f87a7bd695a24af
?41484c13520fcbb6e7243a26fdb1fc9405c08520
?0975df9b39e23c15f63db194df7f45c76528bccb
结论:来自d1/
外的所有斑点都缺失了。例如。查看0975df9b39e23c15f63db194df7f45c76528bccb
后,d2/b
,d1/a
不在那里。
请注意,root/root
和mybranch/mybranch
也缺失,但--depth 1
隐藏了丢失文件列表中的内容。如果删除--depth 1
,它们会显示在丢失文件列表中。
我有一个梦想
这个功能可以彻底改变Git。
想象一下,你的企业in a single repo的所有代码库都没有ugly third-party tools like repo
。
想象一下storing huge blobs directly in the repo without any ugly third party extensions。
想象一下,如果GitHub允许per file / directory metadata像星星和权限,所以你可以将你所有的个人资料存储在一个回购。
想象一下,如果submodules were treated exactly like regular directories:只是请求一个树SHA和一个DNS-like mechanism resolves your request,首先查看你的local ~/.git
,然后首先关闭服务器(你的企业的镜像/缓存),最后是GitHub。
对于只想从github下载文件/文件夹的其他用户,只需使用:
svn export <repo>/trunk/<folder>
EG
svn export https://github.com/lodash/lodash.com/trunk/docs
(是的,这是svn在这里。显然在2016年你仍然需要svn来简单地下载一些github文件)
礼貌:Download a single folder or directory from a GitHub repo
重要 - 确保更新github URL并将/tree/master/
替换为'/ trunk /'。
作为bash脚本:
git-download(){
folder=${@/tree\/master/trunk}
folder=${folder/blob\/master/trunk}
svn export $folder
}
注意此方法下载文件夹,不克隆/签出它。您无法将更改推送回存储库。另一方面 - 与稀疏结账或浅结账相比,这导致更小的下载。
如果您从未计划与克隆的存储库进行交互,则可以使用git filter-branch --subdirectory-filter执行完整的git克隆并重写您的存储库。这样,至少会保留历史记录。
Git 1.7.0有“稀疏结账”。请参阅git config manpage中的“core.sparseCheckout”,git read-tree manpage中的“Sparse checkout”和git update-index manpage中的“Skip-worktree bit”。
接口不如SVN那样方便(例如,在初始克隆时无法进行稀疏检出),但现在可以使用可以构建更简单接口的基本功能。
This看起来更简单:
git archive --remote=<repo_url> <branch> <path> | tar xvf -
仅使用Git克隆子目录是不可能的,但下面是几个解决方法。
您可能想要重写存储库看起来好像trunk/public_html/
已经是它的项目根目录,并丢弃所有其他历史记录(使用filter-branch
),尝试已经结帐分支:
git filter-branch --subdirectory-filter trunk/public_html -- --all
注意:--
将过滤器分支选项与修订选项分开,而--all
则重写所有分支和标签。将保留包括原始提交时间或合并信息在内的所有信息。此命令用于表示.git/info/grafts
文件并在refs/replace/
命名空间中引用,因此如果您定义了任何移植或替换refs
,则运行此命令将使它们成为永久性的。
警告!重写的历史将具有所有对象的不同对象名称,并且不会与原始分支会聚。您将无法在原始分支的顶部轻松推送和分发重写的分支。如果您不知道完整的含义,请不要使用此命令,并且无论如何都要避免使用它,如果简单的单个提交就足以解决您的问题。
以下是使用sparse checkout方法的简单步骤,它将稀疏地填充工作目录,因此您可以告诉Git工作目录中的哪个文件夹或文件值得检出。
--no-checkout
是可选的):
git clone --no-checkout git@foo/bar.git
cd bar
如果已经克隆了存储库,则可以跳过此步骤。
提示:对于大型回购,请考虑shallow clone(--depth 1
)仅签出最新版本或/和--single-branch
。sparseCheckout
选项:
git config core.sparseCheckout true
echo "trunk/public_html/*"> .git/info/sparse-checkout
或编辑.git/info/sparse-checkout
。master
):
git checkout master
现在您应该在当前目录中选择了文件夹。
如果您有太多级别的目录或过滤分支,您可以考虑使用符号链接。