如何稀疏地从git存储库中仅检出一个文件?

问题描述 投票:389回答:21

如何从git repo中仅查看一个文件?

git file git-checkout
21个回答
240
投票

最初,我在2012年提到git archive(参见Jared ForsythanswerRobert Knightanswer),自git1.7.9.5 (March 2012)Paul Brannananswer

git archive --format=tar --remote=origin HEAD:path/to/directory -- filename | tar -O -xf -

但是:在2013年,那不再是可能的for remote https://github.com URLs。 查看旧页面“Can I archive a repository?

当前(2018)页面“About archiving content and data on GitHub”建议使用GHTorrentGH Archive等第三方服务。


所以你也可以处理本地副本/克隆:

如果你有this answer中提到的裸存储库的本地副本,你可以选择执行以下操作,

git --no-pager --git-dir /path/to/bar/repo.git show branch:path/to/file >file

或者你必须首先克隆repo,这意味着你得到完整的历史记录: - 在.git repo中 - 在工作树中。

  • 但是你可以做一个sparse checkout(如果你使用Git1.7 +),: 启用稀疏结帐选项(git config core.sparsecheckout true) 添加你想在.git/info/sparse-checkout文件中看到的内容 重新阅读工作树只显示你需要的东西

要重新阅读工作树:

$ git read-tree -m -u HEAD

这样,你最终得到一个工作树,包括你想要的东西(即使它只是一个文件)


6
投票

你可以做到

git archive --format=tar --remote=origin HEAD | tar xf -
git archive --format=tar --remote=origin HEAD <file> | tar xf -

5
投票

关于已经给出的两个变体:

git archive --format=tar --remote=git://git.foo.com/project.git HEAD:path/to/directory filename | tar -O -xf -

和:

git archive --format=zip --remote=git://git.foo.com/project.git HEAD:path/to/directory filename | funzip

这些文件写入标准输出。


5
投票

假设文件名是123.txt,这对我有用:

git checkout --theirs  123.txt

如果文件位于目录A中,请确保正确指定:

git checkout --theirs  "A/123.txt"

5
投票

来自Git 2.19的git clone --filter

该选项实际上将跳过从服务器中获取大多数不需要的对象:

git clone --depth 1 --no-checkout --filter=blob:none \
  "file://$(pwd)/server_repo" local_repo
cd local_repo
git checkout master -- mydir/myfile

服务器应配置为:

git config --local uploadpack.allowfilter 1
git config --local uploadpack.allowanysha1inwant 1

自v2.19.0起没有服务器支持,但它已经可以在本地测试。

TODO:--filter=blob:none跳过所有blob,但仍然获取所有树对象。但是在正常的回购中,与文件本身相比,这应该很小,所以这已经足够了。当被问到:https://www.spinics.net/lists/git/msg342006.html Devs回答说--filter=tree:0正在努力做到这一点。

请记住,--depth 1已经暗示--single-branch,另见:How do I clone a single branch in Git?

file://$(path)需要克服git clone协议恶作剧:How to shallow clone a local git repository with a relative path?

--filter的格式记录在man git-rev-list上。

对Git远程协议进行了扩展以支持此功能。

Git树上的文档:

测试一下

#!/usr/bin/env bash
set -eu

list-objects() (
  git rev-list --all --objects
  echo "master commit SHA: $(git log -1 --format="%H")"
  echo "mybranch commit SHA: $(git log -1 --format="%H")"
  git ls-tree master
  git ls-tree mybranch | grep mybranch
  git ls-tree master~ | grep root
)

# Reproducibility.
export GIT_COMMITTER_NAME='a'
export GIT_COMMITTER_EMAIL='a'
export GIT_AUTHOR_NAME='a'
export GIT_AUTHOR_EMAIL='a'
export GIT_COMMITTER_DATE='2000-01-01T00:00:00+0000'
export GIT_AUTHOR_DATE='2000-01-01T00:00:00+0000'

rm -rf server_repo local_repo
mkdir server_repo
cd server_repo

# Create repo.
git init --quiet
git config --local uploadpack.allowfilter 1
git config --local uploadpack.allowanysha1inwant 1

# First commit.
# Directories present in all branches.
mkdir d1 d2
printf 'd1/a' > ./d1/a
printf 'd1/b' > ./d1/b
printf 'd2/a' > ./d2/a
printf 'd2/b' > ./d2/b
# Present only in root.
mkdir 'root'
printf 'root' > ./root/root
git add .
git commit -m 'root' --quiet

# Second commit only on master.
git rm --quiet -r ./root
mkdir 'master'
printf 'master' > ./master/master
git add .
git commit -m 'master commit' --quiet

# Second commit only on mybranch.
git checkout -b mybranch --quiet master~
git rm --quiet -r ./root
mkdir 'mybranch'
printf 'mybranch' > ./mybranch/mybranch
git add .
git commit -m 'mybranch commit' --quiet

echo "# List and identify all objects"
list-objects
echo

# Restore master.
git checkout --quiet master
cd ..

# Clone. Don't checkout for now, only .git/ dir.
git clone --depth 1 --quiet --no-checkout --filter=blob:none "file://$(pwd)/server_repo" local_repo
cd local_repo

# List missing objects from master.
echo "# Missing objects after --no-checkout"
git rev-list --all --quiet --objects --missing=print
echo

echo "# Git checkout fails without internet"
mv ../server_repo ../server_repo.off
! git checkout master
echo

echo "# Git checkout fetches the missing file from internet"
mv ../server_repo.off ../server_repo
git checkout master -- d1/a
echo

echo "# Missing objects after checking out d1/a"
git rev-list --all --quiet --objects --missing=print

GitHub upstream

Git v2.19.0中的输出:

# List and identify all objects
c6fcdfaf2b1462f809aecdad83a186eeec00f9c1
fc5e97944480982cfc180a6d6634699921ee63ec
7251a83be9a03161acde7b71a8fda9be19f47128
62d67bce3c672fe2b9065f372726a11e57bade7e
b64bf435a3e54c5208a1b70b7bcb0fc627463a75 d1
308150e8fddde043f3dbbb8573abb6af1df96e63 d1/a
f70a17f51b7b30fec48a32e4f19ac15e261fd1a4 d1/b
84de03c312dc741d0f2a66df7b2f168d823e122a d2
0975df9b39e23c15f63db194df7f45c76528bccb d2/a
41484c13520fcbb6e7243a26fdb1fc9405c08520 d2/b
7d5230379e4652f1b1da7ed1e78e0b8253e03ba3 master
8b25206ff90e9432f6f1a8600f87a7bd695a24af master/master
ef29f15c9a7c5417944cc09711b6a9ee51b01d89
19f7a4ca4a038aff89d803f017f76d2b66063043 mybranch
1b671b190e293aa091239b8b5e8c149411d00523 mybranch/mybranch
c3760bb1a0ece87cdbaf9a563c77a45e30a4e30e
a0234da53ec608b54813b4271fbf00ba5318b99f root
93ca1422a8da0a9effc465eccbcb17e23015542d root/root
master commit SHA: fc5e97944480982cfc180a6d6634699921ee63ec
mybranch commit SHA: fc5e97944480982cfc180a6d6634699921ee63ec
040000 tree b64bf435a3e54c5208a1b70b7bcb0fc627463a75    d1
040000 tree 84de03c312dc741d0f2a66df7b2f168d823e122a    d2
040000 tree 7d5230379e4652f1b1da7ed1e78e0b8253e03ba3    master
040000 tree 19f7a4ca4a038aff89d803f017f76d2b66063043    mybranch
040000 tree a0234da53ec608b54813b4271fbf00ba5318b99f    root

# Missing objects after --no-checkout
?f70a17f51b7b30fec48a32e4f19ac15e261fd1a4
?8b25206ff90e9432f6f1a8600f87a7bd695a24af
?41484c13520fcbb6e7243a26fdb1fc9405c08520
?0975df9b39e23c15f63db194df7f45c76528bccb
?308150e8fddde043f3dbbb8573abb6af1df96e63

# Git checkout fails without internet
fatal: '/home/ciro/bak/git/test-git-web-interface/other-test-repos/partial-clone.tmp/server_repo' does not appear to be a git repository
fatal: Could not read from remote repository.

Please make sure you have the correct access rights
and the repository exists.

# Git checkout fetches the missing directory from internet
remote: Enumerating objects: 1, done.
remote: Counting objects: 100% (1/1), done.
remote: Total 1 (delta 0), reused 0 (delta 0)
Receiving objects: 100% (1/1), 45 bytes | 45.00 KiB/s, done.
remote: Enumerating objects: 1, done.
remote: Counting objects: 100% (1/1), done.
remote: Total 1 (delta 0), reused 0 (delta 0)
Receiving objects: 100% (1/1), 45 bytes | 45.00 KiB/s, done.

# Missing objects after checking out d1
?f70a17f51b7b30fec48a32e4f19ac15e261fd1a4
?8b25206ff90e9432f6f1a8600f87a7bd695a24af
?41484c13520fcbb6e7243a26fdb1fc9405c08520
?0975df9b39e23c15f63db194df7f45c76528bccb

结论:除了d1/a之外的所有斑点都缺失了。例如。 f70a17f51b7b30fec48a32e4f19ac15e261fd1a4,这是d1/b,在查看d1/之后不在那里。

请注意,root/rootmybranch/mybranch也缺失,但--depth 1隐藏了丢失文件列表中的内容。如果删除--depth 1,它们会显示在丢失文件列表中。


4
投票

在git中你不会在更新之前“签出”文件 - 看起来这就是你所追求的。

许多系统(如clearcase,csv等)要求您在对文件进行更改之前“签出”文件。 Git不需要这个。您克隆存储库,然后在存储库的本地副本中进行更改。

更新文件后,您可以执行以下操作:

git status

查看已修改的文件。您首先要添加要提交到index的那些(index就像要检入的列表):

git add .

要么

git add blah.c

那么git status会告诉你哪些文件被修改了,哪些文件在index准备提交或签入。

要将文件提交到您的存储库副本,请执行:

git commit -a -m "commit message here"

有关手册和指南的链接,请参阅git website


3
投票

以下是仅在git存储库中提取和推送特定文件的完整解决方案:

  1. 首先,您需要使用特殊提示克隆git存储库-no checkout
git clone --no-checkout <git url>
  1. 下一步是使用以下命令删除索引中的未分级文件:
git reset
  1. 现在,您可以使用以下命令开始提取要更改的文件:
git checkout origin/master <path to file>
  1. 现在,存储库文件夹包含您可以立即开始编辑的文件。编辑后,您需要执行简单和熟悉的命令序列。
git add <path to file>
git commit -m <message text>
git push

另请参阅link了解更多信息。


1
投票

听起来你正试图从集中版本控制中继承一个想法,git本质上不是 - 它是分布式的。如果你想使用git存储库,你可以克隆它。然后,您拥有工作树的所有内容,以及所有历史记录(以及至少导致当前分支的提示的所有内容),而不仅仅是单个文件或来自单个提交的快照。

 git clone /path/to/repo
 git clone git://url/of/repo
 git clone http://url/of/repo

1
投票

如果您需要来自远程Git存储库的特定分支的特定文件,则命令为:

git archive --remote=git://git.example.com/project.git refs/heads/mybranch path/to/myfile |tar xf -

其余的可以从@ VonC的答案中得出:

如果您需要来自主分支的特定文件,它是:

git archive --remote=git://git.example.com/project.git HEAD path/to/myfile |tar xf -

如果您需要标记中的特定文件,则:

git archive --remote=git://git.example.com/project.git mytag path/to/myfile |tar xf -

0
投票

如果您只需要下载文件,则无需使用Git进行查看。

GitHub Mate更容易实现,它是Chrome扩展程序,可让您单击文件图标进行下载。还有open source


0
投票

我没有看到这里列出的对我有用的东西所以如果有人在我的情况下我会包括它。

我的情况是,我有一个可能有10,000个文件的远程存储库,我需要为我的Linux系统构建一个RPM文件。 RPM的构建包括一切的git克隆。我只需要一个文件来启动RPM构建。我可以克隆整个源代码树,它可以完成我需要的工作,但是当我需要的是一个时,需要额外的两分钟来下载所有这些文件。我尝试使用讨论的git存档选项,我得到了“致命:协议不支持操作。”似乎我必须在服务器上启用某种存档选项,而我的服务器由看似喜欢制作的官僚暴徒维护把事情搞得很难。

我最后做的是我进入了bitbucket的web界面并查看了我需要的一个文件。我右键单击该链接以下载文件的原始副本,并从生成的弹出窗口中选择“复制快捷方式”。我不能只下载原始文件,因为我需要自动化,我的Linux服务器上没有浏览器界面。

为了便于讨论,这导致了URL:

https://ourArchive.ourCompany.com/projects/ThisProject/repos/data/raw/foo/bar.spec?at=refs%2Fheads%2FTheBranchOfInterest

我无法直接从bitbucket存储库下载此文件,因为我需要先登录。经过一番挖掘,我发现这很有效:在Linux上:

echo "myUser:myPass123"| base64
bXlVc2VyOm15UGFzczEyMwo=

curl -H 'Authorization: Basic bXlVc2VyOm15UGFzczEyMwo=' 'https://ourArchive.ourCompany.com/projects/ThisProject/repos/data/raw/foo/bar.spec?at=refs%2Fheads%2FTheBranchOfInterest' > bar.spec

这个组合允许我下载构建其他所有内容所需的一个文件。


183
投票

首先使用-n选项克隆repo,这将禁止所有文件的默认签出,以及--depth 1选项,这意味着它只获取每个文件的最新版本

git clone -n git://path/to/the_repo.git --depth 1

然后查看您想要的文件,如下所示:

cd the_repo
git checkout HEAD name_of_file

0
投票

我正在添加这个答案作为正式结账或类似的本地操作的替代方案。假设您可以访问Git提供程序的Web界面,您可以直接查看给定所需提交的任何文件。例如,在GitHub上你可以使用类似的东西:

https://github.com/hubotio/hubot/blob/ed25584f/src/adapter.coffee

这里ed25584f是感兴趣的提交的SHA-1哈希中的前8个字符,后面是源文件的路径。

相似,在Bitbucket我们可以尝试:

https://bitbucket.org/cofarrell/stash-browse-code-plugin/src/06befe08

在这种情况下,我们将提交哈希放在源URL的末尾。


-1
投票

git submodule是最安全的方式。


-3
投票

如果您已编辑文件的本地版本并希望恢复到中央服务器上维护的原始版本,则可以使用Git Extensions轻松实现。

  • 最初,该文件将被标记为提交,因为它已被修改
  • 在文件树菜单中选择(双击)该文件
  • 将列出单个文件的修订树。
  • 选择树的顶部/ HEAD,然后右键单击另存为
  • 保存文件以覆盖修改后的本地文件版本
  • 该文件现在具有正确的版本,将不再标记为提交!

简单!


100
投票

如果您已经有git repo的副本,您可以使用git log查看文件的版本以查找hash-id(例如3cdc61015724f9965575ba954c8cd4232c8b42e4),然后您只需键入:

git checkout hash-id path-to-file

这是一个实际的例子:

git checkout 3cdc61015724f9965575ba954c8cd4232c8b42e4 /var/www/css/page.css

51
投票

通常,如果没有按照第一个答案中的建议下载整个存储库,则无法从git下载一个文件。这是因为Git不像您想象的那样存储文件(如CVS / SVN那样),但它会根据项目的整个历史记录生成文件。

但是针对具体案例有一些解决方法。见下文:

GitHub上

如果此文件在github.com上,请尝试例如:

wget https://raw.githubusercontent.com/user/project/master/README

的GitWeb

如果您正在使用Git on the Server - GitWeb,那么您可以尝试示例(将其更改为正确的路径):

wget "http://example.com/gitweb/?p=example;a=blob_plain;f=README.txt;hb=HEAD"

Dritalcode.org上的GitWeb

例:

wget "http://drupalcode.org/project/ads.git/blob_plain/refs/heads/master:/README.md"

Google source.com

有一个未记录的功能,允许您下载原始文件的base64编码版本:

curl "https://chromium.googlesource.com/chromium/src/net/+/master/http/transport_security_state_static.json?format=TEXT" | base64 --decode

在其他情况下,检查您的Git存储库是否使用任何Web界面。

如果它没有使用任何Web界面,您可以考虑将代码推送到外部服务,如GitHubBitbucketetc。并用它作为镜子。

如果您没有安装wget,请尝试curl -O (url)


38
投票

git checkout branch_or_version - 路径/文件

例如:git checkout HEAD -- main.c


37
投票

Minimal Guide

git checkout -- <filename>


参考:https://git-scm.com/docs/git-checkout

Dup:Undo working copy modifications of one file in Git?


24
投票

现在我们可以!由于这是谷歌的第一个结果,我想我会更新到最新的站点。随着git 1.7.9.5的出现,我们有了git archive命令,它允许您从远程主机检索单个文件。

git archive --remote=git://git.foo.com/project.git HEAD:path/in/repo filename | tar -x

在这里查看答案https://stackoverflow.com/a/5324532/290784


22
投票

在GIT 1.7.2.2中工作

例如,你有一个带分支branch1,branch32的远程some_remote

所以要签出一个特定的文件,你可以调用这个命令:

git checkout remote/branch path/to/file

作为一个例子,它将是这样的

git checkout some_remote/branch32 conf/en/myscript.conf
git checkout some_remote/branch1 conf/fr/load.wav

这个checkout命令会将整个文件结构conf / en和conf / fr复制到你调用这些命令的当前目录中(当然我假设你之前在某个时候运行了git init)


13
投票

非常简单:

git checkout from-branch-name -- path/to/the/file/you/want

这不会检查from-branch-name分支。您将继续使用您所在的任何分支,并且只会从指定的分支中检出该单个文件。

这是git-checkout手册页的相关部分

git checkout [-p|--patch] [<tree-ish>] [--] <pathspec>...
       When <paths> or --patch are given, git checkout does not switch
       branches. It updates the named paths in the working tree from the
       index file or from a named <tree-ish> (most often a commit). In
       this case, the -b and --track options are meaningless and giving
       either of them results in an error. The <tree-ish> argument can be
       used to specify a specific tree-ish (i.e. commit, tag or tree) to
       update the index for the given paths before updating the working
       tree.

帽子提示Ariejan de Vroom从这个blog post教我这个。

© www.soinside.com 2019 - 2024. All rights reserved.