跳至主要内容

从代码库中移除敏感数据

如果您将敏感数据提交到 Git 代码库,则可以将其从历史记录中移除。

关于从代码库中移除敏感数据

在使用 git filter-repo 或 BFG Repo-Cleaner 等工具更改代码库历史记录时,务必了解其影响,尤其是在开放的拉取请求和敏感数据方面。

git filter-repo 工具和 BFG Repo-Cleaner 会重写代码库的历史记录,这会更改您更改的现有提交以及任何相关提交的 SHA。更改的提交 SHA 可能会影响代码库中的开放拉取请求。我们建议在从代码库中移除文件之前合并或关闭所有开放的拉取请求。

您可以使用 git rm 从最新提交中移除文件。有关移除使用最新提交添加的文件的信息,请参阅“关于 GitHub 上的大文件”。

关于敏感数据泄露

本文介绍如何使包含敏感数据的提交在 GitHub.com 上的代码库中的任何分支或标签都无法访问。但是,这些提交可能在其他地方仍然可以访问

  • 在代码库的任何克隆或派生中
  • 通过 GitHub 上缓存视图中的 SHA-1 哈希值直接访问
  • 通过引用它们的任何拉取请求

您无法从其他用户的代码库克隆中移除敏感数据,但您可以通过联系我们(通过 GitHub 支持门户)永久移除缓存视图和拉取请求中对敏感数据的引用。

重要

GitHub 支持不会移除非敏感数据,并且仅在确定无法通过轮换受影响的凭据来降低风险的情况下,才会协助移除敏感数据。

将提交推送到 GitHub 后,应将提交中的任何敏感数据视为已泄露。如果您提交了密码,则应更改它。如果您提交了密钥,则应生成一个新的密钥。

如果引入敏感数据的提交存在于任何派生中,则它将继续在该派生中可访问。您需要与派生的所有者协调,要求他们移除敏感数据或完全删除派生。GitHub 无法提供这些所有者的联系信息。

在决定是否重写代码库历史记录时,请考虑这些限制和挑战。

从代码库的历史记录中清除文件

您可以使用 git filter-repo 工具或 BFG Repo-Cleaner 开源工具从代码库的历史记录中清除文件。

注意

如果敏感数据位于识别为二进制文件的文件中,则需要从历史记录中移除该文件,因为您无法修改它以移除或替换数据。

使用 BFG

BFG Repo-Cleaner 是一个由开源社区构建和维护的工具。它提供了一种比 git filter-repo 更快速、更简单的替代方法来移除不需要的数据。

例如,要移除包含敏感数据的文件并保持最新提交不变,请运行

bfg --delete-files YOUR-FILE-WITH-SENSITIVE-DATA

要替换代码库历史记录中找到的所有 passwords.txt 中列出的所有文本,请运行

bfg --replace-text passwords.txt

移除敏感数据后,必须强制推送更改到 GitHub。强制推送会重写代码库历史记录,从而从提交历史记录中移除敏感数据。如果您强制推送,则可能会覆盖其他人基于其工作构建的提交。

git push --force

请参阅 BFG Repo-Cleaner 的文档以获取完整的用法和下载说明。

使用 git filter-repo

警告

如果您在隐藏更改后运行 git filter-repo,则将无法使用其他隐藏命令检索您的更改。在运行 git filter-repo 之前,我们建议取消隐藏您所做的任何更改。要取消隐藏您隐藏的最后一组更改,请运行 git stash show -p | git apply -R。有关更多信息,请参阅 Git 工具 - 隐藏和清理

为了说明 git filter-repo 的工作原理,我们将向您展示如何从代码库的历史记录中移除包含敏感数据的文件,并将其添加到 .gitignore 中以确保不会意外地重新提交它。

  1. 安装 git filter-repo 工具的最新版本。您可以手动安装 git-filter-repo 或使用包管理器。例如,要使用 HomeBrew 安装该工具,请使用 brew install 命令。

    brew install git-filter-repo
    

    有关更多信息,请参阅 newren/git-filter-repo 代码库中的 INSTALL.md

  2. 如果您尚未在本地拥有包含敏感数据历史记录的存储库副本,请克隆存储库到您的本地计算机。

    $ git clone https://github.com/YOUR-USERNAME/YOUR-REPOSITORY
    > Initialized empty Git repository in /Users/YOUR-FILE-PATH/YOUR-REPOSITORY/.git/
    > remote: Counting objects: 1301, done.
    > remote: Compressing objects: 100% (769/769), done.
    > remote: Total 1301 (delta 724), reused 910 (delta 522)
    > Receiving objects: 100% (1301/1301), 164.39 KiB, done.
    > Resolving deltas: 100% (724/724), done.
    
  3. 导航到存储库的工作目录。

    cd YOUR-REPOSITORY
    
  4. 运行以下命令,将PATH-TO-YOUR-FILE-WITH-SENSITIVE-DATA替换为**您要删除的文件的路径,而不仅仅是文件名**。这些参数将

    • 强制 Git 处理(但不签出)每个分支和标签的完整历史记录

    • 删除指定的文件,以及由此产生的任何空提交

    • 删除某些配置,例如存储在.git/config文件中的远程 URL。您可能需要提前备份此文件以供以后恢复。

    • 覆盖您现有的标签

        $ git filter-repo --invert-paths --path PATH-TO-YOUR-FILE-WITH-SENSITIVE-DATA
        Parsed 197 commits
        New history written in 0.11 seconds; now repacking/cleaning...
        Repacking your repo and cleaning out old unneeded objects
        Enumerating objects: 210, done.
        Counting objects: 100% (210/210), done.
        Delta compression using up to 12 threads
        Compressing objects: 100% (127/127), done.
        Writing objects: 100% (210/210), done.
        Building bitmaps: 100% (48/48), done.
        Total 210 (delta 98), reused 144 (delta 75), pack-reused 0
        Completely finished after 0.64 seconds.
      

      重要

      如果包含敏感数据的文件曾经存在于任何其他路径(因为它已被移动或重命名),则也必须在这些路径上运行此命令。

  5. 将包含敏感数据的文件添加到.gitignore,以确保您不会意外地再次提交它。

    $ echo "YOUR-FILE-WITH-SENSITIVE-DATA" >> .gitignore
    $ git add .gitignore
    $ git commit -m "Add YOUR-FILE-WITH-SENSITIVE-DATA to .gitignore"
    > [main 051452f] Add YOUR-FILE-WITH-SENSITIVE-DATA to .gitignore
    >  1 files changed, 1 insertions(+), 0 deletions(-)
    
  6. 仔细检查您是否已从存储库的历史记录中删除了所有想要删除的内容,以及所有分支是否都已签出。

  7. git filter-repo工具将自动删除您配置的远程。使用git remote set-url命令恢复您的远程,将OWNERREPO替换为您存储库的详细信息。有关更多信息,请参阅“管理远程存储库”。

    git remote add origin https://github.com/OWNER/REPOSITORY.git
    
  8. 一旦您对存储库的状态感到满意,并且已设置了相应的远程,请强制推送您的本地更改以覆盖 GitHub.com 上的存储库,以及您已推送的所有分支。强制推送是必需的,以便从您的提交历史记录中删除敏感数据。

    $ git push origin --force --all
    > Counting objects: 1074, done.
    > Delta compression using 2 threads.
    > Compressing objects: 100% (677/677), done.
    > Writing objects: 100% (1058/1058), 148.85 KiB, done.
    > Total 1058 (delta 590), reused 602 (delta 378)
    > To https://github.com/YOUR-USERNAME/YOUR-REPOSITORY.git
    >  + 48dc599...051452f main -> main (forced update)
    
  9. 为了从已标记的版本中删除敏感文件,您还需要对 Git 标签进行强制推送

    $ git push origin --force --tags
    > Counting objects: 321, done.
    > Delta compression using up to 8 threads.
    > Compressing objects: 100% (166/166), done.
    > Writing objects: 100% (321/321), 331.74 KiB | 0 bytes/s, done.
    > Total 321 (delta 124), reused 269 (delta 108)
    > To https://github.com/YOUR-USERNAME/YOUR-REPOSITORY.git
    >  + 48dc599...051452f main -> main (forced update)
    

完全从 GitHub 中删除数据

在使用 BFG 工具或git filter-repo删除敏感数据并将更改推送到 GitHub 之后,您必须采取更多步骤才能完全从 GitHub 中删除数据。

  1. 通过GitHub 支持门户联系我们,并请求删除 GitHub 上拉请求中缓存的视图和对敏感数据的引用。请提供存储库的名称和/或您需要删除的提交的链接。

    重要

    GitHub 支持不会移除非敏感数据,并且仅在确定无法通过轮换受影响的凭据来降低风险的情况下,才会协助移除敏感数据。

  2. 告诉您的合作者变基而不是合并他们从旧(受污染的)存储库历史记录中创建的任何分支。一个合并提交可能会重新引入您刚刚费力清除的一些或全部受污染的历史记录。

  3. 如果您使用了git filter-repo,则可以跳过此步骤。

    如果您使用了 BFG 工具,重写后,您可以清理本地存储库中对旧历史记录的引用,以便使用以下命令取消引用和垃圾回收(使用 Git 1.8.5 或更高版本)

    $ git reflog expire --expire=now --all
    $ git gc --prune=now
    > Counting objects: 2437, done.
    > Delta compression using up to 4 threads.
    > Compressing objects: 100% (1378/1378), done.
    > Writing objects: 100% (2437/2437), done.
    > Total 2437 (delta 1461), reused 1802 (delta 1048)
    

    注意

    您也可以通过将过滤后的历史记录推送到新的或空的存储库,然后从 GitHub 创建一个新的克隆来实现此目的。

避免将来意外提交

防止贡献者意外提交可以帮助您防止敏感信息泄露。有关更多信息,请参阅“防止组织中数据泄露的最佳实践”。

有一些简单的技巧可以避免提交您不想提交的内容

  • 使用GitHub Desktopgitk等可视化程序来提交更改。可视化程序通常使您更容易查看每次提交将添加、删除和修改哪些文件。
  • 避免在命令行上使用通配符命令git add .git commit -a——请改用git add filenamegit rm filename分别暂存文件。
  • 使用git add --interactive分别查看和暂存每个文件中的更改。
  • 使用git diff --cached查看您已暂存以供提交的更改。只要您不使用-a标志,这将是git commit将产生的确切差异。
  • 为您的存储库启用推送保护,以检测和防止包含硬编码密钥的推送被提交到您的代码库。有关更多信息,请参阅“关于推送保护”。

进一步阅读