JVM垃圾回收机制

一、堆空间基本结构

JVM堆空间主要分为以下几个区域:

  • 年轻代(Young Generation):存储新创建的对象,包含 Eden 区和两个 Survivor 区(S0、S1)
  • 老年代(Old Generation):存储经过多次垃圾回收仍然存活的对象
  • 永久代(PermGen):存储类的元数据(JDK7 及之前)
  • 元空间(Metaspace):JDK8 之后替代永久代,存储类的元数据,位于本地内存

二、内存分配与垃圾回收

2.1 内存分配

新对象优先在Eden区分配
大多数情况下,对象在新生代中Eden区分配,当Eden区满时,虚拟机将发起一次Minor GC。

大对象直接进入老年代
这样可以减少新生代垃圾回收的频率和成本。

  • G1垃圾回收器会根据-XX:G1HeapRegionSize参数设置堆区域大小和-XX:G1MixedGCLiveThresholdPercent参数设置的阈值,来决定哪些对象会直接进入老年代。
  • Paraller Scavenge垃圾回收器中,默认情况下,并没有一个固定的阈值来决定何时直接在老年代分配大对象。而是由虚拟机根据当前的堆内存情况和历史数据动态决定。

长期存活的对象将进入老年代
对象首先会被分配到Eden区,当对象在Eden区经过第一次Minor GC后仍然能够存活,并且能被Survivor容纳的话,将被移动到Survivor中,并将年龄设置为1。
对象在Survivor中每经过一次Minor GC,年龄就加1,当年龄到达一定程度时(默认15),就会被晋升到老年代。

Hotspot 遍历所有对象时,按照年龄从小到大对其所占用的大小进行累积,当累积的某个年龄大小超过了Survivor区的50%时(默认值是50%,可以通过-XX:TargetSurvivorRatio=percent来设置),取这个年龄和MaxTenuringThreshold中更小的一个值,作为新的晋升年龄阈值”。

2.2 垃圾回收

针对HotSpot VM的实现,它里面的GC其实只有两大种:

  • 部分回收(Partial GC):
    • 新生代收集(Minor GC/Young GC):只针对新生代进行垃圾回收
    • 老年代收集(Major GC/Old GC):针对整个堆进行垃圾回收,包括新生代和老年代
    • 混合收集(Mixed GC):针对新生代和部分老年代进行垃圾回收,G1垃圾回收器特有的
  • 整堆收集(Full GC):收集整个Java堆和方法区

2.3 空间分配担保

空间分配担保是为了确保在Minor GC之前,老年代是否有足够空间容纳新生代可能“晋升”的对象。
如果不够,就可能:

  • 提前触发Full GC
  • 或者直接让Minor GC失败

为什么需要空间分配担保?
新生代 GC(Minor GC)时:

  • Eden区 + 一个Survivor区的存活对象
  • 会被复制到另一个Survivor老年代

关键问题:如果Survivor放不下,就必须进入老年代

流程图

1
2
3
4
5
6
7
8
9
10
11
12
13
Minor GC 前:

1. 老年代剩余空间 > 新生代总大小?
├── 是 → Minor GC
└── 否 → 看是否允许担保失败(HandlePromotionFailure)

2. 是否允许 HandlePromotionFailure?
├── 否 → Full GC
└── 是 → 看历史平均晋升大小

3. 老年代剩余空间 > 历史平均晋升大小?
├── 是 → Minor GC(有风险)
└── 否 → Full GC

在较新的 JVM(如 JDK 8 之后)中,-XX:+HandlePromotionFailure这个参数已经不再推荐使用/被忽略

三、死亡对象判断方法

3.1 引用计数法

给对象中添加一个引用计数器:

  • 每当有一个地方引用它,计数器就+1
  • 每当引用失效时,计数器就-1
  • 当计数器为0时,说明对象没有任何引用指向它,可以被回收

缺点:

  • 无法解决循环引用问题:如objAobjB互相引用,但它们都没有被其他对象引用,这时它们的引用计数器都不为0,导致无法被回收。

3.2 可达性分析算法

JVM通过一系列称为GC Roots的对象作为起点,进行可达性分析,节点所走过的路径被称为引用链,当一个对象到GC Roots没有任何引用链相连的话,则证明这个对象是不可达的,可以被回收。

如下图中:Object6 ~ Object10之间虽然有引用关系,但是它们到GC Roots不可达,因此需要被回收。

哪些对象可以作为GC Roots:

  • 虚拟机栈(栈帧中的本地变量表)中引用的对象
  • 本地方法栈中引用的对象
  • 方法区中类静态属性引用的对象
  • 方法区中常量引用的对象
  • 所有被同步锁持有的对象
  • JNI(Java Native Interface)引用的对象

可达性分析算法只能判断对象是否不可达,也就是是否“可以被回收”,
但并不代表一定会被回收。

因为对象在第一次被判定为不可达后,如果重写了 finalize 方法,
还有一次自救的机会。此外,垃圾回收本身不是实时执行的,
JVM 也不保证一定会立即回收这些对象。

因此,不可达对象 ≠ 一定被回收。
不过Java9之后,finalize()方法已经被废弃了,因为它影响了Java语言的安全和GC的性能。

3.3 引用类型总结

强引用

1
Object obj = new Object();
  • 最常见的引用
  • 只要还有强引用指向对象
    • GC永远不会回收
  • 即使是内存溢出,也不会回收强引用对象
  • 是导致内存泄漏的主要原因之一

软引用

1
SoftReference<Object> softRef = new SoftReference<>(new Object());
  • 特点
    • 内存充足:不回收
    • 内存不足:回收
  • 使用场景
    • 缓存
    • JVM会尽量保留,但是为了避免OOM会回收

弱引用

1
WeakReference<Object> weakRef = new WeakReference<>(new Object());
  • 特点
    • 只要GC进行,无论内存是否充足,都会回收
  • 使用场景
    • ThreadLocal的key
    • Map(如WeakHashMap)
  • ThreadLocal为什么会内存泄漏
    • key是弱引用 -> 会被GC回收
    • value是强引用 -> 还在
    • 导致:key没了,value还在(泄露)

虚引用

1
PhantomReference<Object> phantomRef = new PhantomReference<>(new Object(), referenceQueue);
  • 特点
    • 无法通过get()方法获取对象
    • 必须配合ReferenceQueue使用
  • 作用
    • 跟踪对象被GC回收的时机
    • 常用于:
      • 直接内存(Direct Memory)释放
      • 资源清理(比finalize更安全)
引用类型 是否会被回收 使用场景
强引用(Strong Reference) ❌ 不会(只要还引用着) 普通对象
软引用(Soft Reference) ⚠️ 内存不足才回收 缓存
弱引用(Weak Reference) ✅ 下一次 GC 就回收 ThreadLocal、Map
虚引用(Phantom Reference) ⚠️ 必须配合队列 对象回收跟踪

四、垃圾收集算法

4.1 标记-清除算法

标记-清楚算法分为两个阶段:

  • 标记阶段:从GC Roots开始,遍历所有可达对象,并标记它们为存活的对象
  • 清除阶段:遍历整个堆,清除所有未被标记的对象,回收它们占用的内存

缺点:

  • 效率低:需要两次遍历堆,性能较差
  • 内存碎片:清除阶段可能会留下大量不连续的空闲内存,导致内存碎片问题

4.2 复制算法

复制算法原理:
将内存分为两块,每次申请内存时只使用其中的一块,当这一块用完时,就将还存活的对象复制到另一块上,然后一次性清除掉当前使用的内存。

优点:

  • 效率高:只需要一次遍历堆,性能较好
  • 没有内存碎片:每次复制后,内存都是连续的,不会产生碎片

缺点:

  • 内存利用率低:每次只能使用一半的内存,导致内存利用率只有50%

4.3 标记-整理算法

标记-整理算法分为两个阶段:

  • 标记阶段:与标记-清除算法相同,从GC Roots开始,遍历所有可达对象,并标记它们为存活的对象
  • 整理阶段:将所有存活的对象向一端移动,保持它们的相对位置不变,然后清除掉边界以外的内存

优点:

  • 没有内存碎片:通过整理阶段,所有存活对象都被移动到一起,内存是连续的

缺点:

  • 效率较低:需要两次遍历堆,性能较差,

4.4 分代收集算法

分代收集算法基于对象的生命周期假设,将堆内存划分为不同的区域(年轻代、老年代、永久代/元空间),针对不同区域采用不同的垃圾回收算法:

  • 年轻代:使用复制算法,因为大多数对象在这里很快就会
  • 老年代:使用标记-整理算法,因为老年代的对象存活时间较长,内存利用率更重要
  • 永久代/元空间:存储类的元数据,使用标记-清除算法,因为类的元数据通常较少且不频繁回收

五、垃圾回收器

  • Serial收集器(复制算法):新生代单线程收集器,标记和清理都是单线程,优点是简单高效;
  • ParNew收集器(复制算法):新生代收并行集器,实际上是Serial收集器的多线程版本,在多核CPU环境下有着比Serial更好的表现;
  • Parallel Scavenge收集器(复制算法):新生代并行收集器,追求高吞吐量,高效利用CPU。吞吐量=用户线程时间/(用户线程时间+GC线程时间),高吞吐量可以高效率的利用CPU时间,尽快完成程序的运算任务,适合后台应用等对交互相应要求不高的场景;
  • Serial Old收集器(标记-整理算法):老年代单线程收集器,Serial收集器的老年代版本;
  • Parallel Old收集器(标记-整理算法):老年代并行收集器,吞吐量优先,Parallel Scavenge收集器的老年代版本;
  • CMS(Concurrent Mark Sweep)收集器(标记-清除算法):老年代并行收集器,以获取最短回收停顿时间为目标的收集器,具有高并发、低停顿的特点,追求最短GC回收停顿时间。
  • G1(Garbage First)收集器(标记-整理算法):Java堆并行收集器,G1收集器是JDK1.7提供的一个新收集器,G1收集器基于”标记-整理”算法实现,也就是说不会产生内存碎片。此外,G1收集器不同于之前的收集器的一个重要特点是:G1回收的范围是整个Java堆(包括新生代,老年代),而前六种收集器回收的范围仅限于新生代或老年代