前言
在java文件被编译成class文件存储为二进制字节码后,并不能直接使用,经过类加载,一个类才可以被装载进运行时内存并被使用。因此理解类加载机制才能让我们更深刻地理解我们编写的java代码是如何一步一步的编译成class文件,到如何在内存中正确的使用的过程。复制代码
类加载的时机
类从被加载到虚拟机内存开始,到卸载出内存为止,它的生命周期如上图。其中,验证、准备和解析3个部分统称为连接。加载、验证、准备、初始化和卸载这5个阶段的顺序是确定的,而解析则不一定,解析主要目的是将符号引用转换为直接引用,它某些情况可以在初始化以后才开始,这是为了支持java的运行时绑定。
关于加载什么时候开始,jvm规范中并没有明确约束,由不同虚拟机自己把握,但对于初始化阶段,虚拟机规范严格规定有且只有5种情况必须对类进行初始化:
- 遇到new、getstaic、putstatic或invokestatic这4条字节码指令时,如果类没有进行过初始化,则会触发初始化。
- 使用java.lang.reflect包的方法对类进行反射调用的时候,如果类没有进行过初始化,则会先触发其初始化。
- 当初始化一个类的时候,如果发现其父类还没进行过初始化,则需要触发其父类初始化。
- 当虚拟机启动时,用户需要指定一个要执行的主类,虚拟机会先初始化这个主类。
- 当使用jdk1.7动态语言支持时,如果一个java.lang.invoke.MethodHandle实例最后的解析结果 REF_getStatic、REF_putStatic、REF_invokeStatic的方法句柄,并且这个方法句柄所对应的类没有进行过初始化,则会先触发其初始化。
类加载的过程
加载
加载阶段,虚拟机需要完成3件事:
- 通过一个类的全限定名获取定义此类的二进制字节流。
- 将这个字节流所代表的静态存储结构转换为方法区的运行时数据结构。
- 在内存中生成一个代表这个类的java.lang.Class对象,作为方法区这个类的各种数据结构的访问入口。
上面说获取二进制字节流,而没有明确的说明是class文件中的字节流,因为还有其它获取字节流的方式,例如从jar包中获取、从网络中获取、动态代理运行时生成等。
加载阶段与连接阶段的部分内容是交叉进行的,如:一部分字节码文件格式验证动作。加载阶段尚未完成,连接阶段可能已经开始了。
验证
验证是连接阶段的第一步,这一阶段的目的是为了确保Class文件的字节流中包含的信息符合虚拟机的要求,并且不会危害虚拟机自身的安全。验证阶段大致会完成以下4个阶段的校验动作:文件格式验证、元数据验证、字节码验证和符号引用验证。
1.文件格式验证
这一阶段目的是验证二进制字节流是否符合Class文件格式的规范,并且能被当前版本的虚拟机处理,检测内容包括以下几点:
- 是否以魔数(0xCAFEBABY)开头。
- 主次版本号是否在当前虚拟机处理范围之内。
- 常量池中的常量是否有不支持的常量类型。
- 指向常量的各种索引值中是否有指向不存在的常量或不符合类型的常量。
- CONSTANT_Utf8_info 型常量是否有不符合UTF8数据编码的数据。
- Class文件中各个部分及文件本身是否有被删除的或附加的信息。
这个阶段是基于二进制字节流进行的,只有通过了这个阶段的验证,字节流才会流入方法区中进行存储,后面3个阶段全是基于方法区的存储结构进行的,不会再直接操作字节流。
2.元数据验证
这一阶段主要对字节码的描述信息进行语义分析,以保证其描述信息符合java语言规范,这阶段的验证点可能包括以下几点:
- 这个类是否有父类
- 这个类的父类是否继承了不被允许继承的类(被final 修饰)
- 如果这个类不是抽象类,是否实现了父类或接口中的方法
- 类中的字段、方法是否与父类产生矛盾(覆盖父类的final字段值等)
3.字节码验证
这一阶段目的主要目的是确定程序语义是合法的、符合逻辑的。这个阶段主要对类的字节码进行校验分析,保证该类的方法不会在运行时做出危害虚拟机安全的事:
- 保证任意时刻操作数栈的数据类型与指令代码序列都能配合工作,例如不会出险操作数栈上 int 类型的数据使用时按long类型加载进本地变量表中。
- 保证跳转指令不会跳转到方法体以外的字节码指令上。
- 保证方法体内的类型转化是有效的,可以把一个子类对象赋值给父类数据结构,这是安全的,而不能把父类赋值给子类甚至与它无关系的数据类型,这是危险和不合法的。
4.符号引用验证
这一阶段用来将符号引用转换为直接引用的时候,这个转化将在解析阶段中发生,符号引用验证可以看做是类对自身以外(常量池中各种符号引用)的信息进行匹配性校验,通常需要校验以下内容:
- 符号引用中能否根据字符串的权限定名找到对应的类。
- 在指定类中是否存在符合方法的字段描述符以及简单名称描述的方法和字段。
- 符号引用中的类、字段、方法的访问性是否可以被当前类访问。
准备
准备阶段是正式为类变量分配内存并设置初始值的阶段,这些变量所使用的内存都将在方法区分配。实例变量会在对象实例化的时候跟对象一起在java堆中分配。这里的初始值指的是通常情况下的零值。假设一个类变量定义为:
public static int a=123;
那么变量a初始化的值是0而不是123。如果变量同时是final类型,那么准备阶段就会被赋值为123,不必等到初始化阶段再赋值。
解析
解析阶段是将虚拟机常量池内的符号引用替换为直接引用的过程。解析动作主要针对类或接口、字段、类方法、接口方法、方法类型、方法句柄和调用点限定符7类符号进行。可能大家有疑问Class文件中哪有这么多内容,其实上面也说了,是针对常量池。不管是CLass文件中的方法表还是字段表,不能直接表示的内容,基本都会直接或间接存在常量池中,因此解析过程就是针对常量池中的数据类型进行解析的。
1.类或接口的解析
要把一个从未解析过的符号引用N解析为一个类或接口的直接引用,虚拟机需要完成以下3个步骤:
- 如果C不是一个数组类型,那么虚拟机会把代表N的权限定名传递给D的类加载器去加载这个类C。在加载的过程当中,由于元数据、字节码验证的操作,又可能触发其它类的加载动作,一旦出险任何异常,则解析宣告失败。
- 如果C是一个数组类型,并且数组元素为对象,描述符类似“[Ljava/lang/Integer”的形式按照第一点的规则加载数组元素类型。如果N的描述符如前面所假设的形式,需要加载的类型就是java.lang.Integer,接着由虚拟机生成一个代表次数组维度和元素的数组对象。
- 如果上面的步骤没有任何异常,那么C在虚拟机中实际上已经称为一个有效的类或接口了。解析之前还要进行符号验证,确认D是否具有对C的访问权限,如果不具备则会抛出异常。
2.字段解析
对字段表内class_index项中索引的CONSTANT_Class_info符号引用进行解析,也就是字段所属的类或接口的符号引用,如果解析这个类或符号引用的过程中出现任何异常,都会导致字段符号引用解析的失败。如果解析成功,这个字段对应的类或接口用C表示,接下来沿着A和它的父类/父接口寻找是否有这个字段,如果有会进行权限验证,如果不具备权限则抛出异常。如果这个过程不出错,则会在找到符合字段的时候返回这个字段的直接饮用,查找结束。
3.类(静态)方法解析
类方法解析首先也要首先解析出类方法表class_index项中索引的方法所属的类或接口的符号引用,解析成功用C表示。
- 类方法和接口方法符号引用的常量类型定义是分开的,如果在类方法表中索引类是个接口,直接抛出异常。
- 如果通过了第一步,在类C中查找是否有简单名称和描述符都与目标匹配的方法,有则返回这个方法的直接引用,查找结束。
- 否则在类的父类递归查找是否有这个方法,有则返回直接引用,查找结束。
- 否则在类的接口列表和父接口递归查找,如果存在匹配的方法,说明类C是一个抽象类,查找结束,抛出异常。
- 否则宣告查找失败,抛出异常。
最后如果查找成功返回了直接引用,还要对这个方法进行权限验证,如果不具备权限,则会抛出异常。
接口方法解析
接口方法需要先解析出接口方法表的class_index 项中索引的方法所属的类或接口的符号引用。
- 如果发现class_index 中的索引C是个类而不是接口,直接抛出异常。
- 否则在接口C中查找是否有描述符和名称都匹配的方法,有则返回方法的直接引用,查找结束。
- 否则在其父接口中递归查找,匹配就返回方法的直接引用,查找结束。
- 否则宣告方法查找失败。
初始化
类初始化是类加载过程的最后一步。前面的类加载过程中,除了加载阶段可以自定义类加载器干预之外,其余动作完全由虚拟机主导。到了初始化阶段,才真正开始执行java代码。
我们知道,在前面的准备阶段,已经对类变量分配过内存并设置初始值。在初始化阶段,则是为类变量或其它资源设置程序中声明的值。注意这里仍然是类变量,不包括实例变量。或者明确的说,这一阶段,是执行static关键字修饰的变量或代码块。本质上,初始化是执行类构造器
<client>方法的过程。<client>方法是由编译器自动收集类中所有类变量的赋值动作和静态代码块中的语句合并产生的。编译器收集的顺序是有语句在资源文件中出险的顺序所决定的。
因此平时可能会遇到这种问题:如下代码
public class Client { private static Client client = new Client(); public static int a; public static int b = 0; private Client() { a++; b++; } public static Client getInstance() { return client; } public static void main(String[] args) { Client instance = Client.getInstance(); System.out.println("a= " + Client.a); System.out.println("b= " + Client.b); }}复制代码
输出结果是
a= 1b= 0复制代码
可能有人问为什么,其实把类加载的过程逻辑理清楚,也不是问题。我们知道在类加载的准备阶段会给类变量分配内存和赋初始值。在外部调用Client.getInstance()时,因为之前类没有被加载过,会引发类加载,到了准备阶段就会给类变量赋初始值。赋值顺序同一个类中是按声明的顺序,也就是
client=null;a=0;b=0复制代码
然后解析完开始初始化,按程序声明的值给类变量赋值。首先执行clinet=new Client(),其实关键就是这里new的过程会调用构造函数,调用完后
a=1;b=1;复制代码
接着继续初始化,a只是声明没有赋值,所以没有任何操作,b声明且赋值为0,所以初始化完成后
a=1;b=0;复制代码