日志标签 ‘页框’

Linux页框分配函数的实现(1)-主体分配函数

2012年1月11日

内核中有六个基本的页框分配函数,它们内部经过封装,最终都会调用alloc_pages_node()。这个函数的参数比alloc_pages()多了一个nid,它用来指定节点id,如果nid小于0,则说明在当前节点上分配页框。正确获取到节点id后,接下来调用__alloc_pages()。

static inline struct page *alloc_pages_node(int nid, gfp_t gfp_mask, unsigned int order)
{
        if (nid < 0)
                nid = numa_node_id();

        return __alloc_pages(gfp_mask, order, node_zonelist(nid, gfp_mask));
}

__alloc_pages()第三个参数根据nid和gfp_mask得到适当的zonelist链表,该过程通过node_zonelist()完成。该函数的实现比较简单,其中NODE_DATA()根据nid返回对应的内存节点描述符,而gfp_zonelist()根据flags标志选取对应的内存管理区链表。其实node_zonelist()就是根据flags在相应内存节点的node_zonelists数组中选择一个何时的内存管理区链表zonelist。

static inline int gfp_zonelist(gfp_t flags)
{
        if (NUMA_BUILD && unlikely(flags & __GFP_THISNODE))
                return 1;

        return 0;
}

由于node_zonelists数组的元素个数最大为2,因此gfp_zonelist()返回0或者1。如果flags中设置了__GFP_THISNODE并且NUMA被设置,则表明使用当前节点对应的zonelist,返回1。否则使用备用zonelist,也就是说当本地节点中zone不足时,在其他节点中申请页框。

static inline int gfp_zonelist(gfp_t flags)
{
        if (NUMA_BUILD && unlikely(flags & __GFP_THISNODE))
                return 1;

        return 0;
}

__alloc_pages()内部再次封装__alloc_pages_nodemask()。

static inline struct page *
__alloc_pages(gfp_t gfp_mask, unsigned int order, struct zonelist *zonelist)
{
        return __alloc_pages_nodemask(gfp_mask, order, zonelist, NULL);
}

1. 主体分配函数

现在进入__alloc_pages_nodemask(),它作为页框分配函数的核心部分。该函数可以通过get_page_from_freelist()快速分配所请求的内存,但是大多数情况下调用该函数都会失败,因为通常物理内存的使用情况都比较紧张,这一点从其后if语句中的unlikely就可以看出。

struct page *
__alloc_pages_nodemask(gfp_t gfp_mask, unsigned int order,struct zonelist *zonelist, nodemask_t *nodemask)
{
        enum zone_type high_zoneidx = gfp_zone(gfp_mask);
        struct zone *preferred_zone;
        struct page *page;
        int migratetype = allocflags_to_migratetype(gfp_mask);

        gfp_mask &= gfp_allowed_mask;

        lockdep_trace_alloc(gfp_mask);

        might_sleep_if(gfp_mask & __GFP_WAIT);

        if (should_fail_alloc_page(gfp_mask, order))
                return NULL; 

        if (unlikely(!zonelist->_zonerefs->zone))
                return NULL;            

        first_zones_zonelist(zonelist, high_zoneidx, nodemask, &preferred_zone);
        if (!preferred_zone)
                return NULL;

        page = get_page_from_freelist(gfp_mask|__GFP_HARDWALL, nodemask, order,
                        zonelist, high_zoneidx, ALLOC_WMARK_LOW|ALLOC_CPUSET,
                        preferred_zone, migratetype);
        if (unlikely(!page))
                page = __alloc_pages_slowpath(gfp_mask, order,
                                zonelist, high_zoneidx, nodemask,
                                preferred_zone, migratetype);

        trace_mm_page_alloc(page, order, gfp_mask, migratetype);
        return page;
}

首先,gfp_zone()根据gfp_mask选取适当类型的zone。在经过几项参数检查后,该函数通过zonelist->_zonerefs->zone判断zonelist是否为空,既至少需要一个zone可用。接着根据一开始选取的zone类型high_zoneidx,通过first_zones_zonelist()确定优先分配内存的内存管理区。

如果一切顺利,将会进入get_page_from_freelist(),这个函数可以看作是伙伴算法的前置函数,它通过分配标志和分配阶判断是否能进行此次内存分配。如果可以分配,则它进行实际的内存分配工作,既利用伙伴算法进行分配内存。否则,进入__alloc_pages_slowpath(),此时内核需要放宽一些分配条件,或回收一些系统的内存,然后再调用几次get_page_from_freelist()以申请所需内存。

物理内存管理中的基本数据结构

2011年12月29日

Linux内核在管理内存时将物理内存从逻辑上划分为节点(node),内存管理区(zone),页框(frame page)三级结构。物理内存先被划分为内存节点,每个节点关联一个CPU,各个节点又被划分几个内存管理区,在一个内存管理区中则是页框。页框是内存管理的基本单位,它可以存放任何种类的数据。不过,由于实际中计算机硬件的制约,部分页框的使用受到了限制,内核将具有相同性质的页框进行分类组织,即形成内存管理区。为了兼容NUMA架构的计算机,内核又引入了节点这个概念,每个CPU对应一个节点。

1.page结构

内核使用page结构体描述一个物理页框,该结构也称为页描述符,每个物理页框都关联一个这样的结构体。值得注意的是,page结构仅用来描述一个页框的属性,它不包含该页框中的任何数据。此外,还应该区分页框大小和page结构的大小,页框大小通常为4KB,而page结构的大小即为sizeof(struct page)。

内核在定义page结构时使用了许多联合体,这样做的目的是保证page结构尽可能的小。虽然每个page结构体占很少内存,但是由于实际系统中页框总数量巨大,因此所有页框对应的page结构所占用的内存量也很庞大。下面仅对该结构中的部分字段进行介绍。

flags:它是用来描述页框状态的标志位,更重要的是该字段的高位存放着该页框所关联的页框号、节点内管理区号以及节点号。

__count:表示该页的引用计数,如果该页为-1,表示页框空闲;如果该字段的值为N(N>=0),则说明有N+1个进程正在使用该页。
系统中所有的页描述符都放在mem_map数组中,每个页描述符在数组中的下标即为该描述符对应物理页的页框号。

2.zone结构

内核将整个页框按照不同的访问特性划分为几个区,每个区内的页框都是连续的,这样的区称为内存管理区并使用zone结构来描述。内核中使用了一个枚举类型对内存管理区的类型进行定义:

enum zone_type {
#ifdef CONFIG_ZONE_DMA
	ZONE_DMA,
#endif
#ifdef CONFIG_ZONE_DMA32
	ZONE_DMA32,
#endif
	ZONE_NORMAL,
#ifdef CONFIG_HIGHMEM
	ZONE_HIGHMEM,
#endif
	ZONE_MOVABLE,
	__MAX_NR_ZONES
};

内存管理区是一个逻辑上的概念,它的存在是因为计算机中硬件访问物理内存时有一些限制。因此,每个内存管理区的实际分布是与体系结构相关的,具体分布如下:

ZONE_DMA:某些设备通过DMA方式访问内存时,不能访问到所有的物理内存,此时只能为它们单独划分一块内存管理区。ZONE_DMA的范围根据体系结构而改变,比如X86架构下,ISA总线为16位,因此该区的范围为物理内存的前16M。但是,如果某些架构在内存的任何地址上都可以执行DMA,那么该区域就为空,即长度为0。

ZONE_DMA32:该区的作用与ZONE_DMA相同,只不过它代表的是32位可寻址并适合DMA的物理内存区域。32位的系统中该区域的长度为0,这种区域只会出现在64位的系统中。在某些64位的系统中,该区域的大小可达到4GB。

ZONE_NORMAL:这个区域包含的都是能够正常映射的页框。通过源码中的定义可以发现,所有的体系架构都包含这个区域。但是并不是每个架构下该区都能对应到实际的物理内存,根据上面所述,某些架构下ZONE_DMA32会占据整个4G的物理内存,因此该区域为空。在IA32架构下该内存管理区的范围为16MB到896MB。

ZONE_HIGHMEM:这个区域代表超出内核空间大小的物理内存,这部分内存也被成为高端内存(与之对应ZONE_DMA和ZONE_NORMAL成为低端内存)。在32位的x86系统中,高端内存即为大于896MB的物理内存。而在64位的系统中,高端内存总为空。

ZONE_MOVABLE:这个区域是一个伪内存管理区,它只在防止物理内存碎片机制中使用。

__MAX_NR_ZONES:它用来标记内存管理区的数量。

内存管理区描述符中有许多字段,有些字段理解起来并不简单,因此只介绍部分字段。

watermark:即所谓的水印值数组,它为每个内存区设置合适的内存消耗基准,该水印值随着系统中的空闲内存量而变化。该数组包含三个元素:

1).watermark[WMARK_HIGH]:当系统中空闲页框数大于其值时,表示当前内存使用情况理想。

2).watermark[WMARK_LOW]:如果空闲页框小于其值,表示空闲页量较少,应当换出内存中部分页到磁盘上。

3).watermark[WMARK_MIN]:当空闲页框数小于其值时,表示系统急需空闲页框。

free_area:它表示当前内存管理区中空闲页框。该数组中的每个元素都是一条双链表,链表中的每个元素都是固定大小的连续内存块。

lock:保护当前内存管理区的自旋锁。由于在多处理器的系统中,会出现多个CPU同时访问一个内存管理区的情形,因此需要锁来保护避免数据不一致的现象。

3.pg_data_t结构

节点这个概念是由于NUMA(非一致内存访问)模型而诞生的,该模型只存在于多处理器计算机中。NUMA根据CPU数量将整个物理内存分为几个大块,每块内存即为每个CPU的的本地内存。这样的划分使每个CPU都能以较快的速度访问本地内存,当然每个CPU也可以访问其他CPU的内存只不过速度比较慢而已。上述的每块物理内存对应一个pg_data_t数据结构,每块物理内存即为一个节点,所以的结点形成一个双链表。

与NUMA模型对应的是UMA(一致内存访问)模型,这种模型并不需要将物理内存划分为块,因此也就不存在节点这样的概念。但是为了兼容NUMA模式,UMA模型下的物理内存还是对应一个节点,也就是说整个物理内存形成一个节点,因此上述的节点链表中也就只有一个元素。

struct bootmem_data;
typedef struct pglist_data {
        struct zone node_zones[MAX_NR_ZONES];
        struct zonelist node_zonelists[MAX_ZONELISTS];
        int nr_zones;
#ifdef CONFIG_FLAT_NODE_MEM_MAP /* means !SPARSEMEM */
        struct page *node_mem_map;
#ifdef CONFIG_CGROUP_MEM_RES_CTLR
        struct page_cgroup *node_page_cgroup;
#endif
#endif
#ifndef CONFIG_NO_BOOTMEM
        struct bootmem_data *bdata;
#endif
#ifdef CONFIG_MEMORY_HOTPLUG
        spinlock_t node_size_lock;
#endif
        unsigned long node_start_pfn;
        unsigned long node_present_pages; /* total number of physical pages */
        unsigned long node_spanned_pages; /* total size of physical page
                                             range, including holes */
        int node_id;
        wait_queue_head_t kswapd_wait;
        struct task_struct *kswapd;
        int kswapd_max_order;
} pg_data_t;

node_zones:当前节点中内存管理区描述符数组。这个数组的大小使用__MAX_NR_ZONES来定义。

node_zonelists:它是zonelist结构的数组,长度为MAX_ZONELISTS。如果内核未配置NUMA,则长度为1,否则,长度为2。该数组中0号元素指定了备用的内存管理区链表,也就是当前系统中所有的zone。1号元素指定了当前节点中的管理区链表。除非分配内存时指定了GFP_THISNODE标志而采用本地内存节点上的zonelist,一般均采用备用zonelist。

struct zonelist {
        struct zonelist_cache *zlcache_ptr;                  // NULL or &zlcache
        struct zoneref _zonerefs[MAX_ZONES_PER_ZONELIST + 1];
#ifdef CONFIG_NUMA
        struct zonelist_cache zlcache;                       // optional ...
#endif
};

zonelist结构中管理区链表主要由_zonerefs数组来描述。
nr_zones:当前节点中内存管理区的数量。

node_mem_map:页框描述符数组,该数组中的页框即为当前节点中包含的物理页。

node_id:当前节点的索引,系统中节点从0开始编号。

kswapd:指向负责该节点页交换的守护进程的进程描述符。

这里只是简单的介绍了节点,内存管理区,页框所代表的数据结构,这三个结构贯穿整个内存管理系统中,许多字段的含义以及作用随着对内存管理部分的深入学习才能逐渐加深理解。

windows 7 ultimate product key

windows 7 ultimate product key

winrar download free

winrar download free

winzip registration code

winzip registration code

winzip free download

winzip free download

winzip activation code

winzip activation code

windows 7 key generator

windows 7 key generator

winzip freeware

winzip freeware

winzip free download full version

winzip free download full version

free winrar download

free winrar download

free winrar

free winrar

windows 7 crack

windows 7 crack

windows xp product key

windows xp product key

windows 7 activation crack

windows7 activation crack

free winzip

free winzip

winrar free download

winrar free download

winrar free

winrar free

download winrar free

download winrar free

windows 7 product key

windows 7 product key