听说你会 Python (2):Python 高阶数据结构解析
前言
之前写过一篇《听说你会 Python ?》的文章,大家反响都还不错,那么我想干脆把这个文章做成一个系列,继续讲解一下 Python 当中那些不为人知的细节吧。然后之前在和师父川爷讨论面试的时候,川爷说了一句“要是我,我就考考你们怎么去实现一个 namedtuple
,好用,方便,又能区分人”,说者无心,听者有意,我于是决定在这次的文章中,和大家聊一聊 Python 中一个特殊的高阶数据结构, namedtuple 的实现。
Let’s begin
namedtuple
介绍
tuple
是 Python 中 build-in 的一种特殊的数据结构,它是一种 immutable 的数据集合,我们经常会这样使用它
1 | def test(): |
Right,很多时候我们会直接使用 tuple
来进行一些数据的 packing/unpacking 的操作。OK,关于 tuple
的科普就到这里。那么什么是 namedtuple
呢,恩,前面不是说了 tuple
是一种特殊的数据集合么,那么 namedtuple
是其一个进阶(这不是废话么)。它将会基础的 tuple
抽象成一个类,我们将自行定义变量的名称和类的名称,这样我们可以很方便的将其复用并管理。具体的用法我们可以看看下面这个例子
1 | if __name__ == '__main__': |
恩,这样看起来貌似更直观了点,但是,但是,但是,我猜你肯定想知道 namedtuple
是怎么实现的,那么我们先来看看代码吧
详解
1 | _class_template = '''\ |
这,这,这,这特么什么玩意儿啊!没事,我们慢慢来看。
首先,下面这一部分代码,将会校验我们传入的数据是否符合要求
1 | if isinstance(field_names, basestring): |
接着,便是我们 namedtuple
的核心代码
1 | class_definition = _class_template.format( |
你是不是想说,what the fuck!我知道,class_definition
、 _repr_template
和 _field_template
是前面所定义的字符串模板
1 | _class_template = '''\ |
但是其余的是什么鬼啊!别急,字符串模板我们先放在一边,我们先来看看后面的一段代码
1 | namespace = dict(_itemgetter=_itemgetter, __name__='namedtuple_%s' % typename, |
在这段代码中,首先 namespace
变量是一个字典,里面设置了一些变量的存在,紧接就是 exec class_definition in namespace
。众所周知,Python 是一门动态语言,在 Python 中,解释器允许我们在运行时,生成一些包含了符合 Python 语法语句的字符串,并用 exec
将其作为 Python 代码进行执行。同时在我们生成一些语句字符串的时候,我们可能会使用一些自定义的变量,于是,我们需要提供一个 dict
供其进行变量的查找。知道前面这些知识点后,exec class_definition in namespace
的作用是不是就很清楚了捏。
好了,我们再回过头去看 class_definition
定义。不过我们直接看未格式化之前的模板未免的太过于枯燥和难懂了,我们干脆以前面举过的一个例子来看看格式化后的 class_definition
吧~
1 | class fuck(tuple): |
好了,让我们一点点来分析,首先 class fuck(tuple)
指明我们创建的 fuck
类是继承自 tuple
。紧接着 __new__
是 Python 对象系统中的一个特殊方法,用于我们的实例化的操作,其在 __init__
之前便被触发,其是一个特殊的静态方法,我们可以将其用于实例缓存等特殊的功能。在这里,__new__
将会返回一个 tuple
的实例。
接下来的是是一些特殊的私有方法,代码很好懂,我们就不细讲了,接着我们来看看这样一段代码
1 | x = _property(_itemgetter(0), doc='Alias for field number 0') |
你可能还不知道这两段代码用来是干什么的233,没事儿,我们慢慢来。
还记得前面我们举过的一个例子么
1 | if __name__ == '__main__': |
你可能会突发奇想,要是我们执行 a.x=1
这样的操作会怎样呢?OK,你会发现,Python 会抛出一个异常叫做 AttributeError: can't set attribute
,嗯哼,讲到这里,你可能就知道前面提到的包含 property
的两行代码作用就是保证 namedtuple
的 immutable 的特性。那么你可能还是不知道这是为什么。这和 Python 增加的描述符机制有关
扩展(1):Python 中的描述符
首先我们要明确一点,描述符指的是实现了描述符协议的特殊的类,三个描述符协议指的是 __get__
, ‘set‘ , __delete__
以及 Python 3.6 中新增的 __set_name__
方法,其中实现了 __get__
以及 __set__
/ __delete__
/ __set_name__
的是 Data descriptors ,而只实现了 __get__
的是 Non-Data descriptor
。那么有什么区别呢,前面说了, 我们如果调用一个属性,那么其顺序是优先从实例的 __dict__
里查找,然后如果没有查找到的话,那么一次查询类字典,父类字典,直到彻底查不到为止。 但是,这里没有考虑描述符的因素进去,如果将描述符因素考虑进去,那么正确的表述应该是我们如果调用一个属性,那么其顺序是优先从实例的 __dict__
里查找,然后如果没有查找到的话,那么一次查询类字典,父类字典,直到彻底查不到为止。其中如果在类实例字典中的该属性是一个 Data descriptors
,那么无论实例字典中存在该属性与否,无条件走描述符协议进行调用,在类实例字典中的该属性是一个 Non-Data descriptors
,那么优先调用实例字典中的属性值而不触发描述符协议,如果实例字典中不存在该属性值,那么触发 Non-Data descriptor
的描述符协议。
可能这讲完了,你还是不清楚和前面问题有什么关联,没事儿,我们接下来会讲讲 property
的实现
扩展(2):Property 详解
首先我们来看看关于 Property 的实现
1 | class Property(object): |
当我们执行完这两句语句时
1 | x = _property(_itemgetter(0), doc='Alias for field number 0') |
我们的 x
和 y
就变成了一个 property
对象的实例,它们也是一个描述符,还记得我们前面讲的么,当一个变量/成员成为一个描述符后,它将改变正常的调用逻辑,现在当我们 a.x=1
的时候,因为我们的x是一个 Data descriptors ,那么不管我们的实例字典中是否有 x
的存在,我们都会触发其 __set__
方法,由于在我们初始化 x
和 y
两个变量时,没有给予其传入 fset
的方法,因此,我们 __set__
方法在运行过程中将会抛出 AttributeError("can't set attribute")
的异常,这也保证了 namedtuple
遵循了 tuple
的 immutable 的特性!是不是很优美!Amazing!
吐槽向
其实很多人不知道我为什么选择 namedtuple
来作为本期的主题,其实很简单呀,namedtuple
中预定义模板,格式化,然后用 exec
函数进行执行这一套方法,是目前 Python 中主流模板引擎的核心原理。某种意义上讲,你在吃透这一点后,你也掌握了怎样去实现一个简易模板引擎的方法,如果大家有兴趣,我们可以下次一起来写一个简单的模板引擎。还有就是在 namedtuple
对于 Python 中的一些高阶特性使用的简直优美无比,这也是我们学习的好例子。
最后的最后,作为另一个写的非常优美的例子,我将 orderdict
的代码贴出来,大家可以下来看看,然后评论区我们讨论一个!
1 | class OrderedDict(dict): |
参考目录
听说你会 Python (2):Python 高阶数据结构解析
https://manjusaka.blog/posts/2016/12/28/Someone-tell-me-that-you-think-Python-is-simple-2/