博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
映射的弹性键查询
阅读量:5044 次
发布时间:2019-06-12

本文共 3310 字,大约阅读时间需要 11 分钟。

有时候为了方便起见,就算某个键在映射里不存在,我们也希望在通过这个键读取值的时候能得到一个默认值。有两个途径能帮我们达到这个目的,一个是通过 defaultdict 这个类型而不是普通的 dict,另一个是给自己定义一个 dict 的子类,然后在子类中实现 __missing__ 方法。下面将介绍这两种方法。

3.4.1 defaultdict:处理找不到的键的一个选择

 

示例 3-5 在 collections.defaultdict 的帮助下优雅地解决了示例 3-4 里的问题。在用户创建 defaultdict 对象的时候,就需要给它配置一个为找不到的键创造默认值的方法。

 

具体而言,在实例化一个 defaultdict 的时候,需要给构造方法提供一个可调用对象,这个可调用对象会在 __getitem__ 碰到找不到的键的时候被调用,让 __getitem__ 返回某种默认值。

 

比如,我们新建了这样一个字典:dd = defaultdict(list),如果键'new-key' 在 dd 中还不存在的话,表达式 dd['new-key'] 会按照以下的步骤来行事。

 

(1) 调用 list() 来建立一个新列表。

 

(2) 把这个新列表作为值,'new-key' 作为它的键,放到 dd 中。

 

(3) 返回这个列表的引用。

 

而这个用来生成默认值的可调用对象存放在名为 default_factory 的实例属性里。

  示例 3-5 index_default.py:利用 defaultdict 实例而不是setdefault 方法

 

"""创建一个从单词到其出现情况的映射"""import sysimport reimport collectionsWORD_RE = re.compile(r'\w+')index = collections.defaultdict(list)with open('test.txt', encoding='utf-8') as fp:    for line_no, line in enumerate(fp, 1):        for match in WORD_RE.finditer(line):            word = match.group()            colunm_no = match.start() + 1            location = (line_no, colunm_no)            index[word].append(location)# 以字母顺序打印结果for word in sorted(index, key=str.upper):    print(word, index[word])

 

 

把 list 构造方法作为 default_factory 来创建一个defaultdict

 

如果 index 并没有 word 的记录,那么 default_factory 会被调用,为查询不到的键创造一个值。这个值在这里是一个空的列表,然后这个空列表被赋值给 index[word],继而被当作返回值返回,因此.append(location) 操作总能成功。

 

如果在创建 defaultdict 的存在的键会触发 KeyErr。

 

defaultdict 里的 default_factory 只会在__getitem__ 里被调用,在其他的方法里完全不会发挥作用。比如,dd 是个 defaultdictk 是个找不到的键, dd[k] 这个表达式会调用 default_factory 创造某个默认值,而 dd.get(k) 则会返回 None

 

所有这一切背后的功臣其实是特殊方法 __missing__。它会在defaultdict 遇到找不到的键的时候调用 default_factory,而实际上这个特性是所有映射类型都可以选择去支持的。

 

3.4.2 特殊方法__missing__

所有的映射类型在处理找不到的键的时候,都会牵扯到 __missing__方法。这也是这个方法称作“missing”的原因。虽然基类 dict 并没有定义这个方法,但是 dict 是知道有这么个东西存在的。也就是说,如果有一个类继承了 dict,然后这个继承类提供了 __missing__ 方法,那么在 __getitem__ 碰到找不到的键的时候,Python 就会自动调用它,而不是抛出一个 KeyError 异常。

 

__missing__ 方法只会被 __getitem__ 调用(比如在表达式 d[k] 中)。提供 __missing__ 方法对 get 或者__contains__in 运算符会用到这个方法)这些方法的使用没有影响。这也是我在上一节最后的警告中提到,defaultdict 中的default_factory 只对 __getitem__ 有作用的原因。

 

  示例 3-7 StrKeyDict0 在查询的时候把非字符串的键转换为字符串

 

class StrKeyDict0(dict): ➊    def __missing__(self, key):        if isinstance(key, str): ➋             raise KeyError(key)        return self[str(key)] ➌  def get(self, key, default=None):    try:      return self[key] ➍    except KeyError:      return default ➎  def __contains__(self, key):    return key in self.keys() or str(key) in self.keys() ➏

 

StrKeyDict0 继承了 dict

❷ 如果找不到的键本身就是字符串,那就抛出 KeyError 异常。

❸ 如果找不到的键不是字符串,那么把它转换成字符串再进行查找。

get 方法把查找工作用 self[key] 的形式委托给 __getitem__,这样在宣布查找失败之前,还能通过 __missing__ 再给某个键一个机会。

❺ 如果抛出 KeyError,那么说明 __missing__ 也失败了,于是返回default

❻ 先按照传入键的原本的值来查找(我们的映射类型中可能含有非字符串的键),如果没找到,再用 str() 方法把键转换成字符串再查找一次。

 

 

下面来看看为什么 isinstance(key, str) 测试在上面的__missing__ 中是必需的。

 

 

如果没有这个测试,只要 str(k) 返回的是一个存在的键,那么__missing__ 方法是没问题的,不管是字符串键还是非字符串键,它都能正常运行。但是如果 str(k) 不是一个存在的键,代码就会陷入无限递归。这是因为 __missing__ 的最后一行中的 self[str(key)] 会调用 __getitem__,而这个 str(key) 又不存在,于是 __missing__又会被调用。

 

为了保持一致性,__contains__ 方法在这里也是必需的。这是因为 kin d 这个操作会调用它,但是我们从 dict 继承到的 __contains__方法不会在找不到键的时候调用 __missing__ 方法。__contains__里还有个细节,就是我们这里没有用更具 Python 风格的方式——k inmy_dict——来检查键是否存在,因为那也会导致 __contains__ 被递归调用。为了避免这一情况,这里采取了更显式的方法,直接在这个self.keys() 里查询。

 

转载于:https://www.cnblogs.com/xiangxiaolin/p/11581749.html

你可能感兴趣的文章
机器学些技法(9)--Decision Tree
查看>>
静态页面复习--用semantic UI写一个10min首页
查看>>
在Windows下安装64位压缩包版mysql 5.7.11版本的方法
查看>>
drf权限组件
查看>>
输入月份和日期,得出是今年第几天
查看>>
利用mysqldump备份mysql
查看>>
Qt中子窗口全屏显示与退出全屏
查看>>
使用brew安装软件
查看>>
[BZOJ1083] [SCOI2005] 繁忙的都市 (kruskal)
查看>>
吴裕雄 python 机器学习——数据预处理嵌入式特征选择
查看>>
Centos6.4安装JDK
查看>>
201521123069 《Java程序设计》 第4周学习总结
查看>>
线性表的顺序存储——线性表的本质和操作
查看>>
【linux】重置fedora root密码
查看>>
用swing做一个简单的正则验证工具
查看>>
百度坐标(BD-09)、国测局坐标(火星坐标,GCJ-02)和WGS-84坐标互转
查看>>
pig自定义UDF
查看>>
输入名字显示其生日,没有则让输入生日,做记录
查看>>
爬虫综合大作业
查看>>
Kubernetes 运维学习笔记
查看>>