Сообщить об ошибке.

База данных, основанная словаре Python

В данном разделе представлен класс DbDict(), созданный Раймондом Хеттингером, представляющий key-value хранилище, основанное на типе данных dict Python.

Класс полезен, когда поиск и скорость изменения/добавления данных важнее, чем время, потраченное на начальную загрузку и окончательную обратную запись.

  • Объект DbDict обеспечивает полную поддержку типа словарь.
  • Загружает файл полностью в память и оставляет его там для быстрого доступа к dict, а затем записывает полный dict при закрытии с атомарной фиксацией.
  • Запись на диск задерживается до закрытия или синхронизации, аналогично быстрому режиму gdbm.
  • Операции с DbDict() выполняются так же быстро, как с обычным словарем.
  • Поддерживаемые форматы выходных файлов: CSV, JSON и Pickle.
  • Все три формата сериализации подкреплены быстрой реализацией языка С.
  • Формат входного файла определяется автоматически.

Посмотрите примеры использования класса.

# dbdict.py
import pickle, json, csv, os, shutil

class DbDict(dict):
    ''' Persistent dictionary with an API compatible with shelve and anydbm.

    The dict is kept in memory, so the dictionary operations run as fast as
    a regular dictionary.

    Write to disk is delayed until close or sync (similar to gdbm's fast mode).

    Input file format is automatically discovered.
    Output file format is selectable between pickle, json, and csv.
    All three serialization formats are backed by fast C implementations.

    '''

    def __init__(self, filename, flag='c', mode=None, format='pickle', *args, **kwds):
        self.flag = flag                    # r=readonly, c=create, or n=new
        self.mode = mode                    # None or an octal triple like 0644
        self.format = format                # 'csv', 'json', or 'pickle'
        self.filename = filename
        if flag != 'n' and os.access(filename, os.R_OK):
            fileobj = open(filename, 'rb' if format=='pickle' else 'r')
            with fileobj:
                self.load(fileobj)
        dict.__init__(self, *args, **kwds)

    def sync(self):
        'Write dict to disk'
        if self.flag == 'r':
            return
        filename = self.filename
        tempname = filename + '.tmp'
        fileobj = open(tempname, 'wb' if self.format=='pickle' else 'w')
        try:
            self.dump(fileobj)
        except Exception:
            os.remove(tempname)
            raise
        finally:
            fileobj.close()
        shutil.move(tempname, self.filename)    # atomic commit
        if self.mode is not None:
            os.chmod(self.filename, self.mode)

    def close(self):
        self.sync()

    def __enter__(self):
        return self

    def __exit__(self, *exc_info):
        self.close()

    def dump(self, fileobj):
        if self.format == 'csv':
            csv.writer(fileobj).writerows(self.items())
        elif self.format == 'json':
            json.dump(self, fileobj, separators=(',', ':'))
        elif self.format == 'pickle':
            pickle.dump(dict(self), fileobj, 2)
        else:
            raise NotImplementedError('Unknown format: ' + repr(self.format))

    def load(self, fileobj):
        # try formats from most restrictive to least restrictive
        for loader in (pickle.load, json.load, csv.reader):
            fileobj.seek(0)
            try:
                return self.update(loader(fileobj))
            except Exception:
                pass
        raise ValueError('File not in a supported format')

Примеры использования предложенного класса:

import dbdict, random, pprint

# Создать и использовать сохраняемый словарь
with dbdict.DbDict('demo.json', 'c', format='json') as db:
    db['abc'] = '123'
    db['rand'] = random.randrange(10000)


# Вносим изменения
with dbdict.DbDict('demo.json', 'c', format='json') as db:
    db['float'] = 15.5
    db['dict'] = {'str': 'новая строка', 'int': 10, 'float': 1.25}
    del db['abc']

# Извлекаем данные
with dbdict.DbDict('demo.json', 'c', format='json') as db:
    a = db['float']
    b = db['dict']

print(a, type(a))
print(b['int'], type(b['int']))
print(b['float'], type(b['float']))
print(b['str'], type(b['str']))

print('\nСмотрим как файл выглядит на диске:')
with open('demo.json', 'rb') as f:
    pprint.pprint(f.read(), width=60)
    
    
# 15.5 <class 'float'>
# 10 <class 'int'>
# 1.25 <class 'float'>
# новая строка <class 'str'>

# Смотрим как файл выглядит на диске:
# (b'{"rand":4996,"float":15.5,"dict":{"str":"\\u043d\\u043'
#  b'e\\u0432\\u0430\\u044f \\u0441\\u0442\\u0440\\u043e\\u04'
#  b'3a\\u0430","int":10,"float":1.25}}')