pskomoroch + python   1678

*large* python dictionary with persistence storage for quick look-ups - Stack Overflow
No one has mentioned dbm. It is opened like a file, behaves like a dictionary and is in the standard distribution.

From the docs

import dbm

# Open database, creating it if necessary.
db ='cache', 'c')

# Record some values
db[b'hello'] = b'there'
db[''] = 'Python Website'
db[''] = 'Cable News Network'

# Note that the keys are considered bytes now.
assert db[b''] == b'Python Website'
# Notice how the value is now in bytes.
assert db[''] == b'Cable News Network'

# Loop through contents. Other dictionary methods
# such as .keys(), .values() also work.
for k, v in db.iteritems():
print(k, '\t', v)

# Storing a non-string key or value will raise an exception (most
# likely a TypeError).
db[''] = 4

# Close when done.
I would try this before any of the more exotic forms, and using shelve/pickle will pull everything into memory on loading.
dbm  python  memory  dictionary 
july 2017 by pskomoroch
json - Append list of Python dictionaries to a file without loading it - Stack Overflow
If you are looking to not actually load the file, going about this with json is not really the right approach. You could use a memory mapped file… and never actually load the file to memory -- a memmap array can open the file and build an array "on-disk" without loading anything into memory.

Create a memory-mapped array of dicts:

>>> import numpy as np
>>> a = np.memmap('mydict.dat', dtype=object, mode='w+', shape=(4,))
>>> a[0] = {'name':"Joe", 'data':[1,2,3,4]}
>>> a[1] = {'name':"Guido", 'data':[1,3,3,5]}
>>> a[2] = {'name':"Fernando", 'data':[4,2,6,9]}
>>> a[3] = {'name':"Jill", 'data':[9,1,9,0]}
>>> a.flush()
>>> del a
Now read the array, without loading the file:

>>> a = np.memmap('mydict.dat', dtype=object, mode='r')
The contents of the file are loaded into memory when the list is created, but that's not required -- you can work with the array on-disk without loading it.

>>> a.tolist()
[{'data': [1, 2, 3, 4], 'name': 'Joe'}, {'data': [1, 3, 3, 5], 'name': 'Guido'}, {'data': [4, 2, 6, 9], 'name': 'Fernando'}, {'data': [9, 1, 9, 0], 'name': 'Jill'}]
It takes a negligible amount of time (e.g. nanoseconds) to create a memory-mapped array that can index a file regardless of size (e.g. 100 GB) of the file.
dict  array  python  memmap 
july 2017 by pskomoroch
python - Noun phrases with spacy - Stack Overflow
>>> from spacy.en import English
>>> nlp = English()
>>> doc = nlp(u'The cat and the dog sleep in the basket near the door.')
>>> for np in doc.noun_chunks:
>>> np.text
python  noun  spacy  pos 
may 2017 by pskomoroch
mortar-examples/common_crawl_trending_topics.pig at master · mortardata/mortar-examples
%default INPUT_PATH 's3://mortar-example-data/common-crawl/tech_sites_crawl/*.gz'
trendingtopics  commoncrawl  hadoop  pig  udf  python 
may 2017 by pskomoroch
[no title]
# Specify the python command to be used for python streaming udf. By default,
# python is used, but you can overwrite it with a non-default version such as
# python2.7.
# pig.streaming.udf.python.command=python
pig  hadoop  streaming  python 
may 2017 by pskomoroch
« earlier      
per page:    204080120160

related tags

2.4  2.7  3d  23andme  37mm  64bit  abstract  acml  activepython  activerecord  activeresource  acts  adaboost  adagram  address  admin  adobe  ads  advanced  advertising  advice  adwords  agent  aggregation  aggregator  agile  ahocorasick  ai  aim  aiml  airflow  ajax  akka  alarm  alexa  algebra  algorithm  algorithms  als  amazon  amd  ami  anaconda  analysis  analytics  and  andrew_funk  anecdotes  angularjs  animation  ann  annealing  annoy  anomaly  anonymize  ant  ants  aol  apache  apachespark  apartment  api  app  appengine  application  applications  approximate  apt  arb  architecture  argparse  array  arrayterator  art  article  article_extractor  ascii  asin  assignment  assistant  astronomy  async  asynchronous  atacks  athmospheric  atlanta  atlas  attachment  attributes  audio  audioscrobbler  auditory  austin  auth  authentication  authorize  autoincrement  automated  automatic  automation  autoscale  awk  aws  backend  background  backlink  backoff  backtesting  backup  baconsnake  bart  bash  basic  basics  batch  battle  bayes  bayesian  bdpt  beanstalkd  beautifulsoup  before  beginner  benchmark  benchmarking  benchmarks  beowulf  berkeley  bessel  bestpracices  bestpractice  bestpractices  best_practice  bi  bicycle_repair_man  bigdata  bigrams  bigtable  binary  binding  bing  biodefense  bioinformatics  biology  biopython  bioteam  bit  bitbucket  blacs  blas  blast  blitz  blog  bloom  bloomfilter  bluetooth  boilerplate  book  books  boost  bootstrap  BOSS  boston  bot  boto  boto3  bots  bottle  boundary  brainfart  branch  brian_granger  browser  bruno_olshausen  bubble  buffer  build  buildbot  buildpack  bulk  bulk_load  bundle  bz2  c  c++  c3  cache  caffe  cairo  calais  calendar  call  call_for_papers  caltech  camera  campaign  capitolwords  captcha  careercenter  carlo  cartographic  casestudy  catalog  category  cdc  cell  census  cgi  cgtypes  chain  chalice  character  charmingtutorial  chart  charts  chatbot  chatterbot  cheatsheet  check  checker  checksum  chemistry  cherrypy  chess  chessboard  chomsky  chris_mcavoy  cia  cim  cinpy  classifer  classification  classifier  clean  clearbit  cliche  click  clickable  clickstream  client  climate  cloud  cloudera  cluster  clustering  cmemcache  cms  cmu  cnn  co-occur  co-occurence  coclustering  code  codereview  coding  cog  collaboration  collaborative  collaborativefiltering  collaborative_filtering  collaboritve  collection  colormaps  columbia  combat  combination  combinations  combine  combiner  command  commandline  commands  commoncrawl  communication  community  company  comparison  compclust  competition  compiler  complexity  compress  compressed  compression  computation  computational  computer-science  computerscience  computervision  computing  concordance  conda  conference  config  configuration  congress  constraint  construction  consultants  consulting  contacts  containers  contains  content  contest  context  continuous-integration  contribute  contributing  conversion  convert  converter  convex  cooccurence  cookbook  cookie  cookies  coordinate  copy  core  CoreGraphics  corpus  corrector  correlation  corruption  cost  couchdb  count  counter  course  coverage  cpickle  cpp  cprofile  cpu  crawl  crawler  crawlers  crawling  cron  crossproduct  crossvalidation  crossword  cruisecontrol  crunching  crunchy  cryptography  csp  csv  ctypes  curl  custom  d3  d3js  daemon  darwin  darwinport  darwinports  dashboard  data  database  datacleaning  dataframe  dataframes  datamining  datascience  dataset  datastore  datastructure  datastructures  datatype  dataviz  dates  datetime  dbm  dbscan  debian  debug  debugging  decision  decorator  deduplication  deeplearning  defaultdict  delete  delicious  demo  democracy  dense  dependency  deployment  design  designpattern  designpatterns  desktop  detection  developer  development  devops  dfs  dht  diagram  dialogs  dice  dict  dictionaries  dictionary  dictwriter  difflib  diffusion  digg  digits  dimension  dimensionality  disambiguation  discretize  discussion  disease  distance  distribted  distributed  distribution  distutils  division  django  django.root  djangocon  dna  dnc  dobbs  docker  docs  doctest  document  documentation  domain  domains  donation  download  downpour  dowser  drugs  dumbo  duplicate  dynamic  dynamic_programming  dynamodb  earth  easydialogs  easy_install  ebook  ebs  ec2  ec2post  eckel  eclipse  ecommerce  econometrics  economics  edgar  edges  edit  edit-distance  editor  education  egg  eggs  eiegnface  eigenface  eigenvalue  elasticmapreduce  elasticsearch  elasticwulf  election  elefant  element  elementtree  em  emacs  email  EMalgorithm  embed  embedding  embeddings  embedly  emr  emulator  encode  encoder  encoding  energylevels  energy_level  engine  ensemble  enterprise  enthon  enthought  entity  entity_extraction  entropy  environment  epidemics  epidemiology  erlang  error  errors  esri  estimator  evaluation  Eve  event  events  everyblock  example  examples  excel  exception  exceptions  experiments  exponential  expression  extension  extract  extraction  fabric  face  facebook  facerecognition  fact  factextraction  factorization  faker  falsk  fann  faq  fast  febrl  fec  fedora  feed  feedparser  fem  fernando_perez  fetcher  fig  file  filefield  files  filesystem  filter  filtering  finance  fingerprint  finite  finiteelement  fink  FiPy  firefox  firehose  fisher  fit  fix  fixtures  flash  flashcard  flask  flex  flickr  fly  fmri  focused  follower  followers  font  forecast  forecasting  foreign  format  formatting  forms  fortran  forum  fps  fractal  framework  fraud  freakonomics  free  freebase  frequency  friendfeed  from  ftfy  func  function  functional  functions  gae  gallery  game  gamera  games  gametheory  gams  ganglia  garbage  gardenhose  gaussian  gc  generation  generator  generators  genetic  genetic-algorithm  genetics  genomics  gensim  geo  geocoding  geometry  geonames  gephi  gibbs  gif  gis  github  glove  gmail  gmetad  gnuplot  google  googlemaps  google_analytics  google_charts  gorilla_nation  gotchas  government  gpl  gps  gpu  gradientboosting  grammar  graph  graphicalmodel  graphics  graphlab  graphql  graphs  graphviz  grassyknoll  greasemonkey  grep  grid  group  groupby  growl  gsl  gui  guide  guidelines  guido  gz  hack  hackathon  hackdiary  hacker  hackers  hacks  hadoop  hadoopworld  hamming  handling  hang  hardware  harvard  hash  hashes  hausdorff  haystack  hbase  hdf  hdfs  headless  health  heatmap  hedgefund  heroku  herokuku  hierarchy  highlevel  highlight  highlighting  hinton  histogram  hive  hmm  home  hosting  howto  hpc  html  http  hudson  huffman  hull  hyperlocal  hypernym  hypertable  ibm  id  ide  identification  identity  idioms  ignore  image  imagemap  imagenet  imagerecognition  images  imbalanced  imdb  import  imsave  in  index  indexing  indicator  infinite  infobox  infrastructure  inkdroid  inlink  install  installation  installer  installing  installs  integer  integration  intel  intelligent  intensity  interaction  interactive  interestrate  interface  internals  interpretation  interval  interview  interviewing  intro  introspection  inverse  investing  io  iphone  ipython  ipython1  isight  iteration  iterative  iterators  jaccard  japan  java  javascript  jhu  jira  jnumeric  job  joblib  jobs  job_posting  journalism  json  juice  juicesite  junit  jython  kalman  kata  katta  keras  kernel  key-value  keynote  keyvalue  keyword  keywords  kinesis  kmeans  kml  knn  knoppix  knowledgegraph  label  lam  lambda  lamp  language  languages  lapack  large  lastfm  latency  latex  latitude  layout  lbl  lda  lead  leak  learning  least  leastsq  lecture  lectures  legacy  leopard  levenberg-marquardt  levenshtein  libextract  libraries  library  license  lidar  lifehacks  like  lincoln  Lineal  linear  linear_least_squares  linear_programming  linguistics  link  linkedin  links  lint  linux  list  listcomprehension  list_of_lists  literature  live  livecd  livenode  load  loadbalancers  locally  lock  locking  log  logging  logilab  login  logistics  logs  longitude  longtail  loop  lower  lpc  lstm  lucene  luigi  mac  macenthon  machine  machinelearning  machine_learning  mackkay  macosx  macports  magic  mail  malet  management  mangement  manipulation  map  mapping  mapreduce  maps  markdown  marketing  markov  markup  mashup  mat  match  matching  material  materials  math  mathematics  matlab  matlplotlib  matplotlib  matrices  matrix  matrix_multiply  Matthieu_Brucher  mavericks  mcmc  mdp  mds  mean  meanshift  measurment  mechanical  mechanicalturk  mechanize  media  median  memcache  memmap  memoize  memory  memorymap  memory_map  mencoder  mercurial  merge  messaging  metadata  meth  microsoft  middleware  migration  migrations  mike_cariaso  minhash  minimax  missing  missing_data  missing_values  mit  Mitch_Garnaat  mixture  mixturemodel  mlpy  mmap  mmds  mmpi  mnist  mobile  mock  mode  model  models  mod_python  moinmoin  molecular  mondrian  monetize  monitor  monitoring  monkeyrpms  montage  monte  montecarlo  monte_carlo  moses  motion  movie  movielens  mozilla  mpi  mpi4py  mpich  mpipython  mrjob  multicore  multidimensional_scaling  multidimesional  multigrid  multiple  multiplication  multipole  multiprocessing  multivariate  music  mysql  name  named_entity  navigation  nbody  nearest_neighbor  ned  ner  nes  nesdev  nested  nested_sampling  netcdf  netflix  netflixprize  network  networkspaces  networkx  neural  neuralnetwork  neuralnetworks  neuron  neuroscience  news  newsapp  newsfeed  newspaper  next  nginx  ngram  ngrams  nikita  nintendo  nips  nipy  nlp  nltk  nmf  noaa  node  nodebox  nodes  nohup  nolearn  nonlinear  normal_accident_theory  norvig  nose  nosql  notebooks  notes  notification  notifications  noun  numarray  numba  numeric  numerical  numMPI  numpy  nutch  nyc  nyt  nytimes  oauth  objects  object_oriented  ocr  ocropus  odap  offline  olap  olpc  on  onlamp  open  openbayes  opencv  opendap  opennlp  opensearch  opensource  operation  operations  optimization  optimize  options  oracle  orange  orbitz  order  ordered  os  osx  out-of-core  outliers  overlap  p2p  pagerank  pages  pageviews  pagination  pagrank  pairs  pandas  paper  parallel  paramiko  parse  parsely  parser  parsing  partial  particle  pasedena  password  path  pattern  patterns  paver  payment  pca  pdb  pde  pdf  pdftotext  pearson  people  pep  percentile  perez  performance  perl  permutation  person  peter_norvig  petsc  petsc4py  pexpect  pgexf  photos  php  physics  pi  pickle  pickling  pig  PIL  pillow  pizza  plaxo  plone  plot  plots  plsi  pmf  png  podcast  podcasts  poetry  politics  polling  polygon  polyline  pong  popen  population  port  ports  pos  postgis  postgres  pprint  ppt  presentation  presentations  pricing  probability  problem  process  processing  processor  producer  producthunt  productivity  profile  profiling  programmer  programming  progressbar  projects  protocol_buffers  psc  psyco  publicdata  publishing  punctuation  pvm  py-scipy  py2exe  py4science  pyactiveresource  pyacts  pyamazon  pyblosxom  pyc  pyclimate  pycon  pycv  pyExcelerator  pyflakes  pyflix  pyfx  pygraphviz  pyimdb  pylab  pylons  pylucene  pymc  pymedia  pymol  pympi  pymvpa  pypar  pyparse  pypvm  pyrex  pysearch  pyspark  pytables  python  python-constraint  python3  pytorch  pytrilinos  pyunit  quantlib  quartz  queries  query  queryminer  questions  question_answering  queue  Quick  quickstart  quiz  quora  r  rabbitMQ  rails  rake  random  randomforest  random_forest  rank  ranking  ransac  raspberrypi  rating  rbm  rc.local  rdf  react  read  readability  reader  readitlater  readline  realtime  recent  recipes  recognition  recommendation  recommendations  record_linkage  recruiting  recursive  redblacktrees  reddit  redhat  redis  redistributable  reduce  reduction  redwood  refactor  refactoring  reference  references  regex  regexp  regression  regular  reinforcement  rejection  relation  relative  replication  repo  report  request  research  reservoir  resolution  resource  resources  rest  restful  result  retail  retries  reuters  reverse  review  rhyming  ridge  rls  rmse  rnn  robot  robotics  robots  robots.txt  robust  ROC  rocks  rotate  rotating  rpa  rpm  rpy  rpyc  rpython  rrd  rss  rstats  rtree  ruby  runblast  s3  sales  salt  sample  sampling  sanfrancisco  satchmo  save  scalability  scalapack  scale  scaling  scanner  scatter  scatterplot  scent  schedule  scheduler  scheduling  schema  science  scientific  scikit  scikit-learn  scikitlearn  scikits  scikits-learn  scipy  scisoft  scrape  scraper  scraping  scrapy  screencast  screenscrape  screenshot  screenshots  scribe  script  scriptaculous  scripting  scripts  search  searchengine  sec  security  securitygroups  sed  segfault  segmentation  segphrase  selenium  selfie  selinux  sem  semantic  semanticweb  send  seniority  sensegram  sensor  sentence  sentences  sentiment  seo  seq2seq  sequence  serialization  series  server  serverless  service  serving  set  sets  setsimilarity  setuptools  sf  shakespeare  sharding  shared  shell  shelve  shogun  shorten  shortner  shove  show  shuffle  simhash  similarity  similarity_metrics  simple  simpledb  simplejson  simpy  simulatedannealing  simulation  sinatra  SIR  skill  skilling  skills  sklearn  slack  slackbot  slepc  slides  slideshare  sliding  slope1  smoothing  smtp  snippet  snippets  snp  snpedia  soap  social  socialnetwork  socialnetworking  software  solr  solver  som  sonnet  sony  sort  sorting  source  space  spacy  spam  spark  sparklines  sparse  sparta  spatial  spatialanalytics  spec  speed  speedup  spellcheck  spelling  sphinx  spider  spiking  split  spreadscript  sprint  sql  sqlalchemy  sqs  square  squares  src  ssh  stack  stackless  standalone  stanford  starp  startup  state  statemachine  static  statistic  statistical  statistics  stats  stdout  stochastic  stock  stopwords  strategy  strategypattern  stream  streaming  streams  street  string  strip  struct  study  stuff  style  subject  sublime  sublime_text  subscription  subsequence  subversion  sudoku  suffix  suffixtrie  suggest  suggestion  summarization  summarizer  summary  sunlight  supervisord  supress  survival  svd  svdpack  svg  svm  svn  svo  swarm  swig  switching  syck  symmetric  sympy  syntax  sys  sysadmin  t-sne  table  tag  tagcloud  tagger  tagging  talk  talks  tar  task  tdd  teaching  teams  technicalanalysis  technorati  television  temperature  template  temporal  tensorflow  test  testing  text  textmate  textmining  textrank  tfidf  the  theano  thesis  thread  threaded  threading  threshold  thrift  thumbnail  tidy  tiger  tile  time  timeit  timeout  timeseries  timex  tip  tips  to  todo  tofollow  tokenize  tokeziner  tomcat  tool  tools  top  topological  topost  torch  toread  tornado  totally  towatch  trac  tracking  trading  traffic  trail  training  transcoding  transition  translation  transparency  tredingtopics  tree  treemap  trees  trend  trending  trendingtopics  trends  tricks  trie  trimmed  triple  trust  tsp  tufte  tuning  tuple  tuples  turbogears  turk  tutorial  tutorials  tv  tweepy  tweets  twilio  twill  twisted  twitter  typedbytes  ubuntu  udf  UI  umass  undelete  undo  unicode  unicodedata  uninstall  unittest  unix  unsupervised  upenn  upgrade  upload  upstart  urban  url  urlconf  urlgrabber  urllib2  usb  user  usergroup  userguide  usfca  utf-8  utf8  utilities  utils  validation  values  variance  varnish  vectorizer  vertical  via:chl  via:codahale  via:craigs  via:csantos  via:dhellmann  via:dwf  via:inkdroid  via:jhammerb  via:jhofman  via:jolby  via:mcavoy76  via:nrichter  via:pfein  video  videogames  vim  virtual  virtualenv  virus  vision  visualbasic  visualization  viterbi  vm  vocabulary  voldemort  voting  warnings  weather  weave  web  web2.0  webanalytics  webapp  webcam  webfaction  webnode  webpage  webservice  webservices  website  weekday  weibull  weights  weka  whitespace  widefinder  wii  wiki  wikidata  wikipedia  wikiword  window  windows  wizard  word  word2vec  wordcount  wordlist  wordnet  wordpress  word_mover  worker  wrapper  write  writing  ws-security  wsdl  x  X11  xapian  xen  xhtml  xls  xml  xmlunit  yahoo  yaml  yelp  youtube  yu  yum  z-transform  zapier  zip  zipcode  zsi 

Copy this bookmark: