情况
使用代码如下:
import pymongo
client = pymongo.MongoClient()
db = client['db_name']
col = db['col_name']
demos = col.find({})
for cursor in demos:
deal_data_analysis(cursor)
报错如下:
pymongo.errors.CursorNotFound: Cursor not found
原因分析
col.find()获得的demos是cursor游标位置,具体使用到某个数据时,才会去查询数据库把数据拿出来。它返回的不是所有的数据,而实际上是一个“cursor”。
它的默认原理是 (具体数字需要查询mongodb官网,不同版本默认的阈值有可能有差异) :第一次向数据库查询 101 个文档,或 大于1M小于16M的数据文档,取决于哪个条件先满足;之后每次 cursor 中的文档用尽后,查询 4 MB 的文档。
另外,find() 默认返回的是 一个 10 分钟无操作后超时的 cursor。如果我一个 batch 的文档十分钟内没处理完,过后再处理完了,再用同一个 cursor id 向服务器取下一个 batch,这时候 cursor id 当然已经过期了,这也就能解释为啥我得到 cursor id not found 无效的错误了。
思路总结:默认 mongo server维护连接的时间窗口是十分钟;默认 单次从 server获取数据是101条或者 大于1M小于16M的数据,所以默认情况下,如果10分钟内未能处理完数据,则抛出该异常。
解决方式
解决的方式有以下几种,适应不同场景,大家需要根据自己的应用场景进行选择和调整参数:
方案一 使用batch_size()
demos
来源:oschina
链接:https://my.oschina.net/u/4313158/blog/4314518