Milvus

2020 LF AI & DATA Day 圆满落幕

ε祈祈猫儿з 提交于 2020-11-10 21:26:14
上周六 (11/7)于深圳鹏城实验室举行的 2020 LF AI & DATA Day 圆满结束。在这次的技术分享活动上,来自鹏城实验室、启智社区、MindSpore 社区、华为、腾讯、百度、ZTE、Zilliz、滴滴等资深 AI 专家齐聚一堂,分享了他们在开源与 AI 的建设与创新。 大会开场 图: 新一代人工智能产业技术创新战略联盟开源工作组组长、OpenI 启智平台秘书长刘明 (左上)、 鹏城实验室人工智能研究中心副主任田永鸿 (右上)、 OpenI 启智社区运营中心主任 余跃 (左下)、 LF AI & DATA APAC 总监杨轩 (右下)开场致辞 活动首先由 新一代人工智能产业技术创新战略联盟开源工作组组长刘明 、 鹏城实验室人工智能研究中心副主任田永鸿 ,OpenI 启智社区运营中心主任余跃与 LF AI & DATA 亚太总监杨轩做了精彩的开场。并且宣布未来 三方将加强合作,一同为全球各地开源社区助力。 图:LF AI & DATA 基金会理事会主席星爵进行现场分享 接着, LF AI & DATA 基金会理事会主席星爵为大家介绍了基金会发展近况。 2020 年是一个不平凡的一年,政府与各级组织纷纷支持以开源的方式来作为科技创新的重要的力量。 同时,从资本界来讲,开源获得的关注也是空前的。今年,中国开源项目也逐渐受到了资本的重视,估计今年中国开源项目共已获得了 将近

Milvus数据管理-数据段合并机制

纵饮孤独 提交于 2020-08-17 19:14:19
我们在 《Milvus在大规模向量检索场景下的数据管理》 这篇文章说过,当向量数据不断地进入 Milvus 时,系统后台会持续地将插入缓冲区中的数据写入磁盘,形成很多小文件。 我们称这些文件为数据段 。大量零碎的数据段有两个明显缺点: 不利于元数据管理,对SQLite/MySQL的访问频繁 索引过于分散,影响查询的性能 因此Milvus后台落盘任务会不断地把这些小数据段合并成大数据段,直到合并后的数据段大小超过index_file_size(默认1024MB)这个阈值。 (一)旧版本合并机制的缺点 在0.9.0版本以前,数据段的合并策略是简单粗暴的:先从元数据拿到一批需要被合并的数据段,然后循环遍历合并。如下图所示: 假设拿到7个数据段,从第一个开始合并到第三个,segment_8已经超过1024MB的大小,就停止对segment_8的合并;接着从第四个合并到第六个,合并为segment_9;合并完成后将前六个数据段标记为软删除,最终剩下三个数据段:segment_7,segment_8,segment_9。 这种合并机制有一个很大的缺点:占用过多的磁盘空间。 《Milvus在大规模向量检索场景下的数据管理》这篇文章介绍过,数据段的删除是分为两个阶段的:软删除和硬删除。当数据段被标记为软删除后,并不会立刻从磁盘中清理掉,而是会保留一段时间,直到后台清理线程将其硬删除,才会被清理掉

科技创新加速 AI 应用落地,Zilliz 荣获 “ 科创未来之星“大奖

99封情书 提交于 2020-08-17 03:37:40
7 月 23 日由上海报业集团和上海闵行区指导,界面·财联社主办、科创板日报承办的“科创板一周年峰会”在上海闵行区虹桥基金小镇正式举办,包括多家科创板上市公司在内的上百位企业集聚此次峰会,并于峰会上进行了“2020 科创之星“颁奖仪式。 Zilliz 由于其在加速 AI 应用落地方面表现突出, 获颁 “科创未来之星” 大奖。 Zilliz 凭 借团队多年在异构计算 与大数据的经验,研发出开源的向量搜索引擎- Milvus, 帮助企业在海量的向量中进行高速的分析搜索,加速 AI 场景的应用。 Milvus 借由对向量检索算法的优化以及异构计算资源的整合,可以为企业级应用提供稳定、高性能的向量检索支持并可以在单台通用服务器上完成对十亿级数据的毫秒级搜索,助力用户高效完成对非结构化数据的检索。 开源至今反响热烈,仅 9 个月的时间即在全球取得了超过 300 家的企业与组织用户, 并已落地于互联网、银行、制药等行业。 当天下午,Zilliz 合伙人顾钧和北京中科宇航探索技术董事长杨毅强、上海交大智邦科技创始人凌卫国、上海钛米机器人创始人潘晶、上海几何伙伴智能驾驶创始人薛旦一同在 圆桌会议 “后疫情时代科创企业的机遇与挑战“分享初创公司如何乘风破浪,让危机变机遇。 ZILLIZ 于 2017 年成立于上海,以重新定义数据科学为愿景,专注于研发利用新一代异构计算技术的开源数据科学软件。

0730 直播|利用 Milvus 搭建生物多因子认证系统

人走茶凉 提交于 2020-08-14 06:59:37
信息安全越来越重要,而身份验证是其中最重要的一项。随着人工智能的逐渐成熟,生物多因子的认证技术也被更加广泛的应用到不同场景。所谓生物多因子认证,就是利用认证人所拥有的生物信息(包括指纹、人脸、声纹等)实现的一种更加安全的身份认证方式。 这次的直播我们将教你如何用 InsightFace 提取人脸特征, Deep Speaker 提取声纹特征,然后在 Milvus 中做混合认证。 | 直播流程 InsightFace 与 Deep Speaker 介绍 Demo搭建 答疑 | 讲师介绍 陈室余 ZILLIZ 数据工程师 | 活动信息 时间: 7/30 (Thur.) 7:00 PM - 7:45 PM 直播报名: https://www.slidestalk.com/m/242 (示说网,”阅读原文“可跳转至页面) https://www.huodongxing.com/go/9555233068622 (活动行) | 看直播拿好礼 我们会从报名的名单中抽出 15 名 幸运的童鞋送出限量的小哥哥.....身上的 Milvus (第二代)T恤 ! 7 /29 前报名才有机会参加抽奖喔,手慢无! 示说网或活动行这两个平台报名都可以参加抽奖! 穿上这件T恤你就是今夏最靓的仔 | 欢迎加入 Milvus 社区 github.com/milvus-io/milvus | 源码 milvus

Chat with Milvus #17- Milvus tutorials与Phantoscope图像搜索引擎开源

限于喜欢 提交于 2020-08-11 20:26:32
Chat with Milvus #17视频- Milvus Tutorials & Phantoscope 上线啦! 本周的 Milvus 线上会议中,我们与参加者分享了两个好消息,第一个是 Milvus 教程 的上线。以后你就可以更轻易的在 Milvus 官网上找到开发需的资源啦! 第二个好消息是大家期待已久的一个功能更强大的以图搜图系统 Phantoscope 推出了第一个版本。 Phantoscope 是一个基于 Milvus 与深度学习的云原生图像搜索引擎:十亿级别的图像的高性能搜索。完全兼容 Tensorflow、Pytorch、TensorRT、ONNX,XGBoost 等主流深度学习框架。提供 GUI 展示搜索效果、管理 Phantoscope 资源。原生支持 Docker 与 Kubernetes。 想知道更多的朋友, 欢迎直接到 GitHub 走走: https://github.com/zilliztech/phantoscope ​ github.com 那这个 Phantoscope 是什么意思, 它应该怎么念呢? . iciba.com/word? w=phantoscope 没有时间看视频的朋友, 也可以看看下面的部分文字实录。 | Milvus Q&A 部分文字实录 Attendee= 参会者 ⌛ 时间戳 09:17-16:41 Attendee A

开源项目的编译优化实践

故事扮演 提交于 2020-08-07 04:04:22
Zilliz 公司以 “重新定义数据科学” (Reinvent Data Science)为愿景,专注于研发利用新一代异构计算的开源数据科学软件。随着各项目的蓬勃发展,我们对于持续集成、持续交付、持续部署(CI/CD)都提出了更高的要求。本文是 CI/CD 系列的开篇,重点介绍持续集成的编译优化实践。 ​ | 问题与挑战 在编译构建过程中我们遇到以下几个问题: 1) 编译时间较长 项目每天都要完成上百次的代码集成,面对几十万行的代码量,开发人员进行小的 feature 改动都有可能会导致工程的全量编译,需要花费超过一个小时或者更长时间,显然让人难以接受。 2) 编译环境复杂 项目代码在不同的操作系统(CentOS、Ubuntu 等)、底层依赖库(GCC、LLVM、CUDA 等)、硬件架构等环境下进行编译,并且各编译环境下生成的编译产物都很有可能无法在其他平台下使用。 3) 项目依赖关系复杂 当前项目编译所涉及的各功能组件依赖以及第三方依赖不下三四十个,项目发展时常带来依赖关系的变动,难免会遇到依赖冲突问题。依赖之间的版本控制过于复杂,更新依赖版本容易导致影响其他组件业务。 4) 第三方依赖下载缓慢或无法下载 网络延迟或者第三方依赖仓库不稳定等问题所导致资源下载缓慢或访问失败,严重影响代码集成构建。 | 主要思路 对项目的依赖关系进行解耦。将依赖关系复杂的组件进行拆分

快速搭建对话机器人,就用这一招!

守給你的承諾、 提交于 2020-04-21 02:29:05
https://github.com/milvus-io/milvus 问答系统是自然语言处理领域一个很经典的问题,它用于回答人们以自然语言形式提出的问题,有着广泛的应用。其经典应用场景包括:智能语音交互、在线客服、知识获取、情感类聊天等。常见的分类有:生成型、检索型问答系统;单轮问答、多轮问答系统;面向开放领域、特定领域的问答系统。本文涉及的主要是在检索型、面向特定领域的问答系统,通常称之为——智能客服机器人。 在过去,客服机器人的搭建通常需要将相关领域的知识(Domain Knowledge),转化为一系列的规则和知识图谱。构建过程中重度依赖“人工”智能,换个场景,换个用户都需要大量的重复劳动。 随着深度学习在自然语言处理(NLP)中的应用,机器阅读可以直接自动从文档中找到匹配问题的答案。深度语言模型会将问题和文档转化为语义向量,从而找到最后的匹配答案。本文借助Google开源的Bert模型结合Milvus开源向量搜索引擎,快速搭建基于语义理解的对话机器人。 | 整体架构 本文通过语义相似度匹配来实现一个问答系统,大致的构建过程: 获取某一特定领域里大量的带有答案的中文问题(本文将之称为标准问题集)。 使用Bert模型将这些问题转化为特征向量存储在Milvus中,同时Milvus将 给这些特征向量分配一个向量ID。 将这些代表问题的ID和其对应的答案存储在PostgreSQL中

直播回放|手把手教你搭建 Milvus 以图搜图系统

删除回忆录丶 提交于 2020-04-06 08:03:47
响应众多朋友对以图搜图技术的热情, 上周三我们推出了 Milvus 第一期线上直播。 用 Milvus 以图搜图真的很简单, 别说我骗你, 有影片为证! 点击链接进入B 站观看回放: https://www.bilibili.com/video/BV1WE411P7ej/ 来源: oschina 链接: https://my.oschina.net/u/4209276/blog/3213173

Milvus 实战 | 基于分区表实现结构化数据与非结构化数据的混合查询

五迷三道 提交于 2020-03-12 21:44:50
通过深度学习的神经网络模型,可以将图片、视频、语音、还有文本等非结构化数据转换为特征向量。除了结构化的向量,这些数据往往也需添加其他属性。如人脸图片,可以添加性别、是否戴眼镜、图片抓取时间等标签;文本可以添加语言类型、语料分类、文本创建时间等标签。由于这些特性,往往需要实现结构化数据和非结构化数据的混合查询。 Milvus 是一款开源的、针对海量特征向量的相似性搜索引擎,在此之前,Milvus 曾给出过一个结合 PostgreSQL 实现混合查询的方案。该方案是先将特征向量在 Milvus 内做相似度检索,然后 Milvus 返回的结果集再通过 PostgreSQL 过滤结构化属性,得到最终结果。由于是先做向量的相似度检索,然后再从相似度搜索得出的结果中筛选满足属性条件的结果,可能会造成结果集有损失,因为满足属性的一些结果集可能在向量相似度检索时已经被过滤掉了,而相似度靠前的向量集却不满足附加的属性条件。 得益于 Milvus 0.6.0 新增的分区功能,上述问题在 Milvus 0.6.0 有了新的解决方案,同时 Milvus 的应用场景也更加广阔( Milvus 分区功能详解: Milvus 0.6.0新增功能:分区表 )。那么,Milvus 分区功能是如何来解决混合查询的问题呢? 解决方案 将非结构化数据对应的多个属性标签组合为一个字符串作为 Milvus 一个分区的标签

向量索引算法HNSW和NSG的比较

*爱你&永不变心* 提交于 2020-03-12 21:44:35
随着机器学习、深度神经网络的不断发展,数据的向量化无处不在。而针对海量向量数据的搜索,无论是工业界还是学术界都做了大量的研究。本文主要讲解两个基于近邻图的向量搜索算法,并比较其适用场景。 这里不得不先提一个学术上的对应名词 Approximate Nearest Neighbor Search (ANNS),近似的最近邻搜索。之所以近似是由于精确的近邻搜索太过困难,研究随之转向了在精确性和搜索时间做取舍。由于精确的向量搜索在海量数据的场景下搜索时间过长,所以目前的常见做法,是在向量上建立近似搜索索引。 这里先介绍一下现在常用的索引类型以及它们的局限性。首先是基于树的算法,这里举例较为经典的 KD-tree。这种索引类型在向量维度稍大一些的情况下 (d>10),索引性能会急剧下降甚至不如暴力搜索。再说说基于 LSH (locality-sensitive hashing) 的索引,如果想要取得高召回率,LSH算法必须要建立大量的Hash表,这会使得索引大小膨胀数倍。不仅如此,树和LSH都属于空间切分类算法,此类算法有一个无法避免的缺陷,即为了提高搜索精度,只能增大搜索空间。图1-A描述了基于树的切分搜索,每个虚线分割出的区域是一个子树,如果搜索向量在子树的边缘时,算法需要搜索多个子树来获取结果。图1-B描述了基于 Hash 的切分搜索,虚线描述了每个独立的hash表