PaddlePaddle

Milvus x PaddlePaddle | 手把手搭建个性化推荐系统

笑着哭i 提交于 2019-12-27 17:28:07
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 作者:陈室余 点击查看 -> Milvus Repo 背景介绍 在网络技术不断发展和电子商务规模不断扩大的背景下,商品数量和种类快速增长,用户需要花费大量时间才能找到自己想买的商品,这就产生了 信息过载 问题。为了解决这个问题,个性化推荐系统(Recommender System)应运而生。 个性化推荐系统是信息过滤系统(Information Filtering System)的子集,它可以用在很多领域,如电影、音乐、电商和 Feed 流推荐等。个性化推荐系统通过分析、挖掘用户行为,发现用户的个性化需求与兴趣特点,将用户可能感兴趣的信息或商品推荐给用户。与搜索引擎不同,个性化推荐系统不需要用户准确地描述出自己的需求,而是根据用户的历史行为进行建模,主动提供满足用户兴趣和需求的信息。 本文利用 PaddlePaddle 深度学习平台建立模型,结合 Milvus 向量相似度检索引擎,搭建个性化推荐系统,可以快速准确地为用户提供感兴趣的信息。 数据准备 以 MovieLens 百万数据集 (ml-1m) 为例进行介绍,ml-1m 数据集包含了 6,000 位用户对 4,000 部电影的 1,000,000 条评价,由 GroupLens Research 实验室搜集整理。在原始数据中包含电影的特征数据

【深度学习系列】PaddlePaddle垃圾邮件处理实战(二)

那年仲夏 提交于 2019-12-27 14:42:36
PaddlePaddle垃圾邮件处理实战(二) 前文回顾   在上篇文章中我们讲了如何用支持向量机对垃圾邮件进行分类,auc为73.3%,本篇讲继续讲如何用PaddlePaddle实现邮件分类,将深度学习方法运用到文本分类中。 构建网络模型   用PaddlePaddle来构建网络模型其实很简单,首先得明确paddlepaddle的输入数据的格式要求,知道如何构建网络模型,以及如何训练。关于输入数据的预处理等可以参考我之前写的这篇文章 【深度学习系列】PaddlePaddle之数据预处理 。首先我们先采用一个浅层的神经网络来进行训练。 具体步骤 读取数据 划分训练集和验证集 定义网络结构 打印训练日志 可视化训练结果 读取数据   在PaddlePaddle中,我们需要创建一个reador来读取数据,在上篇文章中,我们已经对原始数据处理好了,正负样本分别为ham.txt和spam.txxt,这里我们只需要加载数据即可。 代码实现: # 加载数据 def loadfile(): # 加载正样本 fopen = open('ham.txt','r') pos = [] for line in fopen: pos.append(line) #加载负样本 fopen = open('spam.txt','r') neg = [] for line in fopen: neg.append

【深度学习系列】PaddlePaddle垃圾邮件处理实战(一)

白昼怎懂夜的黑 提交于 2019-12-27 14:42:15
PaddlePaddle垃圾邮件处理实战(一) 背景介绍   在我们日常生活中,经常会受到各种垃圾邮件,譬如来自商家的广告、打折促销信息、澳门博彩邮件、理财推广信息等,一般来说邮件客户端都会设置一定的关键词屏蔽这种垃圾邮件,或者对邮件进行归类,但是总会有一些漏网之鱼。   不过,自己手动做一个垃圾邮件分类器也并不是什么难事。传统的机器学习算法通常会采用朴素贝叶斯、支持向量机等算法对垃圾邮件进行过滤,今天我们主要讲如何用PaddlePaddle手写一个垃圾邮件分类器。当然,在讲PaddlePaddle做垃圾邮件处理之前,先回顾一下传统的机器学习算法是如何对垃圾邮件进行分类的。 了解数据集   首先先了解一下今天的数据集:trec06c。trec06c是一个公开的垃圾邮件语料库,由国际文本检索会议提供,分为英文数据集(trec06p)和中文数据集(trec06c),其中所含的邮件均来源于真实邮件保留了邮件的原有格式和内容。 文件下载地址: trec06c 文件格式: trec06c │ └───data │ │ 000 │ │ 001 │ │ ... │ └───215 └───delay │ │ index └───full │ │ index 文件内容: 垃圾邮件示例:本公司有部分普通发票(商品销售发票)增值税发票及海关代征增值税专用缴款书及其它服务行业发票,公路、内河运输发票

PaddlePaddle分布式推荐算法实践

我与影子孤独终老i 提交于 2019-12-17 06:33:26
项目介绍 本项目只实现了DeepFM论文中介绍的模型的DNN部分,DNN部分模型结构如下: 该项目目前仅支持在CPU环境下运行 在百度云上运行集群训练 参考文档 在百度云上启动Fluid分布式训练 在百度云上部署一个CPU集群。 用preprocess.py处理训练数据生成train.txt。 将train.txt切分成集群机器份,放到每台机器上。 用上面的 分布式训练 中的命令行启动分布式训练任务. 在PaddleCloud上运行集群训练 如果你正在使用PaddleCloud做集群训练,你可以使用cloud.py这个文件来帮助你提交任务,trian.py中所需要的参数可以通过PaddleCloud的环境变量来提交。 文件结构 本项目的文件结构如下 | - - raw # 原始数据集 | - - models # 训练过程中暂存的模型 | - - infer_model # 固化后的模型 | - - train . py # 训练脚本 | - - reader . py # 数据读取脚本 | - - preprocess . py # 数据预处理脚本 | - - cloud . py # 集群训练脚本 | - - network_conf . py # 构建模型 | - - freeze_infer . py # 使用固化模型进行预测的脚本 | - - infer . py #

国货之光!百度飞桨与华为麒麟重磅合作

旧城冷巷雨未停 提交于 2019-12-16 10:52:57
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 7月3日-7月4日,“Baidu Create 2019”百度AI开发者大会,在中国北京·国家会议中心举行。 今天上午,在百度AI开发者大会现场,百度首席技术官王海峰与华为消费者BG软件总裁王成录博士联合宣布,百度飞桨与华为麒麟达成深度合作。 这也意味着,中国人自己的深度学习平台将运行在中国人自研的全球领先的芯片上,两大国货之光将充分发挥各自在软、硬件方面的优势,走出中国智能之路。 百度飞桨与华为麒麟达成深度合作:两大国货之光强强联合 资料显示,百度早在2013年即设立全球首个深度学习研究院。经过沉淀与积累,2016年百度PaddlePaddle正式开源,成为中国首个也是目前国内唯一开源开放、功能完备的端到端深度学习平台。 今年4月份,百度首次公布PaddlePaddle中文名“飞桨”。6月28日,王海峰参加2019中国国际软件博览会发表演讲时表示,深度学习框架是智能时代的操作系统。百度飞桨深度学习平台正在推动人工智能的快速发展,加快中国的产业智能化进程。 据悉,飞桨已开源70多个经过真实业务场景验证的官方模型,涵盖视觉、NLP、推荐等AI核心技术领域,成为官方支持模型最多的深度学习平台。 来源: oschina 链接: https://my.oschina.net/u/3008585/blog/3078647

用PaddlePaddle鉴定红酒质量

扶醉桌前 提交于 2019-12-15 01:46:05
PaddlePaddle实现多层神经网络 欢迎大家来到这次实验,在这次实验中我们将使用PaddlePaddle来实现一个多层神经网络,这个多层神经网络包含2个隐藏层,并且在隐藏层中使用到了Relu激活函数,在最后的输出层使用了Softmax激活函数。多层神经网络具有比逻辑回归更强的学习能力,并且更适合解决多分类问题,现在让我们进入实验来看看多层神经网络与逻辑回归之间的差异性吧! 你将学会 实现一个具有两个隐藏层的神经网络,用于解决多分类问题 使用batch_norm做数据归一化 在隐藏层中使用Relu激活函数 在输出层使用Softmax激活函数 使用classification_cost 使用Adam作为优化器 现在让我们进入实验吧! 1 - 引用库 首先,载入几个需要用到的库,它们分别是: numpy:一个python的基本库,用于科学计算 matplotlib.pyplot:用于生成图,在验证模型准确率和展示成本变化趋势时会使用到 paddle.fluid:paddle 的新一代的版本 os:在本例中用于获取文件或目录的路径 csv:用于对csv文件的存储和读取等操作 In[2] import matplotlib import numpy as np import matplotlib.pyplot as plt import os import csv import

基于PaddlePaddle的图像分类实战 | 深度学习基础任务教程系列(一)

匆匆过客 提交于 2019-12-14 11:17:34
图像相比文字能够提供更加生动、容易理解及更具艺术感的信息,图像分类是根据图像的语义信息将不同类别图像区分开来,是图像检测、图像分割、物体跟踪、行为分析等其他高层视觉任务的基础。图像分类在安防、交通、互联网、医学等领域有着广泛的应用。 一般来说,图像分类通过手工提取特征或特征学习方法对整个图像进行全部描述,然后使用分类器判别物体类别,因此如何提取图像的特征至关重要。基于深度学习的图像分类方法,可以通过有监督或无监督的方式 学习 层次化的特征描述,从而取代了手工设计或选择图像特征的工作。 深度学习模型中的卷积神经网络(Convolution Neural Network, CNN) 直接利用图像像素信息作为输入,最大程度上保留了输入图像的所有信息,通过卷积操作进行特征的提取和高层抽象,模型输出直接是图像识别的结果。这种基于"输入-输出"直接端到端的学习方法取得了非常好的效果。 本教程主要介绍图像分类的深度学习模型,以及如何使用PaddlePaddle在CIFAR10数据集上快速实现CNN模型。 项目地址: http://paddlepaddle.org/documentation/docs/zh/1.3/beginners_guide/basics/image_classification/index.html 基于ImageNet数据集训练的更多图像分类模型,及对应的预训练模型

基于PaddlePaddle的图像分类实战 | 深度学习基础任务教程系列(一)

送分小仙女□ 提交于 2019-12-14 04:32:44
图像相比文字能够提供更加生动、容易理解及更具艺术感的信息,图像分类是根据图像的语义信息将不同类别图像区分开来,是图像检测、图像分割、物体跟踪、行为分析等其他高层视觉任务的基础。图像分类在安防、交通、互联网、医学等领域有着广泛的应用。 一般来说,图像分类通过手工提取特征或特征学习方法对整个图像进行全部描述,然后使用分类器判别物体类别,因此如何提取图像的特征至关重要。基于深度学习的图像分类方法,可以通过有监督或无监督的方式 学习 层次化的特征描述,从而取代了手工设计或选择图像特征的工作。 深度学习模型中的卷积神经网络(Convolution Neural Network, CNN) 直接利用图像像素信息作为输入,最大程度上保留了输入图像的所有信息,通过卷积操作进行特征的提取和高层抽象,模型输出直接是图像识别的结果。这种基于"输入-输出"直接端到端的学习方法取得了非常好的效果。 本教程主要介绍图像分类的深度学习模型,以及如何使用PaddlePaddle在CIFAR10数据集上快速实现CNN模型。 项目地址: http://paddlepaddle.org/documentation/docs/zh/1.3/beginners_guide/basics/image_classification/index.html 基于ImageNet数据集训练的更多图像分类模型,及对应的预训练模型

基于PaddlePaddle的图像分类实战 | 深度学习基础任务教程系列(一)

本秂侑毒 提交于 2019-12-13 06:09:08
图像相比文字能够提供更加生动、容易理解及更具艺术感的信息,图像分类是根据图像的语义信息将不同类别图像区分开来,是图像检测、图像分割、物体跟踪、行为分析等其他高层视觉任务的基础。图像分类在安防、交通、互联网、医学等领域有着广泛的应用。 一般来说,图像分类通过手工提取特征或特征学习方法对整个图像进行全部描述,然后使用分类器判别物体类别,因此如何提取图像的特征至关重要。基于深度学习的图像分类方法,可以通过有监督或无监督的方式 学习 层次化的特征描述,从而取代了手工设计或选择图像特征的工作。 深度学习模型中的卷积神经网络(Convolution Neural Network, CNN) 直接利用图像像素信息作为输入,最大程度上保留了输入图像的所有信息,通过卷积操作进行特征的提取和高层抽象,模型输出直接是图像识别的结果。这种基于"输入-输出"直接端到端的学习方法取得了非常好的效果。 本教程主要介绍图像分类的深度学习模型,以及如何使用PaddlePaddle在CIFAR10数据集上快速实现CNN模型。 项目地址: http://paddlepaddle.org/documentation/docs/zh/1.3/beginners_guide/basics/image_classification/index.html 基于ImageNet数据集训练的更多图像分类模型,及对应的预训练模型

基于PaddlePaddle的图像分类实战 | 深度学习基础任务教程系列(一)

喜欢而已 提交于 2019-12-12 09:21:44
图像相比文字能够提供更加生动、容易理解及更具艺术感的信息,图像分类是根据图像的语义信息将不同类别图像区分开来,是图像检测、图像分割、物体跟踪、行为分析等其他高层视觉任务的基础。图像分类在安防、交通、互联网、医学等领域有着广泛的应用。 一般来说,图像分类通过手工提取特征或特征学习方法对整个图像进行全部描述,然后使用分类器判别物体类别,因此如何提取图像的特征至关重要。基于深度学习的图像分类方法,可以通过有监督或无监督的方式 学习 层次化的特征描述,从而取代了手工设计或选择图像特征的工作。 深度学习模型中的卷积神经网络(Convolution Neural Network, CNN) 直接利用图像像素信息作为输入,最大程度上保留了输入图像的所有信息,通过卷积操作进行特征的提取和高层抽象,模型输出直接是图像识别的结果。这种基于"输入-输出"直接端到端的学习方法取得了非常好的效果。 本教程主要介绍图像分类的深度学习模型,以及如何使用PaddlePaddle在CIFAR10数据集上快速实现CNN模型。 项目地址: http://paddlepaddle.org/documentation/docs/zh/1.3/beginners_guide/basics/image_classification/index.html 基于ImageNet数据集训练的更多图像分类模型,及对应的预训练模型