-
推荐系统中的协同过滤方法实现
版本一MovieLens数据集MovieLens数据集是一个关于电影评分的数据集,里面包含了从IMDB, The Movie DataBase上面得到的用户对电影的评分信息,详细请看下面的介绍。links.csv:文件里面的内容是帮助你如何通过网站id在对应网站上找到对应的电影链接的。数据格式如下:movieId, imdbId, tmdbIdmovieId:表示这部电影在movielens上的id,可以通过链接https://movielens.org/movies/(movieId)来...…
-
推荐系统中的嵌入方法
推荐系统中的嵌入方法一、嵌入方法简介词嵌入方法最早在自然语言处理领域得到大规模的使用,可以通过学习词的低维向量表示,用于解决词的句法和语义相关的NLP问题,如词性标注、关键词提取、句子相似度等等,并且取得了非常好的效果。这种嵌入技术吸引了很多其他领域的研究者进行尝试用于更多的业务场景,如搜索、推荐等,并取得了很好的效果。熟悉深度学习的读者肯定知道,深度学习模型隐含层的向量可以作为一种生成嵌入表示的方法。自编码器和表示学习的一些方法和技术可以很好地用作嵌入,随着深度学习的发展壮大,嵌入方法得...…
-
关于colab的使用和注意事项
colab的使用以下以汽车分类为例:所需的代码和数据都在这里使用方式一:克隆仓库,直接执行.py主程序先将数据和代码都保存到github中,然后在colab中克隆仓库,切换目录,直接执行程序。!pwd!git clone https://github.com/xiaoliang8006/Car_classification.gitimport osos.chdir("/content/Car_classification/Code")!python model_keras.py使用方式二:...…
-
基于docker实现hadoop分布式系统
Hadoop的搭建有三种方式,单机版适合开发调试;伪分布式版,适合模拟集群学习;完全分布式,生产使用的模式。这篇文件介绍如何基于docker搭建完全分布式的hadoop集群,一个主节点,三个数据节点为例来讲解。思路是首先将第一台机器配置好,再将hadoop、Java、/root/.bashrc三个文件(夹)分发给所有机器。为了简单起见,这里假设有三个机器作为资源节点:hadoop102、hadoop103、hadoop104。每台机器上存储一个DataNode和一个NodeManager。...…
-
关于MacOS文件的显示与加密
MacOS的显示与隐藏$ alias show='defaults write com.apple.finder AppleShowAllFiles -boolean true ; killall Finder'$ alias hidden='defaults write com.apple.finder AppleShowAllFiles -boolean false ; killall Finder'将这两行命令放入~/.bash_profile或者/etc/profile或者/etc...…
-
汽车分类
This is a project about car classification.仓库地址: https://github.com/xiaoliang8006/Car_classificationData description4 Classes about car’s condition:unacc: unaccepted conditionacc: accepted conditiongood: good conditionvgood: very good conditionFea...…
-
ssh免密登录及scp、rsync文件传输
ssh免密登录Hadoop控制脚本(并非守护进程)依赖SSH来执行针对整个集群的操作。为了支持无缝式工作,安装配置好ssh之后,可以是集群内机器的hdfs用户和yarn用户免密码登录。实现的最简单的方法是创建一个公钥/私钥对,存放到NFS中,让整个集群共享该密钥对。如果home目录并没有通过NFS共享,则需要利用ssh-copy-id等方法共享公钥。注意:免密登录也不是万能的。免密登录时值从一台主机A的用户userA,使用userB用户(B主机的一个用户)登录到主机B。存在着严格的对应关系...…
-
chnroutesVPN-自动分流
仓库地址:https://github.com/xiaoliang8006/ChnroutesVPNchnroutes VPN 自动分流利用来自APNIC的数据生成路由命令脚本,让VPN客户端在连接时自动执行。通过这些路由脚本,可以让用户在使用VPN作为默认网关时,不使用VPN访问中国国内IP,从而减轻VPN负担,并提高访问国内网站的速度。前提在使用这些脚本之前,请确保你在自己的电脑上已经成功配置好一个VPN(IPsec or Ikev2 均可),并且让之以默认网关的方式运行(通常是默认配...…
-
知识图谱(一个简单的电影问答系统)
基于知识图谱的电影问答系统相关源代码GitHub上也有:https://github.com/xiaoliang8006/Movie-QA-System体验地址:http://104.224.145.185:5000此项目旨在构建一个关于电影的知识图谱问答系统。目前知识库本身的内容并不全面,但是麻雀虽小,五脏俱全,该项目对多种类型的问题形式都能得到正确的相应结果。以“李连杰”为例,本系统能够回答晴李连杰的个人简介,参演过的电影,参演过的电影类型,参演某一类型的电影都有什么。还能查询某个电影...…
-
linux安装ssr客户端
安装教程之前在ubuntu上用其他方式安装都不行,不知道为什么,用下面方法成功了:使用root用户登录,运行以下命令:wget http://www.djangoz.com/ssrsudo mv ssr /usr/local/binsudo chmod 766 /usr/local/bin/ssrssr installssr config该脚本会运行 git 命令,所以要先安装 git。sudo apt-get install git开机自启sudo vim /etc/rc.local#!...…
-
非常棒的一些网站
非常好用的几个网站:http测试: http://httpbin.org/网速测试: http://www.speedtest.cn/在线工具: http://tool.oschina.net (代码处理,格式转化,API文档等各种实用工具)超多实用工具: https://www.toolnb.com/深度学习:https://cuijiahua.com/blog/dl/scrapy官方抓取测试: http://quotes.toscrape.com转ico图标: http://www....…
-
代理池
ProxyPool仓库地址: https://github.com/xiaoliang8006/ProxyPool安装安装Python至少Python3.5以上安装Redis安装好之后将Redis服务开启配置代理池cd proxypool进入proxypool目录,修改settings.py文件PASSWORD为Redis密码,如果为空,则设置为None安装依赖pip3 install -r requirements.txt打开代理池和APIpython3 run.py获取代理 ...…
-
Linux tmux的安装和使用
介绍tmux是一个优秀的终端复用软件,可以切割窗口,也能保证SSH断开后再重连时环境的恢复。简单地说,tmux主要有两个功能最好用(这应该也是tmux的主要功能): split窗口。可以在一个terminal下打开多个终端,也可以对当前屏幕进行各种split,即可以 同时打开多个显示范围更小的终端。 在使用SSH的环境下,避免网络不稳定,导致工作现场的丢失。由于网络不稳定,SSH连接就会断开。如果使用了tmux,重新连接以后,就可以直接回到原来的工作环境,不但提高了...…
-
五子棋python实现
最近机器学习很火, 乘着这把火,我也学习了一把,但是没有直接学习深度学习,而是遵从一位老前辈,一定要把人工智能的所有方法都了解掌握了,才能真正的掌握人工智能。。。 我只能说, 路漫漫。。对于博弈类人工智能,其中一个方法就是:博弈树极大极小值alpha-beta剪枝搜索。是不是觉得这个名字很牛逼, 但经过我的详细解读, 你马上就会发现,原来不过如此。对于要实现一个会智能下五子棋的AI,要怎么去实现呢?自然想到的方法就是,让计算机把每一步的可能性都试一遍,看走在那效果最好。 其实就是搜索的方法...…
-
手写数字识别 by TensorFlow
仓库地址: https://github.com/xiaoliang8006/Handwritten_numeral_recognitionTensorFlow-example-by-MNISTTwo simple tensorflow examples: Predict handwriting images by using MNIST.使用TensorFlow框架对MINIST数据集进行训练,来识别手写数字图片 example1: 1.先用baseline_model.p...…
-
SSR链接解析
仓库地址: https://github.com/xiaoliang8006/SSRSS和SSR链接解析SS解析在 Base64 编码之前,ss链接的格式是这样的:ss://method:password@server:port那么如何解码? 在解码前,如果字符串中有包含 – 和 _ 的字符,要先分别替换为 + 和 / , 然后再通过 base64_decode 解码就行了。SSR解析在 Base64 编码之前,ssr 链接的格式是这样的:ssr://server:port:protoco...…
-
TREC比赛
《现代信息检索》 TREC 2018本课程大作业要求:在 TREC Precision Medicine (PM)2017 数据上进行检索竞赛。TREC 的 PM 评测任务就是为解决临床中的现实需求、促进医疗文献文本检索技术的发展与交流而设立。PM 评测任务致力于解决病人信息匹配,相关文档检索问题,主要有两个子任务:科学文献子任务和临床试验子任务。Scientific Abstract 是医疗文献的摘要部分,目标是为医生提供学术研究上相关的治疗信息。Clinical trials 是病人病...…
-
算法设计与分析题目
2018国科大 算法设计与分析 (卜东波老师)Github仓库地址:https://github.com/xiaoliang8006/Algorithm由于本人本科是非计算机专业,代码能力还不够强,仅供参考五个专题:1.分治DC2.动态规划DP3.贪心Greedy4.线性规划LP5.网络流NF其它可参考的资料 http://bitjoy.net/2016/01/29/algorithm-design-and-analysis-by-dbu/…
-
网站登录验证
Github仓库地址:https://github.com/xiaoliang8006/myWeb2…
-
垃圾短信分类
Github仓库地址:https://github.com/xiaoliang8006/SPAM_CLASSIFY_onlineIntroduction对垃圾短信进行分类 代码分为如下几个模块model该文件夹存放的是训练模型Data该文件夹下存放了程序的所有数据label.txt是带标签数据,用来模型训练和模型测试nolabel.txt是不带标签数据用来检验效果X.mtx和y.json是预处理得到的新闻内容和新闻标记feature.json是预处理得到的新闻特征vec_tfidf是预处理...…