PDD 面试机器学习算法岗 2018.7.28

一面技术面

面试官是个老阿里，问的比较细节

谈谈LR：
- 我从指数函数族的角度和线性回归两个方面回答的：指数函数族方面就是先验的认为二分类问题服从伯努利分布，然后可以推出sigmoid函数(详见吴恩达cs229课件)；线性回归方面就是我们希望做分类的时候会给出一个阈值，超过就是1低于就是0，那就是个分段函数了，比较难以求解和优化，所以选了一个sigmoid函数作为二分类的近似
LR 怎么优化
- 优化方法，梯度下降，牛顿法
谈谈牛顿法
- 收敛速度快，指数级收敛，但是不保证线性收敛，只保证二阶导收敛
牛顿法怎么优化
- 记得看到过，忘了，没答上来
Cross Encropy是怎么推导出来的
- 没答上来，只说了熵怎么求，GG
谈谈决策树
- ID3，C4.5，CART，分别用信息增益，信息增益比和gini系数作为分裂节点的依据
决策树，比如ID3 怎么做特征的离散化的
- 我说分桶，看分布，比如长尾的话，前面的桶窄，后面桶宽
- 面试官觉得不行，我也不知道怎么答了
项目相关
- 这个因人而异，因为面试官是个老阿里，我在蚂蚁金服实习，所以很多东西面试官很熟，各种challenge，惨
算法题
- 算法题异常简单，先是面试官给了一列数字，让我画出二叉查找树，然后让我写出中序遍历，我说直接排序就行了，他说那不用写了，然后让我用c++写中序遍历，直接递归，4行代码。。。。

二面技术面

二面面试官穿着一个 google codejam的T恤，特别吓人，他确实是个ACMer，但是人很nice并且没有问算法题，这一面很奇怪，他基本就对着简历问了问项目，然后我特别擅长说，吹比了好久，然后各种侃，对于技术，对于比赛，对于规划啥的

HR面心态就很放松了，毕竟吹比正是在下强项，问题很多，都是根据回答问的，只能记住部分这部分我是按照自己的理解说的，肯定不完善甚至有很大问题，只做参考

你怎么看拼多多
- 拼多多主打的用户群体是一二线以外，40岁以上，少有高等教育的群体，这部分正好是被大家忽视的，而这部分群体人数基础非常大，可以产生巨大的价值，快手也是靠着片蓝海起家
为什么选择拼多多
- 只有学到的知识和拿到的钱是重要的，pdd像10年前早期的支付宝，业务飞速成长，一切都在开荒，有很大的机会
对商业模式的思考（具体具体记不清了，意思差不多）
- 第一，pdd抓的是一二线城市以外，40岁以上的用户，跟传统先打年轻受教育少的，这部分人口巨大，还是蓝海，然后我结合了支付宝的业务做了举例对比；第二，流量为王，腾讯巨大流量可以随便支持pdd起飞，我拿借呗和借呗流量养的小公司(就是我妹子公司)具体业务流程做了类比；第三，没有设计到最核心的淘宝业务，主打"山寨"产品，还没有正面交锋
你觉得pdd瓶颈在哪里
- 第一，跟支付宝一样，活跃度高的用户打掉了，低活用户增长乏力，类比了我做的花呗业务；第二，pdd不会一直卖山寨货，肯定要进入京东天猫这种销售领域的红海，会受到巨大冲击
pdd跟头条一样都是可以学技术，加班，给钱多，如果给你选你怎么选
- 第一头条技术强是在北京的头条，我必须留上海（为了户口）第二头条也是没有触及BAT的核心业务，可以安居一偶