Tôi là Duyệt

Python - Nhận dạng xe hơi với OpenCV

Trong bài này, mình sẽ hướng dẫn sử dụng OpenCV để nhận diện xe hơi trong ảnh (video frame) với đặc trưng haar, sử dụng file mô hình đã được trained.

Bài viết chỉ giúp hình dung code trên Opencv chứ không đi sâu vào thuật toán. Trong bài này mình sẽ hướng dẫn cách build/install opencv trên Ubuntu, một chương trình đơn giản detect 1 vùng ảnh, phân loại đó có phải xe hơi hay không và vẽ 1 hình chữ nhật đánh dấu.

Tolks.io - Put your story up on the Internet

[Fun] project tolks.io này giúp ta tạo một đoạn hội thoại ngắn giữa các nhân vật, trông rất ngộ nghĩnh. Trang này được viết bằng Vue.js



Homepage: https://tolks.io/

Machine Learning is Fun! (Vietnamese version)

Chuỗi bài viết "Machine Learning is Fun!" này mình lược dịch từ bài viết gốc của tác giả ageitgey. Mình tin chắc có rất nhiều bạn đã và đang quan tâm đến Machine Learning hiện nay. "Machine Learning is Fun!" chắc chắn sẽ mang cho bạn đến cho bạn cái nhìn từ cơ bản đến chuyên sâu nhất về thế giới Machine Learning.

Phân lớp văn bản

Trong Machine Learning và NLP, phân lớp văn bản là một bài toán xử lí văn bản cổ điển, gán các nhãn phân loại lên một văn bản mới dựa trên mức độ tương tự của văn bản đó so với các văn bản đã được gán nhãn trong tập huấn luyện.

Các ứng dụng của phân lớp văn bản thường rất đa dạng như: lọc email spam, phân tích cảm xúc (sentiment analysis), phân loại tin tức, ...

Sau mình sẽ giới thiệu vài nét rất tổng quát các bước để có thể phân lớp văn bản, một số kỹ thuật thường sử dụng, các thư viện, đưa ra từ khóa để tự tìm hiểu thêm và chi tiết ở các bài viết khác.

natural - NLTK cho Javascript

"Natural" được ví như nltk cho Node. natural có nhiều chức năng xử lý ngôn ngữ tự nhiên như: Tokenizing, stemming, classification, phonetics, tf-idf, WordNet, string similarity, ...

Nếu bạn là người yêu thích cả NLP và Javascript/Node, thì đây là một thư viện thú vị nên thử qua.

gpu.js - Tăng tốc Javascript với GPU

Mình lướt github và vô tình thấy thư viện gpu.js này. gpu.js tự động compile mã Javascript thành một ngôn ngữ ánh xạ khác, và chạy trên GPU nhờ vào WebGL API. Nếu máy trình duyệt không có GPU, mã JS vẫn được thực thi bình thường.

URLs là UI

URLs are UI - mình đã nghe cái này nhiều và từ lâu rồi. Điều này hết sức rõ ràng và mình thấy hoàn toàn đúng.


Như Jakob Nielsen nói năm 1999, hay Tim Berners-Lee, URL góp phần tăng trải nghiệm người dùng, là một phần của UI, thường có tính chất như:
  • domain name dễ nhớ và dễ đọc
  • URL ngắn
  • URL dễ gõ
  • thể hiện được cấu trúc site
  • không bị thay đổi theo thời gian
  • ...

Cài Apache Spark standalone bản pre-built

Mình nhận được nhiều phản hồi từ bài viết BigData - Cài đặt Apache Spark trên Ubuntu 14.04 rằng sao cài khó và phức tạp thế. Thực ra bài viết đó mình hướng dẫn cách build và install từ source.

Thực tế, Spark còn hỗ trợ cho ta nhiều phiên bản pre-built cùng với Hadoop. Pre-build tức Spark đã được build sẵn và chỉ cần sử dụng thôi. Cách làm như sau.


Explain Shell - explainshell.com


Bắt gặp một command linux trong một tutorial trên Internet nhưng không hiểu ý nghĩa của nó, ExplainShell.com sẽ giải thích giúp bạn một cách chi tiết: command đó làm việc gì, ý nghĩa các tham số, v.v ...



NLP - Truyện Kiều Word2vec

Trong các dự án gần đây mình làm nhiều về Word2vec, khá có vẻ là useful trong việc biểu diễn word lên không gian vector (word embedding). Nói thêm về Word2vec, trong các dự án nghiên cứu W2V của Google còn khám phá được ra tính ngữ nghĩa, cú pháp của các từ ở một số mức độ nào đó. Ví dụ như bài toán King + Man - Woman = ? kinh điển dưới đây:

Sử dụng word2vec cho Truyện Kiều (Nguyễn Du), tuy không phải là một dataset lớn, nhưng biết đâu sẽ tìm ra mối liên hệ "bí ẩn" nào đó giữa Kiều và Mã Giám Sinh. Hay thật sự có phải chữ "Tài" đi với chữ "Tai" như Nguyễn Du đã viết?

Đồng hồ Node.js, Reactjs, Vuejs

Nếu bạn có người yêu là dân JS thì mấy kiểu đồng hồ sau làm quà có vẻ lý tưởng đấy :)
Bán tại dyoss Việt Nam nhé.



Multcloud - di chuyển, sao chép dữ liệu qua lại giữa các Cloud Drive (Google Drive, Dropbox, ...)

Google Drive hay Dropbox đều rất tiện dụng, mình sử dụng rất nhiều trong công việc mỗi ngày. Mỗi Cloud đều có cái hay riêng và đặc thù riêng.

Nhưng việc khó khăn là khi cần di chuyển dữ liệu giữa các Drive, nhất là khi dung lượng file cực kì lớn, không thể nào Download về rồi Up trở lại qua Cloud kia.

Trước mình đã từng bày cách Sync lồng các thư mục của Drive và Dropbox vào nhau. Còn hôm nay với Multcloud, bạn có thể dễ dàng sao chép, di chuyển folder, file giữa các tài khoản Cloud một cách nhẹ nhàng.


Python - Churn prediction with Graphlab

Churn prediction is the task of identifying whether users are likely to stop using a service, product, or website. With Graphlab toolkit, you can start with raw (or processed) usage metrics and accurately forecast the probability that a given customer will churn.